2장 통계 분석
제1절 통계학 개론
1. 통계 분석 개요
◆통계
- 정의: 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
- 예: 일기예보, 물가/실업률, 정당 지지도, 임상실험 등 실험결과 분석 통계
- 필요자료: 조사,실험으로 확보, 조사대상에 따라 총 조사, 표본조사
◆통계자료 획득 방법
- 총조사: 대상 집단 모두에서 획득, 비용과 시간 소비 큼(인구 주택 총 조사)
- 표본조사: 대부분 사용
모집단: 조사하고자 하는 대상 집단 전체
원소: 모집단을 구성하는 체계
표본: 조사하기 위해 추출한 모집단 일부 원소
모수: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 표본추출방법
①단순랜덤추출법: 임의의 n개 추출(복원, 비복원)
②계통추출법: 번호 부여 후, n개 구간을 나누고 임의의 위치에서 매 k번째 항목 선택
③집락추출법: 군집 구분 후 군집별로 단순랜덤추출(지역표본추출, 다단계표본추출)
④층화추출법: 이질적인 원소 구성된 모집단에서 각 계층을 고루 대표할 수 있게 추출하는 방법. 유사한 원소끼리 총 생성 후 각 층에서 랜덤 추출(비례층화추출법, 불비례층화추출법)
◆자료형태
- 명목척도: 성별, 구매 여부 등
- 순서척도: 서열관계만 / 만족도, 학년 등
- 구간척도: 서열관계 + 간격 의미 / 온도 등
- 비율척도: 서열관계 + 간격 + 절대적 기준 0 존재 / 무게, 나이
2. 통계분석
◆통계분석 정의
- 통계분석 방법을 이용해 의사결정 하는 과정
- 기술통계: 여러 특성을 수량화하는 통계분석 방법론(평균, 표준편차, 그래프 등)
- 통계적 추론(추측통계): 모집단에 대한 의사결정(모수추정, 가설검정, 예측)
3. 확률 및 확률분포
◆확률: 특정사건이 일어날 가능성의 척도
- 표본공간: 모든 결과들의 집합
- 사건: 관찰자가 관심있는 사건(표본공간의 부분집합)
- 원소: 개개의 결과들
◆확률변수: 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 정의역: 표본공간 / 치역: 실수값인 함수
- 구분: 이산형 확률변수, 연속형 확률변수
◆이산형 확률변수
- 베르누이 확률분포: 결과 2개
- 이항분포: 베르누이 시행 n번 반복 시, k번 성공할 확률
- 기하분포: 첫 번째 성공이 있기 까지 x번 실패할 확률
- 다항분포: 이항분포 확장. 3가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포
- 포아송분포: 시간, 공간내에서 발생하는 사건의 횟수에 대한 확률분포
◆연속형 확률변수
- 균일분포
- 정규분포
- t분포: 두 집단 평균이 등일여부 확인 검정통계량
- 카이제곱 분포: 모평균, 모분산이 알려지지 않은 모집단의 모분산 가설 검정과 동질성 검정 사용
- F분포: 두 집단 간 분산의 동일성 검정에 사용
4. 추정과 가설검정
◆추정의 개요
- 확률표본
확률분포는 분포를 결정하는 모수를 가짐
특정한 확률분포로부터 독립적으로 반복해 표본 추출
관찰값들은 서로 독립적, 동일한 분포
- 추정: 표본으로부터 미지의 모수 추측하는 것(구분: 점추정/구간추정)
- 점추정: 모수가 특정값이라고 추정
표본평균, 표본분산 등
점추정량 조건: 불편성, 효율성, 일치성,충족성
- 구간추정: 모수가 특정 구간에 있을 것이라고 선언
점추정 정확성 보완
추정량의 분포 전제 필요, 신뢰 수준이 주어짐
◆가설검정
- 모집단에 대한 가설 설정 후, 표본 관찰을 통해 가설의 채택여부를 결정하는 분석 방법
- 귀무가설: 기본개념 vs. 대립가설: 주장하는 가설
- 검정통계량: 관찰된 표본으로부터 구하는 통계량, 가설의 진위를 판단하는 기준
- 유의수준: 귀무가설을 기각하게 되는 확률의 크기(제1 종 오류를 범할 확률의 허용한계)
- 기각역: 귀무가설이 맞다는 전제하에 구한 검정통계량의 분포에서 확률이 유의수준인 부분(반대: 채택역)
- 제1종 오류: 귀무가설이 옳은데 기각하는 오류, 제2종 오류: 귀무가설이 틀린데 채택하는 오류
- 제1종 오류 크기를 고정시키고 2종 오류가 최소가 되도록 기각역 설정
5. 비모수 검정
◆모수검정: 분포 가정 / 비모수 검정: 분포 가정x, 표본 수 적을 때
◆모수 vs. 비모수: 가설(모수에 대해 / 분포의 형태 동일 여부), 검정방법(추정값 사용 / 관측값 순위나 부호 이용)
'□ ADsP' 카테고리의 다른 글
[ADsP - 4과목] 제2장 통계 분석: (3) 다변량 분석, 시계열 예측 (0) | 2019.02.06 |
---|---|
[ADsP - 4과목] 제2장 통계 분석: (2) 기초 통계 분석 (0) | 2019.02.06 |
[ADsP - 4과목] 제1장 R 기초와 데이터마트 (0) | 2019.02.06 |
[ADsP - 3과목] 제2장 분석 마스터 플랜 (0) | 2018.09.11 |
[ADsP - 3과목] 제1장 데이터 분석 기획의 이해 -2 (0) | 2018.09.07 |