본문 바로가기

□ ADsP

[ADsP - 4과목] 제2장 통계 분석: (1) 통계학 개론


2장 통계 분석


제1절 통계학 개론


1. 통계 분석 개요

◆통계

- 정의: 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

- 예: 일기예보, 물가/실업률, 정당 지지도, 임상실험 등 실험결과 분석 통계

- 필요자료: 조사,실험으로 확보, 조사대상에 따라 총 조사, 표본조사


◆통계자료 획득 방법

- 총조사: 대상 집단 모두에서 획득, 비용과 시간 소비 큼(인구 주택 총 조사)

- 표본조사: 대부분 사용

  모집단: 조사하고자 하는 대상 집단 전체

  원소: 모집단을 구성하는 체계

  표본: 조사하기 위해 추출한 모집단 일부 원소

  모수: 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

- 표본추출방법

①단순랜덤추출법: 임의의 n개 추출(복원, 비복원)

②계통추출법: 번호 부여 후, n개 구간을 나누고 임의의 위치에서 매 k번째 항목 선택

③집락추출법: 군집 구분 후 군집별로 단순랜덤추출(지역표본추출, 다단계표본추출)

④층화추출법: 이질적인 원소 구성된 모집단에서 각 계층을 고루 대표할 수 있게 추출하는 방법. 유사한 원소끼리 총 생성 후 각 층에서 랜덤 추출(비례층화추출법, 불비례층화추출법)


◆자료형태

- 명목척도: 성별, 구매 여부 등

- 순서척도: 서열관계만 / 만족도, 학년 등

- 구간척도: 서열관계 + 간격 의미 / 온도 등

- 비율척도: 서열관계 + 간격 + 절대적 기준 0 존재 / 무게, 나이


2. 통계분석

◆통계분석 정의

- 통계분석 방법을 이용해 의사결정 하는 과정

- 기술통계: 여러 특성을 수량화하는 통계분석 방법론(평균, 표준편차, 그래프 등)

- 통계적 추론(추측통계): 모집단에 대한 의사결정(모수추정, 가설검정, 예측)


3. 확률 및 확률분포

◆확률: 특정사건이 일어날 가능성의 척도

- 표본공간: 모든 결과들의 집합

- 사건: 관찰자가 관심있는 사건(표본공간의 부분집합)

- 원소: 개개의 결과들


◆확률변수: 특정값이 나타날 가능성이 확률적으로 주어지는 변수

- 정의역: 표본공간 / 치역: 실수값인 함수

- 구분: 이산형 확률변수, 연속형 확률변수 


이산형 확률변수

- 베르누이 확률분포: 결과 2개

- 이항분포: 베르누이 시행 n번 반복 시, k번 성공할 확률

- 기하분포: 첫 번째 성공이 있기 까지 x번 실패할 확률

- 다항분포: 이항분포 확장. 3가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포

- 포아송분포: 시간, 공간내에서 발생하는 사건의 횟수에 대한 확률분포


연속형 확률변수

- 균일분포

- 정규분포

- t분포: 두 집단 평균이 등일여부 확인 검정통계량

- 카이제곱 분포: 모평균, 모분산이 알려지지 않은 모집단의 모분산 가설 검정과 동질성 검정 사용

- F분포: 두 집단 간 분산의 동일성 검정에 사용


4. 추정과 가설검정

◆추정의 개요

- 확률표본

  확률분포는 분포를 결정하는 모수를 가짐

  특정한 확률분포로부터 독립적으로 반복해 표본 추출

  관찰값들은 서로 독립적, 동일한 분포

- 추정: 표본으로부터 미지의 모수 추측하는 것(구분: 점추정/구간추정)

- 점추정: 모수가 특정값이라고 추정

  표본평균, 표본분산 등

  점추정량 조건: 불편성, 효율성, 일치성,충족성

- 구간추정: 모수가 특정 구간에 있을 것이라고 선언

  점추정 정확성 보완

  추정량의 분포 전제 필요, 신뢰 수준이 주어짐


◆가설검정

- 모집단에 대한 가설 설정 후, 표본 관찰을 통해 가설의 채택여부를 결정하는 분석 방법

- 귀무가설: 기본개념 vs. 대립가설: 주장하는 가설

- 검정통계량: 관찰된 표본으로부터 구하는 통계량, 가설의 진위를 판단하는 기준

- 유의수준: 귀무가설을 기각하게 되는 확률의 크기(제1 종 오류를 범할 확률의 허용한계)

- 기각역: 귀무가설이 맞다는 전제하에 구한 검정통계량의 분포에서 확률이 유의수준인 부분(반대: 채택역)

- 제1종 오류: 귀무가설이 옳은데 기각하는 오류, 제2종 오류: 귀무가설이 틀린데 채택하는 오류

- 제1종 오류 크기를 고정시키고 2종 오류가 최소가 되도록 기각역 설정


5. 비모수 검정

◆모수검정: 분포 가정 / 비모수 검정: 분포 가정x, 표본 수 적을 때

◆모수 vs. 비모수: 가설(모수에 대해 / 분포의 형태 동일 여부), 검정방법(추정값 사용 / 관측값 순위나 부호 이용)