본문 바로가기

□ ADsP

[ADsP - 4과목] 제2장 통계 분석: (2) 기초 통계 분석

 

2절 기초 통계 분석

 

1. 기술통계

- 자료 특성을 표, 그림, 통계량 등으로 정리 및 요약(쉽게 파악, 기초적 통계)

 

◆통계량에 의한 자료 정리

- 중심위치 측도: 표본평균, 중앙값

- 산포의 측도: 분산, 표준편차, 사분위수 범위, 평균의 표준오차

- 분포의 형태에 관한 측도: 왜도, 첨도

 

◆그래프를 이용한 자료 정리

- 히스토그램(연속형), 막대그래프(범주형), 줄기-잎 그림, 상자그림

 

2. 회귀분석

1) 회귀분석 개요

◆회귀분석 정의

- 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법

- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심 있는 변수를 예측, 추론하기 위한 분석방법

- 회귀분석 변수 y: 반응변수, 종속변수, 결과변수; x: 설명변수, 독립변수, 예측변수

- 회귀분석의 검토사항

  모형의 유의성: F통계량

  회귀계수 유의성: 해당 계수 t통계량

  모형의 설명력: 결정계수

  모형의 적합성: 잔차 그래프, 회귀진단

 

2) 회귀분석 검정

◆회귀계수 검정

- beta_1 = 0 : x, y는 아무 관계가 없다

- 가설: beta_1 = 0 vs. beta_1 != 0

 

◆결정계수

- SST(전체 제곱합) = SSR(회귀제곱합) + SSE(오차제곱합)

- 모형을 얼마나 잘 설명하는 가를 나타냄

- 1에 가까울수록 설명력이 높은 것 (0.7 이상이 좋음)

 

◆회귀직선의 적합도 검토

- 결정계수를 통해 회귀식이 타당한지 검토(1에 가까운지)

- F 통계량: 모형의 유의성 판단

 

3) 선형회귀분석

◆가정 5가지

①선형성: 가장 중요

②등분산성: 오차 분산의 분산 일정

③독립성: 독립변인과 잔차는 독립

④비상관성: 오차끼리 상관 없음

⑤정상성: 잔차가 정규분포를 따름

 

◆다중선형회귀분석

- 모형의 유의성: F통계량

- 회귀계수 유의성: 해당 계수 t통계량

- 적합성 판단: 잔차 vs. 종속변수 산점도

- 가정 만족 여부: 선형성, 등분산성, 독립성, 비상관성, 정상성

- 다중공선성: 있을 시, 설명변수들간의 선형관계 및 회귀계수 추정이 어려움

검사방법: 분산팽창요인(VIF) >10 / 상태지수 >10

해결방안: 선형관계 변수 제거, 주성분 or 능형 회귀

 

4) 회귀분석 종류

◆단순선형회귀: 설명변수 1, 반응변수와 선형 관계

◆다중선형회귀: 설명변수 k, 반응변수와 선형 관계

◆다항회귀: 설명변수 k, 반응변수와의 관계가 1차 이상

◆비선형회귀: 선형관계가 아님

 

5) 회귀분석 사례

◆회귀분석: result <- lm(y ~ x1+x2+…, data)

◆결과확인: summary(result)

 

6) 최적회귀방정식의 선택

◆최적회귀방정식 선택

- 설명변수 선택: 필요한 것만

- 단계적 변수선택

①전진선택법(forward selection): 절편에서 시작해 중요 순으로 설명변수 하나씩 추가

②후진제거법(backward elimination): 모든 변수로 시작해 영향이 적은 변수부터 제거

③단계별방법(stepwise): 변수 추가 → 후진제거법 → 변화 없을 때 까지

 

◆벌점화된 선택기준: AIC, BIC(작을수록 좋은 모델)

◆최적회귀방정식 사례

- step(회귀식, scope=list(lower, upper), direction=””)

Scope: 가장 큰/작은 모형 설정; direction: backward, forward, both