제 2절 기초 통계 분석
1. 기술통계
- 자료 특성을 표, 그림, 통계량 등으로 정리 및 요약(쉽게 파악, 기초적 통계)
◆통계량에 의한 자료 정리
- 중심위치 측도: 표본평균, 중앙값
- 산포의 측도: 분산, 표준편차, 사분위수 범위, 평균의 표준오차
- 분포의 형태에 관한 측도: 왜도, 첨도
◆그래프를 이용한 자료 정리
- 히스토그램(연속형), 막대그래프(범주형), 줄기-잎 그림, 상자그림
2. 회귀분석
1) 회귀분석 개요
◆회귀분석 정의
- 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심 있는 변수를 예측, 추론하기 위한 분석방법
- 회귀분석 변수 y: 반응변수, 종속변수, 결과변수; x: 설명변수, 독립변수, 예측변수
- 회귀분석의 검토사항
모형의 유의성: F통계량
회귀계수 유의성: 해당 계수 t통계량
모형의 설명력: 결정계수
모형의 적합성: 잔차 그래프, 회귀진단
2) 회귀분석 검정
◆회귀계수 검정
- beta_1 = 0 : x, y는 아무 관계가 없다
- 가설: beta_1 = 0 vs. beta_1 != 0
◆결정계수
- SST(전체 제곱합) = SSR(회귀제곱합) + SSE(오차제곱합)
- 모형을 얼마나 잘 설명하는 가를 나타냄
- 1에 가까울수록 설명력이 높은 것 (0.7 이상이 좋음)
◆회귀직선의 적합도 검토
- 결정계수를 통해 회귀식이 타당한지 검토(1에 가까운지)
- F 통계량: 모형의 유의성 판단
3) 선형회귀분석
◆가정 5가지
①선형성: 가장 중요
②등분산성: 오차 분산의 분산 일정
③독립성: 독립변인과 잔차는 독립
④비상관성: 오차끼리 상관 없음
⑤정상성: 잔차가 정규분포를 따름
◆다중선형회귀분석
- 모형의 유의성: F통계량
- 회귀계수 유의성: 해당 계수 t통계량
- 적합성 판단: 잔차 vs. 종속변수 산점도
- 가정 만족 여부: 선형성, 등분산성, 독립성, 비상관성, 정상성
- 다중공선성: 있을 시, 설명변수들간의 선형관계 및 회귀계수 추정이 어려움
검사방법: 분산팽창요인(VIF) >10 / 상태지수 >10
해결방안: 선형관계 변수 제거, 주성분 or 능형 회귀
4) 회귀분석 종류
◆단순선형회귀: 설명변수 1개, 반응변수와 선형 관계
◆다중선형회귀: 설명변수 k개, 반응변수와 선형 관계
◆다항회귀: 설명변수 k개, 반응변수와의 관계가 1차 이상
◆비선형회귀: 선형관계가 아님
5) 회귀분석 사례
◆회귀분석: result <- lm(y ~ x1+x2+…, data)
◆결과확인: summary(result)
6) 최적회귀방정식의 선택
◆최적회귀방정식 선택
- 설명변수 선택: 필요한 것만
- 단계적 변수선택
①전진선택법(forward selection): 절편에서 시작해 중요 순으로 설명변수 하나씩 추가
②후진제거법(backward elimination): 모든 변수로 시작해 영향이 적은 변수부터 제거
③단계별방법(stepwise): 변수 추가 → 후진제거법 → 변화 없을 때 까지
◆벌점화된 선택기준: AIC, BIC(작을수록 좋은 모델)
◆최적회귀방정식 사례
- step(회귀식, scope=list(lower, upper), direction=””)
Scope: 가장 큰/작은 모형 설정; direction: backward, forward, both
'□ ADsP' 카테고리의 다른 글
[ADsP - 4과목] 제3장 정형 데이터 마이닝: (1) 개요 및 분류 분석 (0) | 2019.02.06 |
---|---|
[ADsP - 4과목] 제2장 통계 분석: (3) 다변량 분석, 시계열 예측 (0) | 2019.02.06 |
[ADsP - 4과목] 제2장 통계 분석: (1) 통계학 개론 (0) | 2019.02.06 |
[ADsP - 4과목] 제1장 R 기초와 데이터마트 (0) | 2019.02.06 |
[ADsP - 3과목] 제2장 분석 마스터 플랜 (0) | 2018.09.11 |