본문 바로가기

□ ADsP

[ADsP - 4과목] 제2장 통계 분석: (3) 다변량 분석, 시계열 예측


3절 다변량 분석

 

1. 상관 분석

1) 인과관계의 이해

◆용어

- 종속변수(반응변수): 다른 변수의 영향을 받는 변수

- 독립변수(설명변수): 영향을 주는 변수

- 산점도: 두 변수 사이의 선형, 함수 관계 파악, 이상값, 집단 구분 확인 가능

 

공분산

- 두 확률변수 X, Y의 방향성 확인

- 독립이면 cov(X,Y)=0

 

2) 상관분석

- 두 변수 간의 관계를 알아보는 분석 방법, 상관계수 이용

◆특성

- +1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계, 0이면 독립(상관관계 없음)

- 인과관계를 의미하지 않음

◆유형

- 피어슨: 등간척도 이상으로 측정 / 연속형 변수, 정규성 가정, 대부분 사용 / 피어슨 상관계수

- 스피어만: 서열척도인 경우에 순서형 변수, 비모수적 방법, 순위 기준으로 측정 / 순위 상관계수 (로우)

 

R코드

- 분산: var()

- 공분산: cov(x, y, method=””) / method: pearson, spearman, kendall

- 상관관계: cor(x,y, method=””) / Hmisc::rcorr(matrix, type=””)

 

2. 다차원 척도법

◆다차원 척도법

- 객체간 근접성(proximity) 시각화하는 통계기법

- 개체들 사이의 유사성/비유사성을 측정하여 개체들의 2차원 공간상의 점으로 표현하는 분석방법

- 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

◆목적: 패턴, 구조 파악 / 구조를 소수 차원의 공간에 기하학적 표현(데이터 축소)

◆방법

- 개체들의 거리: 유클리드 거리 행렬

- 적합 정도를 스트레스 값으로 표현(정확도 향상)

- 공간표현 방법: 부적합도 기준으로 STRESS, S-STRESS 사용 (작을수록(0.1) 좋음)

- 최적모형: 부적합도 최소로 하는 방법으로 일정 수준 이하까지 반복

종류

- 계량적 MDS(전통적)

  Data: 구간척도, 비율척도

  각 개체들간의 유클리드 거리행렬을 계산하고 개체들간의 비유사성 S를 공간상에 표현

  Cmdscale(data) : 2차원으로 매핑

- 비계량적 MDS

  Data: 순서척도

  순서척도를 거리의 속성과 같이 변환하여 거리 생성 후 적용

  Dist(data): 행렬거리 계산 / isoMDS(dist(data)), sammon(dist(data))

   

3. 주성분 분석

- 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

 

◆목적

- 소수의 주성분으로 차원 축소(이해편리)

- 다중공선성 해결(주성분간 독립)

- 다른 분석에 사용가능(군집(속도개선), 회귀, 시계열(예측) )

 

주성분 분석 vs. 요인분석

- 요인분석: 등간척도(비율척도)로 측정한 두개 이상의 변수들에 잠재되어 있는 공통인자를 찾는 방법

 

요인분석

주성분분석

공통점

데이터 축소(원래 데이터로 새로운 변수 만듦)

생성된 변수의 수

지정 안해도 됨

2,3개로 지정

생성된 변수 이름

분석자가 명명

1주성분, 2주성분, …

생성된 변수들간의 관계

대등한 관계

1주성분이 제일 중요

목표변수와의 관계

목표변수 고려 안 함

목표변수 고려

 

주성분 선택법

- 누적기여율 85% 이상

- scree plot 고유값이 수평 유지 전 단계

 

◆분석 사례

- 주성분 분석: result <- princomp(data)

- 결과: summary(result) ; screeplot(result)

- 주성분 함수: loadings(result)

- 주성분 점수: result$scores





4절 시계열 예측


◆시계열 자료: 시간의 흐름에 따라 관찰된 값

◆목적: 미래 값 예측, 시계열 데이터 특성 파악(경향, 주기, 계절성, 불규칙성 등)

 

1. 정상성: 평균일정, 분산일정, 공분산 일정(3가지 모두 만족)

◆공분산: 단지 시차에만 의존, 실제 특성 시점t,s에는 의존 안 함

◆평균(추세)가 일정하지 않을 경우 차분으로 정상화(일반차분, 계절차분); 분산이 일정하지 않을 경우 변환으로 일반화

 

정상시계열의 특징

- 자기공분산 값 동일(어떤 시점에서 평균과 분산, 특정한 시차의 길이)

- 평균값으로 회귀하려는 경향, 변동이 평균값 주변에서 일정한 폭)

- 비정상성시계열: 다른 시기로 일반화 불가

 

2. 시계열 모형

◆자귀회귀모형(AR)

 

◆이동평균모형(MA)

 

◆자기회귀이동평균모형 ARIMA(p, d, q)

- 비정상시계열 모형

- 차분과 변환으로 ARMA 모형으로 정상화 가능

 

◆분해시계열: 시계열에 영향을 주는 요인을 시계열에서 분리해 분석하는 방법, 회귀분석적인 방법 주로 사용

시계열을 구성하는 4가지 요소

①추세요인: 형태가 오르거나 내려가는 추세를 따를 경우(선형, 2차식, 지수적 형태)

②계절요인: 고정된 주기에 따라 자료 변화(요일, 분기 등)

③순환요인: 알려지지 않은 주기를 가지고 변화하는 자료

④불규칙요인: 3가지 요인으로 설명할 수 없는 요인(회귀분석의 오차에 해당)