[ADsP - 4과목] 제2장 통계 분석: (3) 다변량 분석, 시계열 예측

제3절 다변량 분석

1. 상관 분석

1) 인과관계의 이해

◆용어

- 종속변수(반응변수): 다른 변수의 영향을 받는 변수

- 독립변수(설명변수): 영향을 주는 변수

- 산점도: 두 변수 사이의 선형, 함수 관계 파악, 이상값, 집단 구분 확인 가능

◆공분산

- 두 확률변수 X, Y의 방향성 확인

- 독립이면 cov(X,Y)=0

2) 상관분석

- 두 변수 간의 관계를 알아보는 분석 방법, 상관계수 이용

◆특성

- +1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계, 0이면 독립(상관관계 없음)

- 인과관계를 의미하지 않음

◆유형

- 피어슨: 등간척도 이상으로 측정 / 연속형 변수, 정규성 가정, 대부분 사용 / 피어슨 상관계수

- 스피어만: 서열척도인 경우에 순서형 변수, 비모수적 방법, 순위 기준으로 측정 / 순위 상관계수 (로우)

◆R코드

- 분산: var()

- 공분산: cov(x, y, method=””) / method: pearson, spearman, kendall

- 상관관계: cor(x,y, method=””) / Hmisc::rcorr(matrix, type=””)

2. 다차원 척도법

◆다차원 척도법

- 객체간 근접성(proximity) 시각화하는 통계기법

- 개체들 사이의 유사성/비유사성을 측정하여 개체들의 2차원 공간상의 점으로 표현하는 분석방법

- 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

◆목적: 패턴, 구조 파악 / 구조를 소수 차원의 공간에 기하학적 표현(데이터 축소)

◆방법

- 개체들의 거리: 유클리드 거리 행렬

- 적합 정도를 스트레스 값으로 표현(정확도 향상)

- 공간표현 방법: 부적합도 기준으로 STRESS, S-STRESS 사용 (작을수록(0.1) 좋음)

- 최적모형: 부적합도 최소로 하는 방법으로 일정 수준 이하까지 반복

◆종류

- 계량적 MDS(전통적)

Data: 구간척도, 비율척도

각 개체들간의 유클리드 거리행렬을 계산하고 개체들간의 비유사성 S를 공간상에 표현

Cmdscale(data) : 2차원으로 매핑

- 비계량적 MDS

Data: 순서척도

순서척도를 거리의 속성과 같이 변환하여 거리 생성 후 적용

Dist(data): 행렬거리 계산 / isoMDS(dist(data)), sammon(dist(data))

3. 주성분 분석

- 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

◆목적

- 소수의 주성분으로 차원 축소(이해편리)

- 다중공선성 해결(주성분간 독립)

- 다른 분석에 사용가능(군집(속도개선), 회귀, 시계열(예측) 등)

◆주성분 분석 vs. 요인분석

- 요인분석: 등간척도(비율척도)로 측정한 두개 이상의 변수들에 잠재되어 있는 공통인자를 찾는 방법

	요인분석	주성분분석
공통점	데이터 축소(원래 데이터로 새로운 변수 만듦)
생성된 변수의 수	지정 안해도 됨	2,3개로 지정
생성된 변수 이름	분석자가 명명	제1주성분, 제2주성분, …
생성된 변수들간의 관계	대등한 관계	제1주성분이 제일 중요
목표변수와의 관계	목표변수 고려 안 함	목표변수 고려

◆주성분 선택법

- 누적기여율 85% 이상

- scree plot 고유값이 수평 유지 전 단계

◆분석 사례

- 주성분 분석: result <- princomp(data)

- 결과: summary(result) ; screeplot(result)

- 주성분 함수: loadings(result)

- 주성분 점수: result$scores

제4절 시계열 예측

◆시계열 자료: 시간의 흐름에 따라 관찰된 값

◆목적: 미래 값 예측, 시계열 데이터 특성 파악(경향, 주기, 계절성, 불규칙성 등)

1. 정상성: 평균일정, 분산일정, 공분산 일정(3가지 모두 만족)

◆공분산: 단지 시차에만 의존, 실제 특성 시점t,s에는 의존 안 함

◆평균(추세)가 일정하지 않을 경우 차분으로 정상화(일반차분, 계절차분); 분산이 일정하지 않을 경우 변환으로 일반화

◆정상시계열의 특징

- 자기공분산 값 동일(어떤 시점에서 평균과 분산, 특정한 시차의 길이)

- 평균값으로 회귀하려는 경향, 변동이 평균값 주변에서 일정한 폭)

- 비정상성시계열: 다른 시기로 일반화 불가

2. 시계열 모형

◆자귀회귀모형(AR)

◆이동평균모형(MA)

◆자기회귀이동평균모형 ARIMA(p, d, q)

- 비정상시계열 모형

- 차분과 변환으로 ARMA 모형으로 정상화 가능

◆분해시계열: 시계열에 영향을 주는 요인을 시계열에서 분리해 분석하는 방법, 회귀분석적인 방법 주로 사용

◆시계열을 구성하는 4가지 요소

①추세요인: 형태가 오르거나 내려가는 추세를 따를 경우(선형, 2차식, 지수적 형태)

②계절요인: 고정된 주기에 따라 자료 변화(요일, 분기 등)

③순환요인: 알려지지 않은 주기를 가지고 변화하는 자료

④불규칙요인: 위 3가지 요인으로 설명할 수 없는 요인(회귀분석의 오차에 해당)

저작자표시 비영리 변경금지 (새창열림)

'□ ADsP' 카테고리의 다른 글

[ADsP - 4과목] 제3장 정형 데이터 마이닝: (2) 군집 분석, 연관 분석 (0)	2019.02.06
[ADsP - 4과목] 제3장 정형 데이터 마이닝: (1) 개요 및 분류 분석 (0)	2019.02.06
[ADsP - 4과목] 제2장 통계 분석: (2) 기초 통계 분석 (0)	2019.02.06
[ADsP - 4과목] 제2장 통계 분석: (1) 통계학 개론 (0)	2019.02.06
[ADsP - 4과목] 제1장 R 기초와 데이터마트 (0)	2019.02.06

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Howdy

[ADsP - 4과목] 제2장 통계 분석: (3) 다변량 분석, 시계열 예측

'□ ADsP' 카테고리의 다른 글

티스토리툴바

[ADsP - 4과목] 제2장 통계 분석: (3) 다변량 분석, 시계열 예측

'□ ADsP' 카테고리의 다른 글

'□ ADsP' Related Articles

티스토리툴바