제3절 다변량 분석
1. 상관 분석
1) 인과관계의 이해
◆용어
- 종속변수(반응변수): 다른 변수의 영향을 받는 변수
- 독립변수(설명변수): 영향을 주는 변수
- 산점도: 두 변수 사이의 선형, 함수 관계 파악, 이상값, 집단 구분 확인 가능
◆공분산
- 두 확률변수 X, Y의 방향성 확인
- 독립이면 cov(X,Y)=0
2) 상관분석
- 두 변수 간의 관계를 알아보는 분석 방법, 상관계수 이용
◆특성
- +1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계, 0이면 독립(상관관계 없음)
- 인과관계를 의미하지 않음
◆유형
- 피어슨: 등간척도 이상으로 측정 / 연속형 변수, 정규성 가정, 대부분 사용 / 피어슨 상관계수
- 스피어만: 서열척도인 경우에 순서형 변수, 비모수적 방법, 순위 기준으로 측정 / 순위 상관계수 (로우)
◆R코드
- 분산: var()
- 공분산: cov(x, y, method=””) / method: pearson, spearman, kendall
- 상관관계: cor(x,y, method=””) / Hmisc::rcorr(matrix, type=””)
2. 다차원 척도법
◆다차원 척도법
- 객체간 근접성(proximity) 시각화하는 통계기법
- 개체들 사이의 유사성/비유사성을 측정하여 개체들의 2차원 공간상의 점으로 표현하는 분석방법
- 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
◆목적: 패턴, 구조 파악 / 구조를 소수 차원의 공간에 기하학적 표현(데이터 축소)
◆방법
- 개체들의 거리: 유클리드 거리 행렬
- 적합 정도를 스트레스 값으로 표현(정확도 향상)
- 공간표현 방법: 부적합도 기준으로 STRESS, S-STRESS 사용 (작을수록(0.1) 좋음)
- 최적모형: 부적합도 최소로 하는 방법으로 일정 수준 이하까지 반복
◆종류
- 계량적 MDS(전통적)
Data: 구간척도, 비율척도
각 개체들간의 유클리드 거리행렬을 계산하고 개체들간의 비유사성 S를 공간상에 표현
Cmdscale(data) : 2차원으로 매핑
- 비계량적 MDS
Data: 순서척도
순서척도를 거리의 속성과 같이 변환하여 거리 생성 후 적용
Dist(data): 행렬거리 계산 / isoMDS(dist(data)), sammon(dist(data))
3. 주성분 분석
- 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
◆목적
- 소수의 주성분으로 차원 축소(이해편리)
- 다중공선성 해결(주성분간 독립)
- 다른 분석에 사용가능(군집(속도개선), 회귀, 시계열(예측) 등)
◆주성분 분석 vs. 요인분석
- 요인분석: 등간척도(비율척도)로 측정한 두개 이상의 변수들에 잠재되어 있는 공통인자를 찾는 방법
|
요인분석
|
주성분분석
|
공통점 |
데이터 축소(원래 데이터로 새로운 변수 만듦) |
|
생성된 변수의 수 |
지정 안해도 됨 |
2,3개로 지정 |
생성된 변수 이름 |
분석자가 명명 |
제1주성분, 제2주성분, … |
생성된 변수들간의 관계 |
대등한 관계 |
제1주성분이 제일 중요 |
목표변수와의 관계 |
목표변수 고려 안 함 |
목표변수 고려 |
◆주성분 선택법
- 누적기여율 85% 이상
- scree plot 고유값이 수평 유지 전 단계
◆분석 사례
- 주성분 분석: result <- princomp(data)
- 결과: summary(result) ; screeplot(result)
- 주성분 함수: loadings(result)
- 주성분 점수: result$scores
제4절 시계열 예측
◆시계열 자료: 시간의 흐름에 따라 관찰된 값
◆목적: 미래 값 예측, 시계열 데이터 특성 파악(경향, 주기, 계절성, 불규칙성 등)
1. 정상성: 평균일정, 분산일정, 공분산 일정(3가지 모두 만족)
◆공분산: 단지 시차에만 의존, 실제 특성 시점t,s에는 의존 안 함
◆평균(추세)가 일정하지 않을 경우 차분으로 정상화(일반차분, 계절차분); 분산이 일정하지 않을 경우 변환으로 일반화
◆정상시계열의 특징
- 자기공분산 값 동일(어떤 시점에서 평균과 분산, 특정한 시차의 길이)
- 평균값으로 회귀하려는 경향, 변동이 평균값 주변에서 일정한 폭)
- 비정상성시계열: 다른 시기로 일반화 불가
2. 시계열 모형
◆자귀회귀모형(AR)
◆이동평균모형(MA)
◆자기회귀이동평균모형 ARIMA(p, d, q)
- 비정상시계열 모형
- 차분과 변환으로 ARMA 모형으로 정상화 가능
◆분해시계열: 시계열에 영향을 주는 요인을 시계열에서 분리해 분석하는 방법, 회귀분석적인 방법 주로 사용
◆시계열을 구성하는 4가지 요소
①추세요인: 형태가 오르거나 내려가는 추세를 따를 경우(선형, 2차식, 지수적 형태)
②계절요인: 고정된 주기에 따라 자료 변화(요일, 분기 등)
③순환요인: 알려지지 않은 주기를 가지고 변화하는 자료
④불규칙요인: 위 3가지 요인으로 설명할 수 없는 요인(회귀분석의 오차에 해당)
'□ ADsP' 카테고리의 다른 글
[ADsP - 4과목] 제3장 정형 데이터 마이닝: (2) 군집 분석, 연관 분석 (0) | 2019.02.06 |
---|---|
[ADsP - 4과목] 제3장 정형 데이터 마이닝: (1) 개요 및 분류 분석 (0) | 2019.02.06 |
[ADsP - 4과목] 제2장 통계 분석: (2) 기초 통계 분석 (0) | 2019.02.06 |
[ADsP - 4과목] 제2장 통계 분석: (1) 통계학 개론 (0) | 2019.02.06 |
[ADsP - 4과목] 제1장 R 기초와 데이터마트 (0) | 2019.02.06 |