본문 바로가기

□ ADsP

[ADsP - 4과목] 제3장 정형 데이터 마이닝: (1) 개요 및 분류 분석


3장 정형 데이터 마이닝

 


1절 데이터마이닝 개요

- 거대한 양의 데이터 속에서 쉽게 들어나지 않는 유용한 정보를 찾아내는 과정

- 기업이 사용가능한 원천데이터를 기반으로 감춰진 지식, 경향, 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 등에 활용하고자 하는 일련의 작업

 

1. 분류(Classification)

- 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것

- 의사 결정 나무, memory-based reasoning, link analysis

 

2. 추정(Estimation)

- 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값 추정(연속값, 수입, 수준, 잔고 등)

- 가족 구성원의 총 수입 추정, 고객의 평생 가치 추정

 

3. 예측(Prediction)

- 미래의 양상을 예측하거나 미래의 값을 추정한다는 것을 제외하면 분류나 추정과 동일한 의미

- 예측에 사용되는 기술장바구니 분석, 의사결정나무, 신경망 등

 

4. 연관 분석(Association Analysis)

- 같이 팔리는 물건과 같이 아이템의 연관성을 파악하는 분석

- 물건 배열 계획, 카탈로그 배열 및 교차 판매, 공격적 판촉행사 등의 마케팅 계획에 사용

- 연관 분석의 한 기법인 장바구니 분석의 결과는 연관 규칙으로 나타냄

 

5. 군집(Clustering)

- 이질적인 모집단을 동질성을 지닌 그룹 별로 세분화하는 것

- 군집은 데이터 마이닝이나 모델링의 준비 단계로 사용

- 시장세분화의 첫 단계로써 판촉 활동 반응률이 높은 고객 선별, 구매 습관이 유사한 사람들 군집화 등

 

6. 기술(Description)

- 데이터가 암시하는 바를 설명 가능해야 하며, 설명에 대한 답을 찾아낼 수 있어야 함

 

데이터마이닝 기능 추진을 위한 환경 구축 5단계

①목적 정의: 데이터마이닝 목적/기법 정의

②데이터 준비

③데이터 가공: 기법에 적용이 가능하도록 가공

④데이터마이닝 기법 적용

⑤검증: 검증 및 최적의 모델 선정, 기대효과 전파(보고서)




2절 분류분석

- 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법

- 분류 모델링: 신용평가모형(우량, 불량), 사기방지모형(사기, 정상), 이탈모형(이탈, 유지)

 

분류기법

- 회귀분석, 로지스틱 회귀, 의사결정나무, CART, C5.0, 베이지안 분류, 인공신경망, 지지도벡터기계(SVM), K-최근접이웃, 규칙기반의 분류와 사례기반 추론

 

분류분석 vs. 예측분석

- 공통점: 레코드의 특정 속성의 값을 미리 알아 맞힘

- 차이점: 분류는 레코드의 범주형 속성 값을, 예측은 레코드의 연속형 속성 값을 맞히는 것

- ex. 분류: 학생의 내신 등급, 1년 후 신용 등급; 예측: 수능점수, 연 매출액

 


1. 로지스틱 회귀모형

- 반응변수가 범주형인 경우 적용되는 회귀분석모형

- 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 분류하는 목적으로 활용

- 사후확률: 적합을 통해 추정된 확률

 


2. 신경망 모형(ANN)

◆인공신경망

- 인간 뇌를 기반으로 한 추론 모델

- 뉴런은 기본적인 정보처리 단위

- 뉴런은 가중치가 있는 링크들로 연결

- 뉴런은 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성

 

◆인공신경망의 학습

- 가중치를 반복적으로 조정하여 학습

- 뉴런은 링크로 연결되어 있고, 각 링크에는 수치적인 가중치

- 가중치 조정 방식: 초기화 후, 훈련 데이터를 통해 가중치 갱신; 신경망의 구조를 선택 후, 활용할 학습 알고리즘 결정한 후 신경망 훈련

 

뉴런 특징

- 입력링크에서 여러 신호를 받아 새로운 활성화 수준 계산, 출력 링크로 출력 신호 보냄

- 입력신호는 미가공 데이터 또는 다른 뉴런의 출력

- 출력신호를 최종 solution이나 다른 뉴런에 입력

- 전이함수(활성함수)를 통해 계산

 

1) 신경망 모형 구축시 고려사항

◆입력변수

- 복잡성에 의하여 입력 자료 선택에 민감

- 범주형 변수: 모든 범주에서 일정 빈도 이상, 빈도 일정

- 범주형 변수의 경우, 모든 범주형 변수가 같은 범위를 갖도록 가변수화 해야 함

- 연속형 변수: 입력변수 값들의 범위가 변수간의 큰 차이가 없을 때

- 연속형 변수의 경우, 분포가 평균중심으로 대칭이어야 함

 

◆가중치의 초기값과 다중 최소값 문제

- 초기값 선택 중요

- 가중치가 0이면, 신경망 모형은 근사적 선형모형

- 초기값은 0 근처로 랜덤하게 선택, 가중치가 증가할수록 비선형

 

◆학습모드

- 온라인 학습모드: 관측값을 순차적으로 투입하여 가중치 추정값이 매번 바뀜(속도 빠름, 훈련자료가 비정상성일 때 좋음, 국소 최소값에 벗어나기 쉬움)

- 확률적 학습모드: 관측값을 랜덤하게 투입하여 가중치 추정값이 매번 바뀜

- 배치 학습모드: 전체 훈련자료를 동시에 투입

 

◆은닉층과 은닉노드의 수

- 신경망 적용 시 제일 중요한 부분: 모형선택(은닉층, 은닉노드의 수 결정)

- 많으면 가중치가 많아져 과대 적합문제 발생

- 적으면 과소적합문제 발생

- 은닉층 수 결정: 하나로 선정

- 은닉노드 수 결정: 적절히 큰 값으로 놓고 가중치 감소시키면서 적용

 

◆과대적합 문제

- 알고리즘 조기종료와 가중치 감소기법으로 해결

- 조기종료: 검증오차가 증가하기 시작하면 반복 중지

- 가중치 감소라는 벌점화 기법 활용



3. 의사결정나무 모형

◆의사결정나무

- 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법

- 나무 구조: 연속적으로 발생하는 의사결정 문제를 시각화(시점과 성과가 한눈에)

- 계산 결과가 의사결정나무에 직접 나타나 분석이 간편

- 주어진 입력값에 대하여 출력값을 예측하는 모형

- 최종모형의 예측력과 해석력이 중요

 

◆의사결정나무 활용: 세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용효과 파악, 범주의 병합or연속형 변수의 이산화

특징: 설명용이, 복잡하지 않음, 빠름, 비정상 잡음 데이터도 가능, 다중공선성에 영향 안 받음(불필요 변수 제거 용이)

 

분석과정(형성과정)

①성장단계: 각 마디에서 적절한 분리규칙 & 정지규칙

- 입력 공간을 재귀적으로 분할하는 과정

- 최적 분할의 결정은 불순도 감소량을 가장 크게 하는 분할

②가지치기 단계: 불필요한 가지 제거

- 큰 나무 모형은 과대적합, 작은 나무 모형은 과소적합 위험

- 마디에 속하는 자료가 일정 수 이하면 분할 정지 or 비용-복잡도 가지치기

③타당성 평가 단계: 이익도표, 위험도표, 시험자료

④해석 및 예측 단계: 해석 및 적용

 

1) 불순도의 여러가지 측도: 지니지수, 엔트로피 지수, 카이제곱 통계량

2) 여러가지 의사결정 나무 알고리즘

CART (rparty 패키지)

- 목적변수가 범주형인 경우 지니지수, 연속형은 분산을 이용해 이진 분리 사용

- 개별 입력변수, 입력변수들의 선형결합 중 최적의 분리를 찾음

C4.5, C5.0

- 다지 분리 가능, 범주형 입력변수의 범주 수만큼 분리 가능

- 불순도 측도로 엔트로피 지수 사용

CHAID

- 가지치기 않고 적당한 크기에서 성장 중지, 입력변수가 반드시 범주형

- 불순도 측도로 카이제곱 통계량 사용

3) 성과분석과 스코어링: party 패키지

- 의사결정나무에 사용되는 분류 패키지(party::ctree)

- 분실값 처리가 잘 안됨

 


4. 앙상블 모형

- 여러 개의 예측모형을 만든 후, 예측 모형들을 조합하여 하나의 최종 예측모형을 만드는 방법

- 분리 분석의 과적합을 줄이기 위해 개발

◆학습방법의 불안전성

- 작은 변화에 의해 예측모형이 크게 변하는 경우, 그 학습방법은 불안정

- 가장 안정적인 방법: k-최근접이웃, 선형회귀모형

- 가장 불안정한 방법: 의사결정나무

 

배깅

- 주어진 자료에서 여러 개 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후, 결합하여 최종 예측모형을 만드는 방법

- 붓스트랩(bootstrap): 주어진 자료에서 동일한 크기의 표본을 랜덤복원추출로 뽑은 자료

- 보팅: 여러 개의 모형으로부터 산출된 결과를 다수결에 의하여 최종 결과를 선정하는 과정

- 가지치기를 하지 않고 최대로 성장한 의사결정나무들 사용

- 평균예측 모형을 못 구함(훈련자료의 모집단의 분포 모름)

- 훈련자료를 모집단으로 생각하고 평균예측모형을 구한 것과 같음. 분산을 줄이고 예측력 향상

 

부스팅

- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법

- 훈련오차를 빠르고 쉽게 줄임

- 성능이 배깅보다 뛰어난 경우가 많음

 

랜덤포레스트

- 분산이 큰 의사결정나무를 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성 후, 이를 선형결합하여 최종 학습기를 만드는 방법

- randomForest 패키지, 랜덤한 forest에 많은 트리 생성

- 변수 제거 없이 실행되어 정확도가 좋음

- category 변수의 value종류가 32개까지 됨

- 해석이 어렵지만 예측력이 높음(입력변수가 많을수록 배깅, 부스팅보다 좋음)

 


5. 모형평가