3장 정형 데이터 마이닝
제1절 데이터마이닝 개요
- 거대한 양의 데이터 속에서 쉽게 들어나지 않는 유용한 정보를 찾아내는 과정
- 기업이 사용가능한 원천데이터를 기반으로 감춰진 지식, 경향, 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 등에 활용하고자 하는 일련의 작업
1. 분류(Classification)
- 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것
- 의사 결정 나무, memory-based reasoning, link analysis
2. 추정(Estimation)
- 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값 추정(연속값, 수입, 수준, 잔고 등)
- 가족 구성원의 총 수입 추정, 고객의 평생 가치 추정
3. 예측(Prediction)
- 미래의 양상을 예측하거나 미래의 값을 추정한다는 것을 제외하면 분류나 추정과 동일한 의미
- 예측에 사용되는 기술장바구니 분석, 의사결정나무, 신경망 등
4. 연관 분석(Association Analysis)
- 같이 팔리는 물건과 같이 아이템의 연관성을 파악하는 분석
- 물건 배열 계획, 카탈로그 배열 및 교차 판매, 공격적 판촉행사 등의 마케팅 계획에 사용
- 연관 분석의 한 기법인 장바구니 분석의 결과는 연관 규칙으로 나타냄
5. 군집(Clustering)
- 이질적인 모집단을 동질성을 지닌 그룹 별로 세분화하는 것
- 군집은 데이터 마이닝이나 모델링의 준비 단계로 사용
- 시장세분화의 첫 단계로써 판촉 활동 반응률이 높은 고객 선별, 구매 습관이 유사한 사람들 군집화 등
6. 기술(Description)
- 데이터가 암시하는 바를 설명 가능해야 하며, 설명에 대한 답을 찾아낼 수 있어야 함
◆데이터마이닝 기능 추진을 위한 환경 구축 5단계
①목적 정의: 데이터마이닝 목적/기법 정의
②데이터 준비
③데이터 가공: 기법에 적용이 가능하도록 가공
④데이터마이닝 기법 적용
⑤검증: 검증 및 최적의 모델 선정, 기대효과 전파(보고서)
제2절 분류분석
- 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법
- 분류 모델링: 신용평가모형(우량, 불량), 사기방지모형(사기, 정상), 이탈모형(이탈, 유지)
◆분류기법
- 회귀분석, 로지스틱 회귀, 의사결정나무, CART, C5.0, 베이지안 분류, 인공신경망, 지지도벡터기계(SVM), K-최근접이웃, 규칙기반의 분류와 사례기반 추론
◆분류분석 vs. 예측분석
- 공통점: 레코드의 특정 속성의 값을 미리 알아 맞힘
- 차이점: 분류는 레코드의 범주형 속성 값을, 예측은 레코드의 연속형 속성 값을 맞히는 것
- ex. 분류: 학생의 내신 등급, 1년 후 신용 등급; 예측: 수능점수, 연 매출액
1. 로지스틱 회귀모형
- 반응변수가 범주형인 경우 적용되는 회귀분석모형
- 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 분류하는 목적으로 활용
- 사후확률: 적합을 통해 추정된 확률
2. 신경망 모형(ANN)
◆인공신경망
- 인간 뇌를 기반으로 한 추론 모델
- 뉴런은 기본적인 정보처리 단위
- 뉴런은 가중치가 있는 링크들로 연결
- 뉴런은 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성
◆인공신경망의 학습
- 가중치를 반복적으로 조정하여 학습
- 뉴런은 링크로 연결되어 있고, 각 링크에는 수치적인 가중치
- 가중치 조정 방식: 초기화 후, 훈련 데이터를 통해 가중치 갱신; 신경망의 구조를 선택 후, 활용할 학습 알고리즘 결정한 후 신경망 훈련
◆뉴런 특징
- 입력링크에서 여러 신호를 받아 새로운 활성화 수준 계산, 출력 링크로 출력 신호 보냄
- 입력신호는 미가공 데이터 또는 다른 뉴런의 출력
- 출력신호를 최종 solution이나 다른 뉴런에 입력
- 전이함수(활성함수)를 통해 계산
1) 신경망 모형 구축시 고려사항
◆입력변수
- 복잡성에 의하여 입력 자료 선택에 민감
- 범주형 변수: 모든 범주에서 일정 빈도 이상, 빈도 일정
- 범주형 변수의 경우, 모든 범주형 변수가 같은 범위를 갖도록 가변수화 해야 함
- 연속형 변수: 입력변수 값들의 범위가 변수간의 큰 차이가 없을 때
- 연속형 변수의 경우, 분포가 평균중심으로 대칭이어야 함
◆가중치의 초기값과 다중 최소값 문제
- 초기값 선택 중요
- 가중치가 0이면, 신경망 모형은 근사적 선형모형
- 초기값은 0 근처로 랜덤하게 선택, 가중치가 증가할수록 비선형
◆학습모드
- 온라인 학습모드: 관측값을 순차적으로 투입하여 가중치 추정값이 매번 바뀜(속도 빠름, 훈련자료가 비정상성일 때 좋음, 국소 최소값에 벗어나기 쉬움)
- 확률적 학습모드: 관측값을 랜덤하게 투입하여 가중치 추정값이 매번 바뀜
- 배치 학습모드: 전체 훈련자료를 동시에 투입
◆은닉층과 은닉노드의 수
- 신경망 적용 시 제일 중요한 부분: 모형선택(은닉층, 은닉노드의 수 결정)
- 많으면 가중치가 많아져 과대 적합문제 발생
- 적으면 과소적합문제 발생
- 은닉층 수 결정: 하나로 선정
- 은닉노드 수 결정: 적절히 큰 값으로 놓고 가중치 감소시키면서 적용
◆과대적합 문제
- 알고리즘 조기종료와 가중치 감소기법으로 해결
- 조기종료: 검증오차가 증가하기 시작하면 반복 중지
- 가중치 감소라는 벌점화 기법 활용
3. 의사결정나무 모형
◆의사결정나무
- 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
- 나무 구조: 연속적으로 발생하는 의사결정 문제를 시각화(시점과 성과가 한눈에)
- 계산 결과가 의사결정나무에 직접 나타나 분석이 간편
- 주어진 입력값에 대하여 출력값을 예측하는 모형
- 최종모형의 예측력과 해석력이 중요
◆의사결정나무 활용: 세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용효과 파악, 범주의 병합or연속형 변수의 이산화
◆특징: 설명용이, 복잡하지 않음, 빠름, 비정상 잡음 데이터도 가능, 다중공선성에 영향 안 받음(불필요 변수 제거 용이)
◆분석과정(형성과정)
①성장단계: 각 마디에서 적절한 분리규칙 & 정지규칙
- 입력 공간을 재귀적으로 분할하는 과정
- 최적 분할의 결정은 불순도 감소량을 가장 크게 하는 분할
②가지치기 단계: 불필요한 가지 제거
- 큰 나무 모형은 과대적합, 작은 나무 모형은 과소적합 위험
- 마디에 속하는 자료가 일정 수 이하면 분할 정지 or 비용-복잡도 가지치기
③타당성 평가 단계: 이익도표, 위험도표, 시험자료
④해석 및 예측 단계: 해석 및 적용
1) 불순도의 여러가지 측도: 지니지수, 엔트로피 지수, 카이제곱 통계량
2) 여러가지 의사결정 나무 알고리즘
①CART (rparty 패키지)
- 목적변수가 범주형인 경우 지니지수, 연속형은 분산을 이용해 이진 분리 사용
- 개별 입력변수, 입력변수들의 선형결합 중 최적의 분리를 찾음
②C4.5, C5.0
- 다지 분리 가능, 범주형 입력변수의 범주 수만큼 분리 가능
- 불순도 측도로 엔트로피 지수 사용
③CHAID
- 가지치기 않고 적당한 크기에서 성장 중지, 입력변수가 반드시 범주형
- 불순도 측도로 카이제곱 통계량 사용
3) 성과분석과 스코어링: party 패키지
- 의사결정나무에 사용되는 분류 패키지(party::ctree)
- 분실값 처리가 잘 안됨
4. 앙상블 모형
- 여러 개의 예측모형을 만든 후, 예측 모형들을 조합하여 하나의 최종 예측모형을 만드는 방법
- 분리 분석의 과적합을 줄이기 위해 개발
◆학습방법의 불안전성
- 작은 변화에 의해 예측모형이 크게 변하는 경우, 그 학습방법은 불안정
- 가장 안정적인 방법: k-최근접이웃, 선형회귀모형
- 가장 불안정한 방법: 의사결정나무
◆배깅
- 주어진 자료에서 여러 개 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후, 결합하여 최종 예측모형을 만드는 방법
- 붓스트랩(bootstrap): 주어진 자료에서 동일한 크기의 표본을 랜덤복원추출로 뽑은 자료
- 보팅: 여러 개의 모형으로부터 산출된 결과를 다수결에 의하여 최종 결과를 선정하는 과정
- 가지치기를 하지 않고 최대로 성장한 의사결정나무들 사용
- 평균예측 모형을 못 구함(훈련자료의 모집단의 분포 모름)
- 훈련자료를 모집단으로 생각하고 평균예측모형을 구한 것과 같음. 분산을 줄이고 예측력 향상
◆부스팅
- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
- 훈련오차를 빠르고 쉽게 줄임
- 성능이 배깅보다 뛰어난 경우가 많음
◆랜덤포레스트
- 분산이 큰 의사결정나무를 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성 후, 이를 선형결합하여 최종 학습기를 만드는 방법
- randomForest 패키지, 랜덤한 forest에 많은 트리 생성
- 변수 제거 없이 실행되어 정확도가 좋음
- category 변수의 value종류가 32개까지 됨
- 해석이 어렵지만 예측력이 높음(입력변수가 많을수록 배깅, 부스팅보다 좋음)
5. 모형평가
'□ ADsP' 카테고리의 다른 글
[ADsP - 4과목] 제3장 정형 데이터 마이닝: (2) 군집 분석, 연관 분석 (0) | 2019.02.06 |
---|---|
[ADsP - 4과목] 제2장 통계 분석: (3) 다변량 분석, 시계열 예측 (0) | 2019.02.06 |
[ADsP - 4과목] 제2장 통계 분석: (2) 기초 통계 분석 (0) | 2019.02.06 |
[ADsP - 4과목] 제2장 통계 분석: (1) 통계학 개론 (0) | 2019.02.06 |
[ADsP - 4과목] 제1장 R 기초와 데이터마트 (0) | 2019.02.06 |