제3절 군집분석
◆군집분석 개요
- 객체들의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법
- 특성에 따라 객체들을 여러 개의 배타적인 집단으로 나누는 것
- 군집 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화
- 소비자들의 상품구매 행동, life style에 따른 수비자군 분류에 활용
- 특징
요인분석과 차이점: 유사한 변수를 함께 묶어주는 것이 목적(요인)
판별분석과 차이점: 사전에 나누어져 있는 집단과 자료를 통해 새로운 데이터를 기존 집단에 할당하는 것이 목적(판별)
1. 계층적 군집
- n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
①최단연결법: 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집 형성
②최장연결법: 거리가 먼 데이터나 군집을 묶어서 형성
③평균연결법: 최단연결법과 동일. 군집을 묶고 거리를 구할 때 평균 사용
④와드연결법: 군집 내 편차들의 제곱합을 고려한 방법, 군집 간 정보의 손실 최소화
2. K-평균 군집
- (비계층적) n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것
◆K-평균 군집분석
- 원하는 군집의 개수와 초기 값(seed)을 정해 seed를 중심으로 군집 형성
- 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
- 각 군집의 seed 값 다시 계산
- 모든 개체가 군집으로 할당될 때까지 위 과정 반복
◆K-평균 군집분석의 특징
- 연속형 변수에 활용 가능
- 초기 중심값은 임의로 선택 가능, 멀리 떨어져 선택, 일렬 선택X
- 안정된 군집은 보장하나 최적은 보장하지 못하는 greedy 알고리즘
- 장점: 알고리즘 단순, 빠름, 계층적 군집보다 많은 데이터 가능
- 단점: 군집 수, 가중치, 거리 정의가 어려움, 결과 해석 어려움, 잡음/이상값에 영향을 많이 받음, 볼록형태가 아닌 군집 존재 시 성능 떨어짐
◆R: K-means Clustering (kmeans, pam, fanny 등)
3. 혼합분포군집
- 모형 기반 군집, 데이터가 k개의 모수적 모형의 가중함으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 모수와 함께 가중치를 자료로부터 추정하는 방법 사용, EM알고리즘(모수와 가중치 추정) 사용
◆특징
- 확률분포도입
- 군집을 몇 개의 모수로 표현, 서로 다른 크기/모양의 군집 찾기 가능
- 이상치 자료에 민감
- 군집의 크기가 너무 작으면 힘듦
4. SOM (Self-Organizing Map)
- 자가조직화지도 알고리즘은 코호넨에 의해 제시, 코호넨 맵
- 비지도 신경만으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화
- 형상화 하는 입력 변수의 위치 관계를 그대로 보존한다는 특징
- 두 개의 인공신경망 층으로 구성: 입력층, 2차원 격자로 구성된 경쟁층
◆특징
- 시각적 이해 좋음
- 패턴 발견, 이미지 분석 등에서 뛰어난 성능
- 속도가 빠름. 실시간 학습처리 가능한 모형
제4절 연관분석
1. 연관규칙
- 상품의 구매, 서비스 등 일련의 거래/사건들 간의 규칙을 발견하기 위해 적용
- 장바구니 분석: 장바구니에 무엇이 같이 들어있는지 분석
- 서열분석: A를 산 다음에 B를 산다
- 조건과 반응 형태: 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다
◆연관분석의 측도 3가지
①지지도: 전체 거래 중 항목 A, B를 동시에 포함하는 거래의 비율
②신뢰도: 항목 A를 포함한 거래 중에서 항목 A, B를 동시에 포함하는 거래의 비율
③향상도: A가 주어지지 않았을 때, 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율
◆절차: 최소지지도 결정 →최소 지지도 넘는 품목 분류→2가지 품목 집합 생성→반복적으로 수행해 빈발품목 집합 찾기
◆장단점
장점
|
단점
|
탐색적 기법: 이해 쉬움 |
상당한 수의 계산 과정: 기하급수적 증가 → 유사한 품목 범주화, 적은 연관 규칙 제외로 해결 |
강력한 비목적성 분석기법 |
적절한 품목 결정: 너무 세분화된 품목은 의미 없는 결과 도출 → 큰 범주 분석 후 세부 범주 분석으로 해결 |
사용 편리한 분석 데이터 형태 |
품목의 비율차이: 거래량이 적으면 규칙 발견 어려움 → 유사한 품목과 함께 범주 구성으로 해결 |
계산의 용이성 |
|
◆순차패턴: 시간(구매시점)이라는 개념 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아냄
◆활용방안
- 장바구니 분석의 경우 실시간 상품추천을 통한 교차판매에 응용
- 시차분석은 상품 추천하는 교차판매 캠페인에 사용
- 상품의 연관성을 분석하여 매장진열, 패키지 상품개발, 교차판매 전략의 수립에 활용
'□ ADsP' 카테고리의 다른 글
[ADsP - 4과목] 제3장 정형 데이터 마이닝: (1) 개요 및 분류 분석 (0) | 2019.02.06 |
---|---|
[ADsP - 4과목] 제2장 통계 분석: (3) 다변량 분석, 시계열 예측 (0) | 2019.02.06 |
[ADsP - 4과목] 제2장 통계 분석: (2) 기초 통계 분석 (0) | 2019.02.06 |
[ADsP - 4과목] 제2장 통계 분석: (1) 통계학 개론 (0) | 2019.02.06 |
[ADsP - 4과목] 제1장 R 기초와 데이터마트 (0) | 2019.02.06 |