본문 바로가기

□ ADsP

[ADsP - 4과목] 제3장 정형 데이터 마이닝: (2) 군집 분석, 연관 분석

 


3절 군집분석


◆군집분석 개요

- 객체들의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법

- 특성에 따라 객체들을 여러 개의 배타적인 집단으로 나누는 것

- 군집 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화

- 소비자들의 상품구매 행동, life style에 따른 수비자군 분류에 활용

- 특징

  요인분석과 차이점: 유사한 변수를 함께 묶어주는 것이 목적(요인)

  판별분석과 차이점: 사전에 나누어져 있는 집단과 자료를 통해 새로운 데이터를 기존 집단에 할당하는 것이 목적(판별)

 

1. 계층적 군집

- n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법

①최단연결법: 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집 형성

②최장연결법: 거리가 먼 데이터나 군집을 묶어서 형성

③평균연결법: 최단연결법과 동일. 군집을 묶고 거리를 구할 때 평균 사용

④와드연결법: 군집 내 편차들의 제곱합을 고려한 방법, 군집 간 정보의 손실 최소화

 

2. K-평균 군집

- (비계층적) n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것

 

K-평균 군집분석

- 원하는 군집의 개수와 초기 값(seed)을 정해 seed를 중심으로 군집 형성

- 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

- 각 군집의 seed 값 다시 계산

- 모든 개체가 군집으로 할당될 때까지 위 과정 반복

 

K-평균 군집분석의 특징

- 연속형 변수에 활용 가능

- 초기 중심값은 임의로 선택 가능, 멀리 떨어져 선택, 일렬 선택X

- 안정된 군집은 보장하나 최적은 보장하지 못하는 greedy 알고리즘

- 장점: 알고리즘 단순, 빠름, 계층적 군집보다 많은 데이터 가능

- 단점: 군집 수, 가중치, 거리 정의가 어려움, 결과 해석 어려움, 잡음/이상값에 영향을 많이 받음, 볼록형태가 아닌 군집 존재 시 성능 떨어짐

R: K-means Clustering (kmeans, pam, fanny )

 

3. 혼합분포군집

- 모형 기반 군집, 데이터가 k개의 모수적 모형의 가중함으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 모수와 함께 가중치를 자료로부터 추정하는 방법 사용, EM알고리즘(모수와 가중치 추정) 사용

◆특징

- 확률분포도입

- 군집을 몇 개의 모수로 표현, 서로 다른 크기/모양의 군집 찾기 가능

- 이상치 자료에 민감

- 군집의 크기가 너무 작으면 힘듦

 

4. SOM (Self-Organizing Map)

- 자가조직화지도 알고리즘은 코호넨에 의해 제시, 코호넨 맵

- 비지도 신경만으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화

- 형상화 하는 입력 변수의 위치 관계를 그대로 보존한다는 특징

- 두 개의 인공신경망 층으로 구성: 입력층, 2차원 격자로 구성된 경쟁층

◆특징

- 시각적 이해 좋음

- 패턴 발견, 이미지 분석 등에서 뛰어난 성능

- 속도가 빠름. 실시간 학습처리 가능한 모형


 

 

4절 연관분석

 

1. 연관규칙

- 상품의 구매, 서비스 등 일련의 거래/사건들 간의 규칙을 발견하기 위해 적용

- 장바구니 분석: 장바구니에 무엇이 같이 들어있는지 분석

- 서열분석: A를 산 다음에 B를 산다

- 조건과 반응 형태: 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다

 

연관분석의 측도 3가지

①지지도: 전체 거래 중 항목 A, B를 동시에 포함하는 거래의 비율

②신뢰도: 항목 A를 포함한 거래 중에서 항목 A, B를 동시에 포함하는 거래의 비율

③향상도: A가 주어지지 않았을 때, 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율

 

◆절차: 최소지지도 결정 →최소 지지도 넘는 품목 분류→2가지 품목 집합 생성→반복적으로 수행해 빈발품목 집합 찾기

 

◆장단점

장점

단점

탐색적 기법: 이해 쉬움

상당한 수의 계산 과정: 기하급수적 증가

→ 유사한 품목 범주화, 적은 연관 규칙 제외로 해결

강력한 비목적성 분석기법

적절한 품목 결정: 너무 세분화된 품목은 의미 없는 결과 도출

→ 큰 범주 분석 후 세부 범주 분석으로 해결

사용 편리한 분석 데이터 형태

품목의 비율차이: 거래량이 적으면 규칙 발견 어려움

→ 유사한 품목과 함께 범주 구성으로 해결

계산의 용이성

 

 

◆순차패턴: 시간(구매시점)이라는 개념 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아냄

 

활용방안

- 장바구니 분석의 경우 실시간 상품추천을 통한 교차판매에 응용

- 시차분석은 상품 추천하는 교차판매 캠페인에 사용

- 상품의 연관성을 분석하여 매장진열, 패키지 상품개발, 교차판매 전략의 수립에 활용