본문 바로가기
데이터분석

군집분석

by 쓱쓱기획 2021. 11. 13.
반응형

1. 군집분석
1) 개요
- 각 개체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 분석 방법
- 특성에 따라 고객을 여러 개의 베타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터부터 거리기준으로 군집화 유도


2) 특징
- 비교사학습법에 해당하여 타겟변수(종속변수)의 정의가 없이 학습이 가능
- 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능
- 요인분석과의 차이: 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어 줌
- 판별분석과의 차이: 판별분석은 사전에 집단이 나누어져 있어야 하지만 군집분석은 집단이 없는 상태에서 집단을 구분

3) 거리 측정 방법
- 연속형 변수: 유클리드 거리, 표준화 거리, 마할라노비스 거리, 체비 셔프 거리, 맨하탄 거리, 캔버라 거리, 민코 우스키 거리 등
- 범주형 변수: 자카드 거리, 코사인 거리 등 

4) 계층적 군집분석
- n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법

최단연결법 - n*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성
- 군집과 군집 또는 데이터와의 거리를 계산시 최단거리(min)를 거리로 계산하여 거리행렬 수정
- 수정된 거리행렬에서 거리가 가까운 데이터 또는 군집을 새로운 군집으로 형성
최장연결법 - 군집과 군집 또는 데이터와의 거리를 계산시 최장거리(max)를 거리로 계산하여 거리행렬 수정
평균연결법 - 군집과 군집 또는 데이터와의 거래를 계산시 평균거리(mean)를 거리로 계산하여 거리행렬 수정
와드연결법 - 군집내 편차들의 제곱함을 고려한 방법으로 군집 간 정보의 손실을 최소화 하기 위한 군집화를 진행 

 

5) 비계층적 군집분석 
- n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것
- K-평균 군집분석
  프로세스 : ① 원하는 군집의 개수와 초기 값들을 정해 seed 중심으로 군집을 형성 
                ② 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
                ③ 각 군집의 seed 값을 다시 계산
                ④ 모든 개체가 군집으로 할당될 때까지 위 과정들을 반복

- 장점과 단점

장점 단점
주어진 데이터의 내부구조에 대한 사전정보 없이 의미 있는 자료구조를 찾을 수 있음 가중치와 거리 정의가 어려움
다양한 형태의 데이터에 적용이 가능 초기 군집수를 결정하기 어려움
분석방법 적용이 용이함 사전에 주어진 목적이 없으므로 결과 해석이 어려움




6) 혼합 분포 군집
- 모형 기반의 군집 방법이며, 데이터가 k개의 모수적 모형(흔히 정규분포 또는 다변량 정규분포를 가정함)의 가중함으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법을 사용
- K개의 각 모형은 군집을 의미하며, 각 데이터는 추정된 K개의 모형 중 어느 모형으로 부터 나왔을 확률이 높은 지에 따라 군집의 분류가 이루어짐
- 흔히 혼합모형에서의 모수와 가중치의 추정(최대 가능도 추정)에는 EM 알고리즘이 사용
- 혼합분포군집모형의 특징 
* k-평균 군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행
* 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음
* EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸림
* 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움
* K-평균 군집과 같이 이상치 자료에 민감하므로 사전에 조치가 필요



7) SOM 의 특징
- 고차원의 데이터를 저 차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움
- 입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현되며, 이런 특정 때문에 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보임 
- 역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르므로 실시간 학습처리를 할 수 있는 모형임

반응형

'데이터분석' 카테고리의 다른 글

연관분석  (0) 2021.11.15
분류분석  (0) 2021.11.14
데이터 마이닝 개요  (0) 2021.11.12
다차원 척도법과 주성분분석  (0) 2021.11.11
시계열 분석  (0) 2021.11.10