본문 바로가기
데이터분석

분류분석

by 쓱쓱기획 2021. 11. 14.
반응형

1. 분류 분석과 예측 분석
1) 개요

공통점 레코드의 특정 속성의 값을 미리 알아 맞히는 것
차이점 분류는 레코드의 범주형 속성의 값을 알아 맞히는 것
예측은 레코드의 연속형 속성의 값을 알아 맞히는 것
분류의 예 학생들의 국어, 영어 등 점수를 통해 내신등급을 예측
카드회사에서 회원들의 가입정보를 통해 1년 후 신용등급을 예측
예측의 예 학생들의 여러 가지 정보를 입력해 수능점수를 예측
카드회사에서 회원들의 가입정보를 통해 연 매출액을 예측
분류 모델링 신용평가모형, 사기방지모형, 이탈모형, 고객세분화
분류 기법 로지스틱 회귀분석
의사결정나무, CART, C5.0
베이지안 분류
인공신경망
지지도벡터기계
k 최근접 이웃
규칙기반의 분류와 사례기반 추론

 




2. 의사결정 나무


1) 정의와 특징

- 분류 함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법으로, 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 함
- 주어진 입력값에 대해 출력 값을 예측하는 모형으로 분류 나무와 회귀 나무 모형이 있음


- 특징

* 계산 결과가 의사결정 나무에 직접 나타나게 돼 분석이 간편함
* 분류 정확도가 좋음
* 계산이 복잡하지 않아 대용량 데이터에서도 빠르게 만들 수 있음
* 비정상 잡음 데이터에 대해서도 민감함 없이 분류
* 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향받지 않음

2) 활용

세분화 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할해 그룹별 특성을 발견
분류 관측개체를 여러 예측변수들에 근거해 목표변수의 범주를 몇 개의 등급으로 분류하고자 하는 경우
예측 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우 
차원축소 및 변수선택 매우 많은 수의 예측변수 중 목표변수에 영향을 미치는 변수들을 골라내고자 하는 경우
교호작용효과의 파악 여러 개의 예측변수들을 결합해 목표 변수에 작용하여 파악하고자 하는 경우 
범주의 병합 또는 연속형 변수의 이산화 범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로
이산화 하고자 하는 경우 


3) 의사결정 나무의 분석 과정
- 분석 단계 : 성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예측
- 가지치기 : 너무 큰 나무 모형은 자료를 과대 적합하고 너무 작은 나무 모형은 과소 적합할 위험이 있어 마디에 속한 자료가 일정 수 이하일 경우, 분할을 정지하고 가지치기 실시
- 불순도에 따른 분할 측도 : 카이제곱 통계량, 지니 지수, 엔트로피 지수

4) 의사결정 나무 분석의 종류

CART - 목적변수가 범주형인 경우 지니지수, 연속형인 경우 분산을 이용해 이진분리를 사용 
- 개별 입력변수 뿐만 아니라 입력변수들의 선형결합들 중 최적의 분리를 찾을 수 있음 
C4.5와 C5.0 - 다지분리가 가능하고 범주형 입력 변수와 범주 수만큼 분리 가능
- 불순도의 측도로 엔트로피 지수 사용
CHAID - 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반듯이 범주형 변수여야 함
- 불순도의 측도로 카이제곱 통계량 사용 


3. 앙상블 기법
1) 개요 
- 주어진 자료로부터 여러 개의 예측모형들을 만든 후 조합하여 하나의 최종 예측모형을 만드는 방법
- 다중 모델 조합, classifier combination 방법이 있음
- 학습 방법의 불안전성을 해결하기 위해 고안된 기법
- 가장 불안정성을 가지는 기법은 의사결정 나무, 가장 안정성을 가지는 기법은 1-nearest neighbor

2) 기법의 종류

배깅 - 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료의 예측모형 결과를 결합하여 결과를 선정
- 배깅은 훈련자료를 모집단으로 생각하고 평균 예측모형을 구한 것과 같이 분산을 줄이고 예측력을
향상 시킬 수 있음
부스팅 - 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법 
훈련오차를 빨리 그리고 쉽게 줄일 수 있고, 예측오차의 향상으로 배깅에 비해 뛰어난 얘측력을 보임
랜덤 포레스트 - 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어
약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 이론적 설명이나 해석이 어렵다는 단점이 있지만 예측력이 매우 높은 장점이 있음 입력변수가 많은
경우 더 좋은 예측력을 보임

4. 성과분석
1) 오 분류표를 통한 모델 평가

2) ROC
- 민감도와 1-특이도를 활용하여 모형을 평가
- AUROC(ROC 커브 밑부분의 넓이) - AUROC = (AR+1)/2

AUROC 등급
0.9 ~ 1.0 Excellent
0.8 ~ 0.9 Good
0.7 ~ 0.8 Fair


5. 인공신경망
1) 신경망의 연구
- 인공신경망은 뇌를 기반으로 한 추론 모델 
- 1943년 매컬럭과 피츠 : 인간의 뇌를 수많은 신경세포가 연결돼 하나의 디지털 네트워크 모형으로 간주하고 신경세포의 신호처리 과정을 모형화하여 단순 패턴 분류 모형을 개발
- 햅 : 신경세포(뉴런) 사이의 역녈강도를 조정하여 학습 규칙을 개발
- 로젠 블럿 : 퍼셉트론이라는 인공세포 개발, 비선형성의 한계점 발생 - XOR 문제 
- 홉 필드, 러멜 하트, 맥클랜드 : 역전파 알고리즘을 활용하여 비선형성을 극복한 다계층 퍼셉트론으로 새로운 인공신경망 모형 등장

 



2) 뉴런
- 인공신경망은 뉴런이라는 아주 단순하지만 복잡하게 연결된 프로세스로 이루어져 있음
- 뉴런은 가중치가 있는 링크들로 연결되어있으며, 뉴런은 여러 개의 입력 신호를 받아 하나의 출력 신호를 생성
- 뉴런은 전이 함수, 즉 활성화 함수를 사용
*뉴런은 입력 신호의 가중치 합을 계산하여 임계값과 비교 
*가중치 합이 임계값보다 작으면 뉴런의 출력은 -1, 같거나 크면 +1을 출력함


3) 신경망 모형 구축 시 고려사항

입력변수 - 신경망 모형은 복잡성으로 인해 입력자료의 선택에 매우 민감
- 범주형 변수(각 범주의 빈도가 일정수준 이상이고 각 범주의 빈도가 일정할 때 활용)
ex) 가변수화하여 적용 (성별[남,녀] -> 남성[1,0], 여성[1,0]
- 연속형 변수 (입력 값의 범위가 변수들간에 큰 차이가 없을 때 활용, 분포가 대칭이 아니면 좋지 않은 결과 도출, 변환 또는 범주화 활용) 
가중치 초기값 - 역전파 알고리즘의 경우, 초기값에 따라 결과가 많이 달라져 초기값 선택이 매우 중요
- 가중치가 0이면 시그모이드 함수는 선형이 되고 신경망 모형도 선형모형이 됨
- 초기값은 0 근처의 랜덤 값으로 선정하고 초기에는 선형모형에서 가중치가 증가하면서 비선형으로 변경됨
예측값 선정 - 비용함수 R는 비볼록함수이고 여러 개의 국소 최소값들을 가짐
- 랜덤하게 선택된 여러 개의 초기값에 대한 신경망을 적합한 후 얻응 해들을 비교하여 가장 오차가 작은 것을 선택하여 최종 예측값을 얻거나 평균(또는 최빈값)을 구하여 최종 예측값으로 선정
- 훈련자료에 대하여 배깅을 적용하여 최종 예측치를 선정
학습률 - 상수값을 사용하며, 처음에는 큰 값으로 정하고 반복이 진행되어 해가 가까울 수록 0에 수렴 
은닉층, 은닉 노드의 수 - 은닉층과 은닉노드가 많으면 - 가중치가 많아져서 과대 적합 문제 발생
- 은닉층과 은닉노드가 적으면 - 과소 적합 문제 발생 
- 은닉층 수 결정 : 은닉층이 하나인 신경망은 범용근사자이므로 가급적이면 하나로 선정
- 은닉노드 수 결정 : 적절히 큰 값으로 결정하고 가중치를 감소하면서 모수에 대한 벌점화 적용 
과대 적합 문제 - 신경망은 많은 가중치를 추정해야 하므로 과대적합 문제가 빈번 
- 해결방법 : 조기종료(모형이 적합하는 과정에서 검증오차가 증가하기 시작하면 반복을 중지
선형모형의 능형회귀와 유사한 가중치 감소라는 벌점화 기법 활용 

 

6. 로지스틱 회귀분석
1) 개요 
- 반응 변수가 범주형인 경우에 적용되는 회귀분석모형
- 새로운 설명변수(또는 예측 변수)가 주어질 때 반응 변수의 각 범주(또는 집단)에 속할 확률이 얼마인지를 추정(예측모형)하여, 추정 확률을 기준치에 따라 분류하는 목적(분류 모형)으로 활용
- 이때 모형의 적합을 통해 추정된 확률을 사후 확률이라고 함
- exp의 의미는 나머지 변수가 주어질 때, x1이 한 단위 증가할 때마다 성공의 오즈가 몇 배 증가하는지를 나태는 값
- glm() 함수를 활용하여 로지스틱 회귀분석을 실행함

반응형

'데이터분석' 카테고리의 다른 글

데이터의 이해  (0) 2021.11.16
연관분석  (0) 2021.11.15
군집분석  (0) 2021.11.13
데이터 마이닝 개요  (0) 2021.11.12
다차원 척도법과 주성분분석  (0) 2021.11.11