반응형
1. 데이터 마이닝
1) 개요
- 정의 : 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
- 통계분석과 차이점 : 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미 있는 정보를 추출
- 활용 분야 : 분류, 예측, 군집화, 시각화 등
- 방법론 : 의사결정나무, 로지스틱 회귀분석, 최근 법 이웃 법, 군집분석, 연관 규칙 분석 등
2) 분석 방법
지도 학습 | 비지도 학습 |
- 의사결정나무 - 인공신경망 - 로지스틱 회귀분석 - 최근접이웃법 - 사례기본 추론 |
- OLAP - 연관 규칙 분석 - 군집분석 - SOM |
3) 데이터 마이닝 추진단계
1. 목적 설정 | 데이터 마이닝을 위한 명확한 목적 설정 |
2. 데이터 준비 | 모델링을 위한 다양한 데이터를 준비, 데이터 정제를 통해 품질을 보장 |
3. 데이터 가공 | 목적변수 정의, 모델링을 위한 데이터 형식으로 가공 |
4. 기법 적용 | 데이터 마이닝 기법을 적용하여 정보를 추출 |
5. 검증 | 마이닝으로 추출한 결과를 검정하고 업무에 적용해 기대효과를 전파 |
4) 데이터 분할
구축용 | 50%의 데이터를 모델링을 위한 훈련용으로 활용 |
검정용 | 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용 |
시험용 | 20%의 데이터를 테스트데이터나 과거 데이터를 활용하여 모델의 성능 평가에 활용 |
5) 모델의 성능 평가
- 은행의 대출 문제로 본다면 연이율이 20%라고 가정하고 100만원을 100명에게 대출한다고 할 때
- 계산하는 방식 확인 필요
반응형