본문 바로가기
데이터분석

데이터 마이닝 개요

by 쓱쓱기획 2021. 11. 12.
반응형

1. 데이터 마이닝

1) 개요
- 정의 : 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
- 통계분석과 차이점 : 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미 있는 정보를 추출
- 활용 분야 : 분류, 예측, 군집화, 시각화 등
- 방법론 : 의사결정나무, 로지스틱 회귀분석, 최근 법 이웃 법, 군집분석, 연관 규칙 분석 등



2) 분석 방법

지도 학습 비지도 학습
- 의사결정나무
- 인공신경망
- 로지스틱 회귀분석
- 최근접이웃법
- 사례기본 추론
- OLAP
- 연관 규칙 분석
- 군집분석
- SOM

3) 데이터 마이닝 추진단계

1. 목적 설정 데이터 마이닝을 위한 명확한 목적 설정
2. 데이터 준비 모델링을 위한 다양한 데이터를 준비, 데이터 정제를 통해 품질을 보장
3. 데이터 가공 목적변수 정의, 모델링을 위한 데이터 형식으로 가공
4. 기법 적용 데이터 마이닝 기법을 적용하여 정보를 추출
5. 검증 마이닝으로 추출한 결과를 검정하고 업무에 적용해 기대효과를 전파

4) 데이터 분할

구축용 50%의 데이터를 모델링을 위한 훈련용으로 활용
검정용 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용
시험용 20%의 데이터를 테스트데이터나 과거 데이터를 활용하여 모델의 성능 평가에 활용


5) 모델의 성능 평가
- 은행의 대출 문제로 본다면 연이율이 20%라고 가정하고 100만원을 100명에게 대출한다고 할 때
- 계산하는 방식 확인 필요

반응형

'데이터분석' 카테고리의 다른 글

분류분석  (0) 2021.11.14
군집분석  (0) 2021.11.13
다차원 척도법과 주성분분석  (0) 2021.11.11
시계열 분석  (0) 2021.11.10
회귀분석  (0) 2021.11.09