CRISP-DM(Cross Industry Standard Process for data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개의 업체들이 주도하였다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성된다.
CRISP-DM의 4 레벨 구조
최상의 레벨은 여러 개의 단계로 구성되고 각 단계는 일반화 태스크를 포함한다.
일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적이 수행 레벨인
세분화 태스크로 구성된다.
예를 들어 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다. 마지막 레벨인 프로세스 실행은 데이터 마이닝을 위한 구체적인 실행을 포함한다.
CRISP-DM의 프로세스
CRISP-DM 프로세스는 6단계로 구성되어 있으며, 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다.
1단계 업무 이해
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
- 수행업무 : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2단계 데이터 이해
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
- 수행업무 : 초기 데이터 수집, 데이터 기술 분석, 테이터 탐색, 데이터 품질 확인
3단계 데이터 준비
- 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계(많은 시간이 소용 될 수 있음)
- 수행업무 : 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
4단계 모델링
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최족화해 나가는 단계
- 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며, 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인
- 수행업무 : 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
5단계 평가
- 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단
- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
6단계 전개
- 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계
- 모니터링과 모델의 유지보수 계획 마련
- CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리
'데이터분석' 카테고리의 다른 글
데이터 분석 기법의 이해 (0) | 2021.10.30 |
---|---|
KDD vs CRISP-DM의 비교 (0) | 2021.10.15 |
KDD 분석 방법론 (0) | 2021.10.13 |
분석 기획시 고려사항 (0) | 2021.10.12 |
분석 기획의 특징 (0) | 2021.10.11 |