본문 바로가기
데이터분석

KDD 분석 방법론

by 쓱쓱기획 2021. 10. 13.
반응형

KDD(Knowledg Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다.
데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. 


KDD 분석 방법론




1단계 데이터셋 선택
- 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이며 데이터베이스
또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계이다. 
- 데이터마이닝에 필요한 목표 데이터를 구성하여 분석에 활용한다. 

2단계 데이터 전처리
- 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing Value)를 식별하고
필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계이다. 
- 데이터 전처리 단계에서 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재 실행한다.

3단계 데이터 변환
- 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여
효율적으로 데이터마이닝을 할 수 있도록 데이터에 변경하는 단계이다. 
- 데이터마이닝 프로세스를 진행하기 위해 학습용 데이터와 검증 용데이터로 데이터를 분리하는 단계이다.

4단계 데이터 마이닝
- 학습용 데이터를 이용하여 분석목적에 맞는 데이터 마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여
데이터 마이닝 작업을 실행하는 단계이다. 
- 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출한다. 

 



5단계 마이닝 결과 평가
- 데이터마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성을 확인한다.
- 데이터마이닝을 통해 발견된 지식을 업무에 활용하기 위한 방안 마련의 단계이다. 
- 필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행한다. 

반응형

'데이터분석' 카테고리의 다른 글

KDD vs CRISP-DM의 비교  (0) 2021.10.15
CRISP-DM 분석 방법론  (0) 2021.10.14
분석 기획시 고려사항  (0) 2021.10.12
분석 기획의 특징  (0) 2021.10.11
DBMS란 무엇인가?  (0) 2021.10.08