반응형
1. 결측값 처리
1) 변수에 데이터가 비어 있는 경우
- NA, ., 99999999, Unknown, Not Answer 등으로 표현
2) 단순 대치법
- completes analysis : 결측 값의 레코드를 삭제
- 평균대치법 : 관측 및 실험을 통해 얻어진 데이터의 평균으로 대치
*비조건부 평균 대치법 : 관측 데이터의 평균으로 대치
*조건부 평균 대치법 : 회귀분석을 통해 데이터를 대치
3) 다중 대치법
- 단순 대치법을 m번 실시하여, m개의 가상적 자료를 만들어 대치하는 방법
2. R의 결측값 처리 관련 함수
complet.cases() | 데이터내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE 반환 |
is.na() | 결측값이 NA인지의 여부를 TRUE/FALSE로 변환 |
DMwR 패키지 : centrallmputation() |
NA 값을 가운데 값(central value)으로 대치 (숫자- 중위수, factor- 최빈값) |
DMwR 패키지 : knnlmputation() |
NA 값을 k최근 이웃 분류 알고리즘을 사용하여 대치 (k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 사용) |
Amelia 패키지 : amelia() |
time-series-cross-sectional data set (여러 국가에서 매년 측정된 자료) 에서 활용 |
3. 이상값 처리
1) 이상값
- 의도하지 않은 현상으로 입력된 값 or 의도된 극단값 -> 활용할 수 있음
- 잘못 입려된 값 or 의도하지 않은 현상으로 입력된 값이지만 분석 목적에 부합되지 않는 값 -> bad data이므로 제거
2) 이상값의 인식
- ESD : 평균으로부터 3표준편차 떨어진 값
- 기하평균 - 2.5 x 표준편차 < data < 기하평균 + 2.5 x 표준편차
- Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1) 를 벗어나는 데이터
3) 이상값의 처리
- 절단 : 이상값이 포함된 레코드를 삭제
- 조정 : 이상값을 상한 또는 하한 값으로 조정
반응형
'데이터분석' 카테고리의 다른 글
기초 통계분석 (0) | 2021.11.08 |
---|---|
통계분석의 이해 (0) | 2021.11.07 |
변수의 구간화 (0) | 2021.11.05 |
데이터 변경 및 요약 (0) | 2021.11.04 |
데이터구조와 데이터 프레임 (0) | 2021.11.03 |