본문 바로가기
반응형

데이터분석62

기초 통계분석 1. 기술 통계 - 기술통계 : 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것 1) 통계량에 의한 자료 정리 - 중심 위치의 측도 : 평균, 중앙값, 최빈값 - 산포의 측도 : 분산, 표준편차, 범위, 사분위 범위, 변동 계수, 표준오차 - 분포의 형태 : 왜도, 첨도 https://youtu.be/-AyjMFFkdzA 2) 그래프를 통한 자료 정리 - 범주형 자료 : 막대그래프, 파이차트, 모자이크 플릿 등 - 연속형 자료 : 히스토그램, 줄기-잎 그림, 상자 그림 등 2. 인과관계의 이해 1) 용어 - 종속변수(반응변수, y), 독립변수(설명변수, x), 산점 - 산점도에서 확인 할 수 있는 것 * 두 변수 사이의 선형 관계가 성립하는가? * 두 변수 사이의 .. 2021. 11. 8.
통계분석의 이해 1. 통계 통계 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 통계자료의 획득 방법 총 조사와 표본조사 표본 추출 방법 단순램덤추출법, 계통추출법, 집락추출법, 층화추출법 자료의 측정 방법 명목척도, 순서척도, 구간척도, 비율척도 2. 통계분석 기술통계 평균, 표준편차, 중위수, 최빈값, 그래프 통계적 추론 모수추정, 가설검정, 예측 3. 확률 및 확률 분포 확률변수 특정 값이 나타날 가능성이 확률적으로 주어지는 변수 이산형 확률분포 베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포 연속형 확률분포 균일분포, 정규분포, 지수분포포, t분포, F분포, X2 분포 4. 추정 및 가설검정 추정 표본으로부터 미지의 모수를 추측하는 것 점추정 모수가 특정한 값일 것이라.. 2021. 11. 7.
기초분석 및 데이터 관리 1. 결측값 처리 1) 변수에 데이터가 비어 있는 경우 - NA, ., 99999999, Unknown, Not Answer 등으로 표현 2) 단순 대치법 - completes analysis : 결측 값의 레코드를 삭제 - 평균대치법 : 관측 및 실험을 통해 얻어진 데이터의 평균으로 대치 *비조건부 평균 대치법 : 관측 데이터의 평균으로 대치 *조건부 평균 대치법 : 회귀분석을 통해 데이터를 대치 3) 다중 대치법 - 단순 대치법을 m번 실시하여, m개의 가상적 자료를 만들어 대치하는 방법 2. R의 결측값 처리 관련 함수 complet.cases() 데이터내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE 반환 is.na() 결측값이 NA인지의 여부를 TRUE/FALSE로 변환 DMwR 패키지 .. 2021. 11. 6.
변수의 구간화 1. 변수의 구간화 - 신용평가모형, 고객 세분화 등의 시스템으로 모형을 적용하기 위해서 각 변수들을 구간 화하여 점수를 적용하는 방식이 활용 - 변수의 구간화를 위한 rule이 존재한다. (※ 10진수 단위로 구간화하고, 구간을 5개로 나누는 것이 보통이며, 7개 이상의 구간을 잘 만들지 않는다.) 2. 변수 구간화의 방법 binning 연속형 변수를 범주형 변수로 변환하기 위해 50개 이하의 구간에 동일한 수의 데이터를 할당하여 의미를 파악하면서 구가늘 축소하는 방법 의사결정나무 모형을 통해 연속형 변수를 범주형 변수로 변환하는 방법 2021. 11. 5.
데이터 변경 및 요약 1. 데이터 마트 - 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다. 2. 요약 변수와 파생변수 요약변수 파생변수 정의 - 수집된 정보를 분석에 맞게 종합한 변수로 데이터 마트에서 가장 기본적인 변수 - 많은 모델이 공통으로 사용할 수 있어 재활용성 높음 - 사용자(분석가)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 - 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있다. 예시 - 기간별 구매 금액, 횟수, 여부 / 위클리 쇼퍼 / 상품별 구매 금액, 횟수, 여부 / 상품별 구매 순서 / 유통 채널별 구매 금액 / 단어 빈도 / 초기 행동변수 / 트랜드 변수 / 결측값과 이상값 처.. 2021. 11. 4.
데이터구조와 데이터 프레임 1. 데이터 구조의 정의 특징 벡터 리스트 데이터 프레임 원소 자료형 동질적 이질적 이질적 원소를 위치로 인덱싱 가능 가능 가능 인덱싱으로 여러 개 원소로 구성된 하위 데이터 생성 가능 가능 가능 원소들에 이름 부여 가능 가능 가능 2. 리스트 다루기 - 리스트 원소 선택 : L[[n]], L[["name"]], L$name 3. 행렬 다루기 - 행렬 설정 : dim(vec) 날짜 : as.Date("2014-12-25") as.Date("12/25/2014", format="%m/%d/%y") - 날짜 -> 문자열 : format(Sys.Date(), format = "%m/%d/%Y") - format 인자 값 R 표현 표시 형태 R 표현 표시 형태 %b 축약된 월 이름("Jan") %B 전체 월 이.. 2021. 11. 3.
입력과 출력 1. 데이터 입력과 출력 - R에서는 텍스트 데이터뿐만 아니라 데이터베이스와 다양한 통계프로그램에서 작성된 데이터를 불러들여서 적절한 데이터 분석을 수행할 수 있음 - R에서는 부동소수점 표현시 7자리 수를 기본으로 세팅되어 있으며, option() 함수, digit="숫자"를 지정해서 자릿수를 변경할 수 있음 - 문자열을 파일로 저장하고자 할 때 : cat("저장할 문자열", file="파일명") - R에서는 역슬래쉬를 인식하지 못하므로 슬래쉬(/) 또는 이중 역 슬래쉬로 파일의 경로를 지정 2. 외부 파일 입력과 출력 고정자리 변수 파일 read.fwf("파일명", width=c(w1, w2, ...)) 구분자 변수 파일 read.table("파일명", sep="구분자") csv 파일 읽기 read... 2021. 11. 2.
R기초 1. 편리한 기능 - R의 작업환경 설정 : R단축 아이콘 우측 클릭 -> 속성 -> 바로가기 -> 시작 위치에 현재 작업위치를 입력 -> 저장 - 프로그램에서 작업환경 설정 : setwd("작업디렉토리") - 도움말 : help(함수),? 함수, RSiteSearch("함수명") - 히스토리 : history(), savehistory(file="파일명"), loadhistory(file="파일명") - 콘솔 청소 : Ctrl+L 2. 스크립트 사용하기 - 한 줄 실행 : Ctrl+R - 여러 줄 실행 : 드래그 후 Ctrl+R - 주석처리 : # 3. 패키지 - 패키지 : R 함수, 데이터 및 컴파일 코드의 모임 - 패키지 자동 설치 : install.packages("패키지명") - 패키지 수동 설.. 2021. 11. 1.
R소개 1. R의 탄생 - R은 오픈소스 프로그램으로 통계 데이터 마이닝과 그래프를 위한 언어이다. - 다양한 최신 통계분석과 마이닝 기능을 제공하며, 5,000개에 이르는 패키지가 수시로 업데이트된다. 2. 통계분석 도구의 비교 구분 SAS SPSS 오픈소스 R 프로그램 비용 유료, 고가 유료, 고가 오픈소스 설치용량 대용량 대용량 모듈화로 간단 다양한 모듈 지원 및 비용 별도구매 별도구매 오픈소스 최근 알고리즘 및 기술반영 느림 다소느림 매우빠름 학습자료 입수의 편의성 유료 도서 위주 유료 도서 위주 공개 논문 및 자료 많음 질의를 위한 공개 커뮤니티 NA NA 매우 활발 3. R의 특징 - 오픈소스 프로그램 - 뛰어난 그래픽 및 성능 - 시스템 데이터 저장 방식 - 모든 운영체제에서 사용 가능 (윈도우, .. 2021. 10. 31.
데이터 분석 기법의 이해 1. 데이터 처리 과정 - 데이터 분석을 위해서는 데이터웨어하우스(DW)나 데이터마트(DM)를 통해 분석 데이터를 구성 - 신규데이터나 DW에 없는 데이터는 기존 운영시스템(legacy)에서 직접 가져오거나 운영 데이터 저장소(ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용 2. 시각화 기법 - 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다 더 휴욜적이며, 대용량 데이터를 다룰 때와 탐색적 분석을 할 때 시각화는 필수임 3. 공간분석 - 공간적 차원과 관련된 속성들을 시각화하는 분석으로 지도 위에 관련된 속성들을 생성하고 크기 모양, 선 굵기 등을 구분하여 인사이트를 얻음 4. 탐색적 자료분석(EDA) - 다양한 차원과 값을 조합해 가며 특이점이나 의미 있는 사실을 도출하고.. 2021. 10. 30.
KDD vs CRISP-DM의 비교 KDD vs CRISP-DM 비교 KDD CRISP-DM 분석대상 비즈니스 이해 업무 이해 데이터셋 선택 데이터의 이해 데이터 전처리 데이터 변환 데이터 준비 데이터 마이닝 모델링 데이터 마이닝 결과 평가 평가 데이터 마이닝 활용 전개 2021. 10. 15.
CRISP-DM 분석 방법론 CRISP-DM(Cross Industry Standard Process for data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개의 업체들이 주도하였다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성된다. CRISP-DM의 4 레벨 구조 최상의 레벨은 여러 개의 단계로 구성되고 각 단계는 일반화 태스크를 포함한다. 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적이 수행 레벨인 세분화 태스크로 구성된다. 예를 들어 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다. 마지막 레벨인 프로세스 실행은 데이터 마이닝을 위한 구체적인 실행을 포.. 2021. 10. 14.
반응형