본문 바로가기
반응형

IT기획161

변수의 구간화 1. 변수의 구간화 - 신용평가모형, 고객 세분화 등의 시스템으로 모형을 적용하기 위해서 각 변수들을 구간 화하여 점수를 적용하는 방식이 활용 - 변수의 구간화를 위한 rule이 존재한다. (※ 10진수 단위로 구간화하고, 구간을 5개로 나누는 것이 보통이며, 7개 이상의 구간을 잘 만들지 않는다.) 2. 변수 구간화의 방법 binning 연속형 변수를 범주형 변수로 변환하기 위해 50개 이하의 구간에 동일한 수의 데이터를 할당하여 의미를 파악하면서 구가늘 축소하는 방법 의사결정나무 모형을 통해 연속형 변수를 범주형 변수로 변환하는 방법 2021. 11. 5.
데이터 변경 및 요약 1. 데이터 마트 - 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다. 2. 요약 변수와 파생변수 요약변수 파생변수 정의 - 수집된 정보를 분석에 맞게 종합한 변수로 데이터 마트에서 가장 기본적인 변수 - 많은 모델이 공통으로 사용할 수 있어 재활용성 높음 - 사용자(분석가)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 - 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있다. 예시 - 기간별 구매 금액, 횟수, 여부 / 위클리 쇼퍼 / 상품별 구매 금액, 횟수, 여부 / 상품별 구매 순서 / 유통 채널별 구매 금액 / 단어 빈도 / 초기 행동변수 / 트랜드 변수 / 결측값과 이상값 처.. 2021. 11. 4.
데이터구조와 데이터 프레임 1. 데이터 구조의 정의 특징 벡터 리스트 데이터 프레임 원소 자료형 동질적 이질적 이질적 원소를 위치로 인덱싱 가능 가능 가능 인덱싱으로 여러 개 원소로 구성된 하위 데이터 생성 가능 가능 가능 원소들에 이름 부여 가능 가능 가능 2. 리스트 다루기 - 리스트 원소 선택 : L[[n]], L[["name"]], L$name 3. 행렬 다루기 - 행렬 설정 : dim(vec) 날짜 : as.Date("2014-12-25") as.Date("12/25/2014", format="%m/%d/%y") - 날짜 -> 문자열 : format(Sys.Date(), format = "%m/%d/%Y") - format 인자 값 R 표현 표시 형태 R 표현 표시 형태 %b 축약된 월 이름("Jan") %B 전체 월 이.. 2021. 11. 3.
입력과 출력 1. 데이터 입력과 출력 - R에서는 텍스트 데이터뿐만 아니라 데이터베이스와 다양한 통계프로그램에서 작성된 데이터를 불러들여서 적절한 데이터 분석을 수행할 수 있음 - R에서는 부동소수점 표현시 7자리 수를 기본으로 세팅되어 있으며, option() 함수, digit="숫자"를 지정해서 자릿수를 변경할 수 있음 - 문자열을 파일로 저장하고자 할 때 : cat("저장할 문자열", file="파일명") - R에서는 역슬래쉬를 인식하지 못하므로 슬래쉬(/) 또는 이중 역 슬래쉬로 파일의 경로를 지정 2. 외부 파일 입력과 출력 고정자리 변수 파일 read.fwf("파일명", width=c(w1, w2, ...)) 구분자 변수 파일 read.table("파일명", sep="구분자") csv 파일 읽기 read... 2021. 11. 2.
R기초 1. 편리한 기능 - R의 작업환경 설정 : R단축 아이콘 우측 클릭 -> 속성 -> 바로가기 -> 시작 위치에 현재 작업위치를 입력 -> 저장 - 프로그램에서 작업환경 설정 : setwd("작업디렉토리") - 도움말 : help(함수),? 함수, RSiteSearch("함수명") - 히스토리 : history(), savehistory(file="파일명"), loadhistory(file="파일명") - 콘솔 청소 : Ctrl+L 2. 스크립트 사용하기 - 한 줄 실행 : Ctrl+R - 여러 줄 실행 : 드래그 후 Ctrl+R - 주석처리 : # 3. 패키지 - 패키지 : R 함수, 데이터 및 컴파일 코드의 모임 - 패키지 자동 설치 : install.packages("패키지명") - 패키지 수동 설.. 2021. 11. 1.
R소개 1. R의 탄생 - R은 오픈소스 프로그램으로 통계 데이터 마이닝과 그래프를 위한 언어이다. - 다양한 최신 통계분석과 마이닝 기능을 제공하며, 5,000개에 이르는 패키지가 수시로 업데이트된다. 2. 통계분석 도구의 비교 구분 SAS SPSS 오픈소스 R 프로그램 비용 유료, 고가 유료, 고가 오픈소스 설치용량 대용량 대용량 모듈화로 간단 다양한 모듈 지원 및 비용 별도구매 별도구매 오픈소스 최근 알고리즘 및 기술반영 느림 다소느림 매우빠름 학습자료 입수의 편의성 유료 도서 위주 유료 도서 위주 공개 논문 및 자료 많음 질의를 위한 공개 커뮤니티 NA NA 매우 활발 3. R의 특징 - 오픈소스 프로그램 - 뛰어난 그래픽 및 성능 - 시스템 데이터 저장 방식 - 모든 운영체제에서 사용 가능 (윈도우, .. 2021. 10. 31.
데이터 분석 기법의 이해 1. 데이터 처리 과정 - 데이터 분석을 위해서는 데이터웨어하우스(DW)나 데이터마트(DM)를 통해 분석 데이터를 구성 - 신규데이터나 DW에 없는 데이터는 기존 운영시스템(legacy)에서 직접 가져오거나 운영 데이터 저장소(ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용 2. 시각화 기법 - 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다 더 휴욜적이며, 대용량 데이터를 다룰 때와 탐색적 분석을 할 때 시각화는 필수임 3. 공간분석 - 공간적 차원과 관련된 속성들을 시각화하는 분석으로 지도 위에 관련된 속성들을 생성하고 크기 모양, 선 굵기 등을 구분하여 인사이트를 얻음 4. 탐색적 자료분석(EDA) - 다양한 차원과 값을 조합해 가며 특이점이나 의미 있는 사실을 도출하고.. 2021. 10. 30.
KDD vs CRISP-DM의 비교 KDD vs CRISP-DM 비교 KDD CRISP-DM 분석대상 비즈니스 이해 업무 이해 데이터셋 선택 데이터의 이해 데이터 전처리 데이터 변환 데이터 준비 데이터 마이닝 모델링 데이터 마이닝 결과 평가 평가 데이터 마이닝 활용 전개 2021. 10. 15.
CRISP-DM 분석 방법론 CRISP-DM(Cross Industry Standard Process for data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개의 업체들이 주도하였다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성된다. CRISP-DM의 4 레벨 구조 최상의 레벨은 여러 개의 단계로 구성되고 각 단계는 일반화 태스크를 포함한다. 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적이 수행 레벨인 세분화 태스크로 구성된다. 예를 들어 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다. 마지막 레벨인 프로세스 실행은 데이터 마이닝을 위한 구체적인 실행을 포.. 2021. 10. 14.
KDD 분석 방법론 KDD(Knowledg Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다. 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. 1단계 데이터셋 선택 - 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이며 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계이다. - 데이터마이닝에 필요한 목표 데이터를 구성하여 분석에 활용한다. 2단계 데이터 전처리 - 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier).. 2021. 10. 13.
분석 기획시 고려사항 분석의 기본인 가용 데이터에 대한 고려가 필요하다. - 분석을 위한 데이터의 확보가 우선적이며, 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르게 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다. 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유즈케이스 탐색이 필요하다. - '바퀴를 재발명하지 마라'라는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다. 분석 수행시 발생하는 장애요소들에 대한 사적 계획 수립이 필요하다. - 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 한다. 종류 정형 데이터 반정형 데이터 비정형 데이터 특징 - 데이터 자.. 2021. 10. 12.
분석 기획의 특징 분석기획이란? 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업이다. 분석 과제 및 프로젝트를 직접 수행하는 것은 아니지만, 어떠한 목표를 달성하기 위하여 어떠한 데이터를 가지고 어떤 방식으로 수행할 지에 대한 일련의 계획을 수립하는 작업이기 때문에 성공적인 분석 결과를 도출하기 위한 중요한 사전 작전이다. 데이터 사이언티스트의 역량 데이터 사이언티스트는 수학/통계학적 지식 및 정보기술 뿐만 아니라 해당 비즈니스에 대한 이해와 전문성을 포함한 3가지 영역에 대한 고른 역량과 시각이 요구된다. 다시 말해, 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 .. 2021. 10. 11.
반응형