본문 바로가기
반응형

데이터분석59

데이터 분석기획 분석 유스 케이스 - 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것 - 기업은 전사 또는 개별 업무별 주요 의사결정 포인트에 활용할 수 있는 분석의 후보 - 비즈니스 모델을 구성하는 이론을 설명하며, 하나 이상의 분석을 포함하고 프로세스 혁신의 수단으로 사용 - 현재의 비즈니스 모델, 유사 및 동종 사례 탐색을 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기에 앞서 표기하는 것이 필요 분석 마스터프랜 - 기업 또는 기관의 전사 차원에서 식별된 다양한 분석 과제를 대상으로 제한된 예산과 지원을 효과적으로 수행하기 위하여 우선순위를 평가하고, 평가 결과에 따른 단계별 군현 로드맵을.. 2021. 11. 17.
데이터의 이해 플랫폼 - 비즈니스 측면에서는 일반적으로 ‘공용 활용이 목적으로 구축된 유무형의 구조물’을 의미 - 빅데이터가 최근에는 다양한 서드파티 비즈니스에 활용되면서 역할을 할 것으로 전망 - 단순한 분석 응용프로그램뿐만 아니라 분석 서비스도 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템 - IOT 시대가 되면 수많은 물건에 센서가 부착되어 끊임없이 생산된다. 이때 빅데이터 사업자들은 Iot를 통해 생산된 데이터를 저장해 두고 이 데이터를 API를 통해 공개하여 활용하도록 할 수 있음 OLTP, OLP - OLTP은 온라인 거래 처리로 다양한 과정의 연산이 하나의 단위 프로세스로 실행되도록 하는 단순 자동화에 치우쳐 있는 시스템 - OLP는 온라인 분석 처리로 다차원의 데이터를 대화식으로 정보를 분석.. 2021. 11. 16.
연관분석 1. 연관분석 1) 개요 - 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석 흔히 장바구니 분석, 순차 분석 등이 있음 - 장바구니 분석 : 장바구니에 무엇이 같이 들어 있는지에 대해 분석 ex) 주말을 위해 목요일에 기저귀를 사러 온 30대 직장인 고객은 맥주도 함께 사감 - 순차분석 : 구매 이력을 분석해서 A 품목을 산 후 B 품목을 사는지를 분석 ex) 휴대폰을 새로 구매한 고객은 한 달 내에 휴대폰 케이스를 구매 2) 형태 - 조건과 반응의 형태(if-then) 3) 측도 지지도 전체 거래 중 항목 A오 항목 B를 동시에 포함하는 거래의 비율로 정의 신뢰도 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률, 연관성의 정.. 2021. 11. 15.
분류분석 1. 분류 분석과 예측 분석 1) 개요 공통점 레코드의 특정 속성의 값을 미리 알아 맞히는 것 차이점 분류는 레코드의 범주형 속성의 값을 알아 맞히는 것 예측은 레코드의 연속형 속성의 값을 알아 맞히는 것 분류의 예 학생들의 국어, 영어 등 점수를 통해 내신등급을 예측 카드회사에서 회원들의 가입정보를 통해 1년 후 신용등급을 예측 예측의 예 학생들의 여러 가지 정보를 입력해 수능점수를 예측 카드회사에서 회원들의 가입정보를 통해 연 매출액을 예측 분류 모델링 신용평가모형, 사기방지모형, 이탈모형, 고객세분화 분류 기법 로지스틱 회귀분석 의사결정나무, CART, C5.0 베이지안 분류 인공신경망 지지도벡터기계 k 최근접 이웃 규칙기반의 분류와 사례기반 추론 2. 의사결정 나무 1) 정의와 특징 - 분류 함수.. 2021. 11. 14.
군집분석 1. 군집분석 1) 개요 - 각 개체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 분석 방법 - 특성에 따라 고객을 여러 개의 베타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터부터 거리기준으로 군집화 유도 2) 특징 - 비교사학습법에 해당하여 타겟변수(종속변수)의 정의가 없이 학습이 가능 - 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능 - 요인분석과의 차이: 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어 줌 - 판별분석과의 차이: 판별분석은 사전에 집단이 나누어져 있어야 하지만 군집분석은 집단이 없는 상태에서 집단을 구분 3) 거리 측정.. 2021. 11. 13.
데이터 마이닝 개요 1. 데이터 마이닝 1) 개요 - 정의 : 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 - 통계분석과 차이점 : 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미 있는 정보를 추출 - 활용 분야 : 분류, 예측, 군집화, 시각화 등 - 방법론 : 의사결정나무, 로지스틱 회귀분석, 최근 법 이웃 법, 군집분석, 연관 규칙 분석 등 2) 분석 방법 지도 학습 비지도 학습 - 의사결정나무 - 인공신경망 - 로지스틱 회귀분석 - 최근접이웃법 - 사례기본 추론 - OLAP - 연관 규칙 분석 - 군집분석 - SOM 3) 데이터 마이닝 추진단계 1. 목적 설정 데이터 마이닝을 위한 명확한 목적 .. 2021. 11. 12.
다차원 척도법과 주성분분석 1. 다차원 척도법 1) 정의 및 목적 - 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간에서 점으로 표현하는 분석방법 - 목적 : 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현 2) 방법 - 개체들의 거리 계산은 유클리드 거리행렬을 활용 - STRESS : 개체들을 공간상에 표현하기 위한 방법으로 STRESS나 S-STRESS를 부족합도 기준으로 사용 *최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준 이하로 될 때까지 반복해서 수행 3) 종류 계량적 MDS - 데이터가 구간척도나 비율척도인 경우 활용 (전통적인 다차원척도법) - N개의 케이스에 대해 p개의.. 2021. 11. 11.
시계열 분석 1. 시계열 자료 1) 개요 - 시계열 자료 : 시간의 흐름에 따라 관찰된 값들 - 시계열 데이터의 분석 목적 : 미래의 값을 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등) 2) 정상성 (3가지를 모두 만족) - 평균이 일정(모든 시점에서 일정한 평균을 가짐) - 분산도 일정 - 공분산도 특정 시점에서 t, s에 의존하지 않고 일정 3) 시계열 모형 - 자기회귀모형(AR) : p시점 전의 자료가 현재 자료에 영향을 주는 모형 * ACF는 빠르게 감소, PACF는 절단점이 존재 -> AR(절단점 -1로 계산) - 이동평균모형(MA) : 같은 시점에 백색 잡음과 바로 전 시점의 백색 잡음의 결합으로 이뤄진 모형 * ACF는 절단점이 존재, PACF는 빠르게 감소 4) 분해 시계열 - 시계열에 영향을.. 2021. 11. 10.
회귀분석 1. 회귀분석의 개요 1) 정의 - 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 - 독립 변수가 1개 : 단순 선형 회귀분석, 독립 변수가 2개 이상 : 다중 선형 회귀분석 - 최소 제곱 법 : 측정값을 기초로 제곱 합을 만들고 그것의 최소인 값을 구하여 처리하는 방법, 잔차 제곱이 가장 작은 선을 선택 2) 회귀분석의 검정 - 회귀식(모형)에 대한 검증 : F-검정 - 회귀계수들에 대한 검증 : t-검정 - 모형의 설명력은 결정계수(R2)로 알 수 있음 - 단순 회귀분석의 결정계수는 상관계수 값의 제곱과 같음 3) 선형 회귀분석 - 가정 선형성 입력변수와 출력변수의 관계가 선형 독립성 잔차와 독릭변인은 관련성이 없음 등분산성 독립변인의 모든 값에 대한 오차들의 .. 2021. 11. 9.
기초 통계분석 1. 기술 통계 - 기술통계 : 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것 1) 통계량에 의한 자료 정리 - 중심 위치의 측도 : 평균, 중앙값, 최빈값 - 산포의 측도 : 분산, 표준편차, 범위, 사분위 범위, 변동 계수, 표준오차 - 분포의 형태 : 왜도, 첨도 https://youtu.be/-AyjMFFkdzA 2) 그래프를 통한 자료 정리 - 범주형 자료 : 막대그래프, 파이차트, 모자이크 플릿 등 - 연속형 자료 : 히스토그램, 줄기-잎 그림, 상자 그림 등 2. 인과관계의 이해 1) 용어 - 종속변수(반응변수, y), 독립변수(설명변수, x), 산점 - 산점도에서 확인 할 수 있는 것 * 두 변수 사이의 선형 관계가 성립하는가? * 두 변수 사이의 .. 2021. 11. 8.
통계분석의 이해 1. 통계 통계 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 통계자료의 획득 방법 총 조사와 표본조사 표본 추출 방법 단순램덤추출법, 계통추출법, 집락추출법, 층화추출법 자료의 측정 방법 명목척도, 순서척도, 구간척도, 비율척도 2. 통계분석 기술통계 평균, 표준편차, 중위수, 최빈값, 그래프 통계적 추론 모수추정, 가설검정, 예측 3. 확률 및 확률 분포 확률변수 특정 값이 나타날 가능성이 확률적으로 주어지는 변수 이산형 확률분포 베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포 연속형 확률분포 균일분포, 정규분포, 지수분포포, t분포, F분포, X2 분포 4. 추정 및 가설검정 추정 표본으로부터 미지의 모수를 추측하는 것 점추정 모수가 특정한 값일 것이라.. 2021. 11. 7.
기초분석 및 데이터 관리 1. 결측값 처리 1) 변수에 데이터가 비어 있는 경우 - NA, ., 99999999, Unknown, Not Answer 등으로 표현 2) 단순 대치법 - completes analysis : 결측 값의 레코드를 삭제 - 평균대치법 : 관측 및 실험을 통해 얻어진 데이터의 평균으로 대치 *비조건부 평균 대치법 : 관측 데이터의 평균으로 대치 *조건부 평균 대치법 : 회귀분석을 통해 데이터를 대치 3) 다중 대치법 - 단순 대치법을 m번 실시하여, m개의 가상적 자료를 만들어 대치하는 방법 2. R의 결측값 처리 관련 함수 complet.cases() 데이터내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE 반환 is.na() 결측값이 NA인지의 여부를 TRUE/FALSE로 변환 DMwR 패키지 .. 2021. 11. 6.
반응형