본문 바로가기
반응형

데이터분석62

KDD 분석 방법론 KDD(Knowledg Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다. 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. 1단계 데이터셋 선택 - 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이며 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계이다. - 데이터마이닝에 필요한 목표 데이터를 구성하여 분석에 활용한다. 2단계 데이터 전처리 - 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier).. 2021. 10. 13.
분석 기획시 고려사항 분석의 기본인 가용 데이터에 대한 고려가 필요하다. - 분석을 위한 데이터의 확보가 우선적이며, 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르게 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다. 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유즈케이스 탐색이 필요하다. - '바퀴를 재발명하지 마라'라는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다. 분석 수행시 발생하는 장애요소들에 대한 사적 계획 수립이 필요하다. - 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 한다. 종류 정형 데이터 반정형 데이터 비정형 데이터 특징 - 데이터 자.. 2021. 10. 12.
분석 기획의 특징 분석기획이란? 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업이다. 분석 과제 및 프로젝트를 직접 수행하는 것은 아니지만, 어떠한 목표를 달성하기 위하여 어떠한 데이터를 가지고 어떤 방식으로 수행할 지에 대한 일련의 계획을 수립하는 작업이기 때문에 성공적인 분석 결과를 도출하기 위한 중요한 사전 작전이다. 데이터 사이언티스트의 역량 데이터 사이언티스트는 수학/통계학적 지식 및 정보기술 뿐만 아니라 해당 비즈니스에 대한 이해와 전문성을 포함한 3가지 영역에 대한 고른 역량과 시각이 요구된다. 다시 말해, 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 .. 2021. 10. 11.
DBMS란 무엇인가? DBMS란 무엇인가? - DBMS는 Data Base Management System의 약자로서 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어다. - 데이터베이스를 구축하는 틀을 제공하며, 효율적은 데이터 검색, 저장 기능 등을 제공한다. - 대표적인 데이터베이스 관리시스템에는 오라클, 인포믹스, 액세스 등이 있다. 데이터베이스 관리시스템 종류 1) 관계형 DBMS 이 모델은 데이터를 컬럼과 로우를 이루는 하나 이상의 데이블(또는 관계)로 정리하며, 고유키가 각 로우를 식별한다. 로우는 레코드나 튜플로 부르며 일반적으로 각 테이블/관계는 하나의 엔티티 타입을 대표한다. 로우는 그 엔티티 종류의 인스턴스를 대표하며 칼럼은 그 인스턴스의 속성이 되.. 2021. 10. 8.
데이터 사이언스의 미래 빅데이터 시대 - 디지털 환경의 진전과 더불어 실로 엄청난 '빅' 데이터가 생성되고 있다. - 빅데이터 분석은 선거 결과에 결정적인 영향을 미칠 수도 있다. 기업의 측면에서는 비용 절감, 시간 절약, 매출 증대, 고객 서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있다. 빅데이터 회의론을 넘어 가치 패러다임의 변화 1) 과거 - 아날로그 세상을 어떻게 효과적으로 디지털화하는지가 과거의 가치 창출 원천 2) 현재 - 디지털된 정보와 대상들은 서로 연결 시작 - 연결을 더 효과적이고 효율적으로 제공하는가가 성공요인 3) 미래 - 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가의 이슈 데이터 사이언스의 한계와 인문학 1) 데이터 사이언스의 한계 - 분석과정에.. 2021. 10. 7.
데이터 사이언티스트 테이터 사이언티스트의 역할 - 데이터 사이언티스트는 데이터 홍수 속에서 헤엄을 치고, 데이터 소스를 찾고, 복잡한 대용량 데이터를 구조화, 불완전한 데이터를 서로 연결해야 한다. - 데이터 사이언티스트가 갖춰야 할 역량 중 한 가지는 '강력한 호기심'이다. 호기심이란 문제의 이면을 파고들고, 질문들을 찾고, 검증 가능한 가설을 세우는 능력을 의미한다. - 데이터 사이언티스트는 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화능력 등을 갖춰야 한다. 데이터 사이언티스트의 요구 역량 - 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득 - 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적 - 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적.. 2021. 10. 6.
데이터 사이언스 데이터 사이언스의 의미와 역할에 대해 알아보자. 데이터 사이언스란 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문이다. 데이터로부터 의미 있는 정보를 추출해내는 학문으로 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념이다. 데이터 사이언스의 영역 1. Analytics (분석적 영역) 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등 2. 비즈니스 분석 (비즈니스 컨설팅 영역) 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등 3. IT (데이터 처리와.. 2021. 10. 5.
일차원적 분석 vs 전략도출 가치기반 분석의 차이 일차원적인 분석과 전략 도출 가치기반과 관련하여 잘못된 설명을 묻는 문제들이 출제된다. 일차원적 분석 내용 산업 일차원적 분석 애플리케이션 금융 서비스 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객 수익성 분석 소매업 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화 제조업 공급사슬 최적화, 수요예측, 재고 보총, 보증서 분석, 맞춤형 상품 개발, 신상품 개발 운송업 일정 관리, 노선 배정, 수익 관리 헬스케어 약품 거래, 예비 진단, 질병 관리 병원 가격 책정, 고객 로열티, 수익 관리 에너지 트레이딩, 공급/수요 예측 커뮤니케이션 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리 서비스 콜센터 직원관리, 서비.. 2021. 10. 4.
빅데이터 회의론 해소방안 빅데이터에 대한 관심 증대 - 데이터 기반의 통찰의 중요성에 대한 공감대 상승과 동시에 긍정적 효과를 기대한다. 빅데이터 프로젝트에 거는 기대 - 기존 프로세스의 자동화를 우선 시행한 후 점차적으로 거시적이고, 전략적인 가치를 이끌어 낼 수 있을 것으로 기대한다. 빅데이터 분석의 가치 - 데이터는 크기의 이슈가 아니라, 거기에서 어떤 시각과 통찰을 얻을 수 있느냐의 문제가 중요하다. 무작정 '빅'한 데이터를 찾을 것이 아니라, 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 그 무엇보다 중요하다. - 전략과 비즈니스의 핵심 가치에 집중하고 이와 관련된 분석 평가지표를 개발하고 이를 통해 효과적으로 시장과 고객 변화에 대응할 수 있을 때 빅데이터 분석은 가치를 줄 수.. 2021. 10. 3.
빅데이터 회의론 원인 빅데이터 회의론의 원인과 진단 투자효과를 거두지 못했던 부정적 학습효과 : 과거의 고객관계 관리(CRM) 부정적 학습효과 - 공포 마케팅이 잘 통하는 영역 : 도입만 하면 모든 문제는 한번에 해소할 것처럼 강조 - 막상 거액을 투자하여 하드웨어와 솔루션을 도입해도 어떻게 활용하고 어떻게 가치를 뽑아내야 할지 난감 빅데이터 성공사례가 기존 분석 프로젝트를 포함해 놓은 것이 많다. - 굳이 빅데이터가 필요 없는 경우 (우수고객, 이탈예측, 구매패턴 분석 등) - 국내 빅데이터 업체들이 CRM 분석 성과를 빅데이터 분석으로 고대 포장 빅데이터 분석도 기존의 분석과 마찬가지로, 데이터에서 가치, 즉 통찰을 끌어내 성과를 창출하는 것이 관건이며, 단순히 빅데이터에 포커스를 두지 말고 분석을 통해 가치를 만드는 것.. 2021. 10. 2.
빅데이터의 미래 빅데이터 활용의 3요소 (기본 3요소) 1. 데이터 : 모든 것의 데이터화 2. 기술 : 진화하는 알고리즘, 인공지능 3. 인력 : 데이터 사이언티스트, 알고리즈미스트 데이터 모든 것을 데이터화 하는 현 추세로 특정 목적 없이 축적된 데이터를 통한 창의적인 분석이 가능해져, 새로운 가치로 부상하고 있다. 기술 대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현하였다. 인력 빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해지고 있다. * 데이터 사이언티스트 : 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖.. 2021. 10. 1.
빅데이터 위기 요인에 따른 통제 방안 빅데이터 시대의 위기 요인과 통제 방안에 대해서 알아보자. 동의에서 책임으로 빅데이터에 의한 사생활 침해 문제를 해결하기에는 부족한 측면이 많고 매번 개인정보 제공 동의를 하는 비효율적은 단계를 줄이고자 개인정보를 사용하는 사용자의 '책임'으로 해결하는 방안을 제시함 (개인정보 제공자 동의 -> 개인정보 사용자 책임) 기대효과 : 개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임을 지게 됨으로 사용주체의 적극적인 보호장치를 강구할 수 있다. 소비자 프라이버시 보호 3대 권고사항 1) 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용하라. 2) 기업은 소비자에게 공유정보 선택 옵션을 제공하라. 3) 소비자에게 수집된 정보 내용 공개 및 접근권을 부여하라 결과 기반 책임 원칙 고.. 2021. 9. 30.
반응형