본문 바로가기
반응형

데이터분석62

빅데이터 시대의 위기 요인 사생활 침해 개인 정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있다. 예. 여행 사실을 트위트 한 사람의 집을 강도가 노리는 고전적 사례 발생 -> 익명화 기술 발전이 필요하다. 책임 원칙 훼손 빅데이터 기본 분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다. 예. 영화 마이너리티 리포트에 나오는 것처럼 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포, 자신의 신용도와 무관하게 부당하게 대출이 거절되었다. -> 민주주이 국가의 형사 처벌은 잠재적 위협이 아.. 2021. 9. 29.
빅데이터 활용 기본 테크닉 7가지 빅데이터가 등장하기 이전엔 정형 데이터를 주로 이용했습니다. (연관 규칙 학습, 유형분석, 유전자 알고리즘, 기계학습, 회귀분석) 하지만 최근 SNS가 발달함에 따라 비 정형화된 데이터를 많이 이용하고 있습니다. 테크닉 내용 예시 연관규칙학습 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? 유형분석 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 이 사용자는 어떤 특성을 가진 집단에 속하는가? 유전자 알고리즘 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화 시켜 나가는 방법 최대한 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 기계.. 2021. 9. 28.
빅데이터의 영향 다양한 시장 주체들이 빅데이터를 활용함에 따라 소비자이면서 국민인 일반인들은 맞춤형 서비스를 저렴한 비용으로 이용하게 되고, 적시에 필요한 정보를 얻음으로써 다양한 형태로 기회비용을 절약할 수 있어 사람들의 생활이 점점 스마트해 지고 있다. 빅데이터가 미치는 영향 1. 기업 혁신, 경쟁력제고, 생산성 향상 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴한다. 2. 정부 환경 탐색, 상황분석, 미래 대응 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하여, 관련 정보를 추출한다. 3. 개인 목적에 따른 활용 빅데이터를 서비스하는 기업의 출현이 늘어나면서, 데이터 분석 비용이 지속적으로 하락하여 정치인이나 대중 가수 등과 같은 .. 2021. 9. 27.
빅데이터의 가치 여러 가지 변수로 인해 빅데이터 시대에는 가치를 측정하는 것이 어렵다. 빅데이터 가치 산정이 어려운 이유는 아래와 같다. 데이터 활용 방식 데이터 활용 방식에서는 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워졌다. 새로운 가치 창출 빅데이터 시대에는 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치를 측정하기가 어려워졌다. 분석 기술 발전 현재는 가치가 없는 데이터일지라도 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 있다. 맥킨지가 언급한 빅데이터가 가치를 만들어 내는 다섯가지 방식 1) 투명성 제고로 연구개발 및 관리 효율성 제고 2) 시뮬레이션을 통한 수요 .. 2021. 9. 26.
빅데이터가 만들어내는 본질적인 변화 빅데이터에서 중요시 여기는 부분이 과거에서 현재로 어떻게 변화되어 가는지 알 수 있다. 과거에서 현재로의 변화 사전처리 -> 사후처리 필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템에서 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. 표본조사 -> 전수조사 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다. 질 -> 양 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가.. 2021. 9. 25.
빅데이터의 기능 빅데이터에 거는 기대를 표현한 비유 산업혁명의 석탄, 철 제조업 뿐 아니라 서비스 분야의 생산선을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대된다. 21세기의 원유 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다. 렌즈 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다. 플랫폼 '공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망된다. 2021. 9. 24.
빅데이터의 출현배경 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 뜻한다. 3가지 출현 배경 출현배경 내용 산업계 고객 데이터 축적 고객 데이터를 축적하여 보유함으로써 데이터에 숨어있는 가치를 발굴해 새로운 성장동력원으로의 기술 확보 학계 거대 데이터 활용, 과학 확산 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 발전 기술발전 관련기술의 발달 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 2021. 9. 23.
빅데이터 정의 빅데이터의 정의는 빅데이터를 보는 관점에 따라 3가지로 정의한다. 가트너 그룹의 더그 래니의 3V 3V 양 데이터의 규모 측면 다양성 데이터의 유형과 소스 측면 속도 데이터의 수집과 처리 측면 센싱데이터, 비정형데이터 정형, 비정형데이터 (영상, 사진) 원하는 데이터의 추출 및 분석속도 4V 가치, 시각화, 정확성 빅데이터 범주 데이터 변화 기술 변화 인재, 조직 변화 * 기존 방식으로 얻을 수 없는 통찰 및 가치 창출 * 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도 - 규모 - 형태 - 속도 - 데이터 처리, 저장, 분석 기술 및 아키텍처 - 클라우드 컴퓨팅 활용 - 데이터 사이언티스트 같은 새로운 인재 필요 - 데이터 중심 조직 2021. 9. 22.
데이터베이스 활용 기업 내부 데이터베이스 1980년 - OLTP : 호스트 컴퓨터가 데이터베이스를 액세스 하고, 바로 처리 결과를 돌려보내는 형태 - OLAP : 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정을 활용할 수 있는 정보를 얻을 수 있게 해주는 기술 구분 OLTP OLAP 데이터 구조 복잡 단순 데이터 갱신 동적으로 순간적 정적으로 주기적 응답 시간 수 초 이내 수 초에서 몇 분 사이 데이터 범위 수 십일 전후 오랜 기간 저장 데이터 성격 정규적인 핵심 데이터 비정규적인 읽기 전용 데이터 데이터 크기 수 기가 바이트 수 테라 바이트 데이터 내용 현재 데이터 요약된 데이터 데이터 특성 트랜잭션 중심 주제 중심 데이터 엑세스 빈도 높음 보통 질의 결과 예측 주기적이며 예측 가능 예측하.. 2021. 9. 21.
데이터베이스 정의와 특징 데이터베이스의 정의 1950년 미국에서 군대의 군비상황을 집중 관리하기 위하여 컴퓨터 도서관을 설립하면서 데이터의 기지라는 뜻의 데이터베이스가 탄생함, 1975년 우리나라에서 데이터베이스 이용이 이루어짐 출처 내용 1차 개념확대 정형데이터 관리 EU 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물 국내 '저작권법' 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 2차 개념확대 빅데이터의 출현으로 비정형데이터 포함 국내 '컴퓨터 용어사전' 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 .. 2021. 9. 20.
데이터의 이해 데이터의 정의 옥스퍼드 대사전에는 데이터는 "추론과 추정의 근거를 이루는 사실"이라고 정의하고 있다. 1940년대 이후 컴퓨터 시대가 시작되면서 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화하고 있다. 데이터의 유형 데이터의 유형으로는 정성적 데이터와 정량적 데이터가 있는데 정성적 데이터는 비정형 데이터, 주관적 내용, 통계분석이 어려운 특징이 있다. 정량적 데이터는 정형 데이터, 객관적 내용, 통계분석이 용이한 특징이 있다. DIKW의 정의 구분 내용 데이터(Data) 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 정보 (Information) 데이터의 가공, 처리와 데이터간 연간관계 속에서 의미가 도출된 것 지식 (Knowledge) 데이터를 통해 도출된 다양한 정보를.. 2021. 9. 19.
데이터 분석 개요 오늘은 데이터 준전문가 3장 데이터 분석의 개요에 대해 정리해보려 한다. 핵심 키워드로는 시각화, 탐색적 자료 분석, 공간분석, 시뮬레이션, 데이터 마이닝, 최적화에 대한 데이터 분석 개요가 있다. 시각화는 가장 낮은 수준의 분석으로 복잡한 분석보다도 더 효율적이다. 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수이다. 탐색적 자료 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해과는 과정으로 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법의 통칭이다. 탐색적 자료 분석의 4가지 주제로는 저항성의 강조, 잔차 계산, 자료 변수의 재표현, 그래프를 통한 현시성이 있다. 공간분석은 공간적 차원과 관련된 속성들을 시각화하는 분석이다. 시.. 2021. 8. 6.
반응형