본문 바로가기
반응형

IT기획161

빅데이터의 가치 여러 가지 변수로 인해 빅데이터 시대에는 가치를 측정하는 것이 어렵다. 빅데이터 가치 산정이 어려운 이유는 아래와 같다. 데이터 활용 방식 데이터 활용 방식에서는 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워졌다. 새로운 가치 창출 빅데이터 시대에는 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치를 측정하기가 어려워졌다. 분석 기술 발전 현재는 가치가 없는 데이터일지라도 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 있다. 맥킨지가 언급한 빅데이터가 가치를 만들어 내는 다섯가지 방식 1) 투명성 제고로 연구개발 및 관리 효율성 제고 2) 시뮬레이션을 통한 수요 .. 2021. 9. 26.
빅데이터가 만들어내는 본질적인 변화 빅데이터에서 중요시 여기는 부분이 과거에서 현재로 어떻게 변화되어 가는지 알 수 있다. 과거에서 현재로의 변화 사전처리 -> 사후처리 필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템에서 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. 표본조사 -> 전수조사 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다. 질 -> 양 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가.. 2021. 9. 25.
빅데이터의 기능 빅데이터에 거는 기대를 표현한 비유 산업혁명의 석탄, 철 제조업 뿐 아니라 서비스 분야의 생산선을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대된다. 21세기의 원유 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다. 렌즈 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다. 플랫폼 '공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망된다. 2021. 9. 24.
빅데이터의 출현배경 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 뜻한다. 3가지 출현 배경 출현배경 내용 산업계 고객 데이터 축적 고객 데이터를 축적하여 보유함으로써 데이터에 숨어있는 가치를 발굴해 새로운 성장동력원으로의 기술 확보 학계 거대 데이터 활용, 과학 확산 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 발전 기술발전 관련기술의 발달 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 2021. 9. 23.
빅데이터 정의 빅데이터의 정의는 빅데이터를 보는 관점에 따라 3가지로 정의한다. 가트너 그룹의 더그 래니의 3V 3V 양 데이터의 규모 측면 다양성 데이터의 유형과 소스 측면 속도 데이터의 수집과 처리 측면 센싱데이터, 비정형데이터 정형, 비정형데이터 (영상, 사진) 원하는 데이터의 추출 및 분석속도 4V 가치, 시각화, 정확성 빅데이터 범주 데이터 변화 기술 변화 인재, 조직 변화 * 기존 방식으로 얻을 수 없는 통찰 및 가치 창출 * 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도 - 규모 - 형태 - 속도 - 데이터 처리, 저장, 분석 기술 및 아키텍처 - 클라우드 컴퓨팅 활용 - 데이터 사이언티스트 같은 새로운 인재 필요 - 데이터 중심 조직 2021. 9. 22.
데이터베이스 활용 기업 내부 데이터베이스 1980년 - OLTP : 호스트 컴퓨터가 데이터베이스를 액세스 하고, 바로 처리 결과를 돌려보내는 형태 - OLAP : 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정을 활용할 수 있는 정보를 얻을 수 있게 해주는 기술 구분 OLTP OLAP 데이터 구조 복잡 단순 데이터 갱신 동적으로 순간적 정적으로 주기적 응답 시간 수 초 이내 수 초에서 몇 분 사이 데이터 범위 수 십일 전후 오랜 기간 저장 데이터 성격 정규적인 핵심 데이터 비정규적인 읽기 전용 데이터 데이터 크기 수 기가 바이트 수 테라 바이트 데이터 내용 현재 데이터 요약된 데이터 데이터 특성 트랜잭션 중심 주제 중심 데이터 엑세스 빈도 높음 보통 질의 결과 예측 주기적이며 예측 가능 예측하.. 2021. 9. 21.
데이터베이스 정의와 특징 데이터베이스의 정의 1950년 미국에서 군대의 군비상황을 집중 관리하기 위하여 컴퓨터 도서관을 설립하면서 데이터의 기지라는 뜻의 데이터베이스가 탄생함, 1975년 우리나라에서 데이터베이스 이용이 이루어짐 출처 내용 1차 개념확대 정형데이터 관리 EU 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물 국내 '저작권법' 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 2차 개념확대 빅데이터의 출현으로 비정형데이터 포함 국내 '컴퓨터 용어사전' 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 .. 2021. 9. 20.
데이터의 이해 데이터의 정의 옥스퍼드 대사전에는 데이터는 "추론과 추정의 근거를 이루는 사실"이라고 정의하고 있다. 1940년대 이후 컴퓨터 시대가 시작되면서 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화하고 있다. 데이터의 유형 데이터의 유형으로는 정성적 데이터와 정량적 데이터가 있는데 정성적 데이터는 비정형 데이터, 주관적 내용, 통계분석이 어려운 특징이 있다. 정량적 데이터는 정형 데이터, 객관적 내용, 통계분석이 용이한 특징이 있다. DIKW의 정의 구분 내용 데이터(Data) 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 정보 (Information) 데이터의 가공, 처리와 데이터간 연간관계 속에서 의미가 도출된 것 지식 (Knowledge) 데이터를 통해 도출된 다양한 정보를.. 2021. 9. 19.
데이터 분석 개요 오늘은 데이터 준전문가 3장 데이터 분석의 개요에 대해 정리해보려 한다. 핵심 키워드로는 시각화, 탐색적 자료 분석, 공간분석, 시뮬레이션, 데이터 마이닝, 최적화에 대한 데이터 분석 개요가 있다. 시각화는 가장 낮은 수준의 분석으로 복잡한 분석보다도 더 효율적이다. 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수이다. 탐색적 자료 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해과는 과정으로 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법의 통칭이다. 탐색적 자료 분석의 4가지 주제로는 저항성의 강조, 잔차 계산, 자료 변수의 재표현, 그래프를 통한 현시성이 있다. 공간분석은 공간적 차원과 관련된 속성들을 시각화하는 분석이다. 시.. 2021. 8. 6.
다이얼로그 플로우 : 구글 챗봇 구글 다이얼로그 플로우는 처음에 Speaktoitf라는 회사로 시작하여, 2016년 9월에 구글이 이 회사를 인수했다고 한다. 초기에는 api.ai라는 서비스로도 알려져 있다. api.ai 일 때는 어떻게 서비스 했었을까? 그 후 2017년 10월에 구글 다이얼로그 플로우로 서비스명이 개명되었다. 자연어 처리(NLP)나 Intent 매칭과 같은 대화식 인터페이스의 핵심 엔진인 머신러닝 엔진을 구글 머신러닝 엔진으로 변경해서 좀 더 업그레이드한 형태로 만들어진 것이 구글 다이얼로그 플로우다. https://dialogflow.com/ Dialogflow 문서 | Google Cloud 봇, 애플리케이션, 서비스, 기기의 가상 에이전트입니다. cloud.google.com * 계정 액세스/무료/유료 어떤 서.. 2021. 6. 12.
k-평균 군집분석 대표적인 비계층적인 군집분석으로 원하는 군집 수만큼(k개) 초기값을 지정하고 각 개체(데이터)를 가까운 초기값에 할당하여 군집을 형성한 뒤 각 군집의 평균을 재계산하여 초기 값을 갱신함 갱신된 값에 대해 위의 할당 과정을 반복하여 K개의 최종 군집을 형성 대상들의 특성에 기초하여 유사한 성질을 갖는 대상들을 동일한 집단으로 분류하는 기법이다. 개별 데이터들이 얼마나 유사한지를 측정하기 위하여 가장 보편적인 방법인 거리(distance) 함수를 사용하는 분석 방법이다. k-평균 군집(k-means clustering)은 원하는 군집 수만큼(k개) 초기값을 지정하고, 각 개 체(데이터)를 가까운 초기값에 할당하여 군집을 형성한 뒤, 각 군집의 평균을 재계산하여 초기값을 갱신한다. 갱신된 값에 대해 위의 할당.. 2021. 5. 22.
데이터분석 준전문가 ADsP 도전 데이터 분석 준전문가 ADsP 도전기 포스팅을 시작해 보려고 한다. 2번 정도 시험을 봤었는데 모두 떨어짐 ㅠㅠ 이유는 공부할 시간도 부족했고, 3과목 데이터 분석 중 R에 대한 이해가 전혀 없었어서 헤맸었다. 기출문제도 다양하지 않았던 시기라 책 전체를 암기하려고 작정했었으니 쉬울리가 없었지라며 자신을 도닥이며.. 그 사이 공부를 쉬면서 R과 좀 친해지려고 노력을 했었네요 그러다 우연히 발견한 온라인 강의 이번엔 온라인 강의로 공부해보고 재 도전해보려고 한다. 기출문제 위주로 핵심 개념만 잡아준다고 하니 독학으로 했을 때 보다 시간을 훨씬 줄일 수 있을 거라 기대하면서 시작해 보려고 한다. ADsp 3주 완성 강의 fastcampus.co.kr/data_online_adsp/?utm_source=nav.. 2021. 5. 9.
반응형