본문 바로가기
데이터분석

데이터의 이해

by 쓱쓱기획 2021. 11. 16.
반응형

플랫폼
- 비즈니스 측면에서는 일반적으로 ‘공용 활용이 목적으로 구축된 유무형의 구조물’을 의미
- 빅데이터가 최근에는 다양한 서드파티 비즈니스에 활용되면서 역할을 할 것으로 전망
- 단순한 분석 응용프로그램뿐만 아니라 분석 서비스도 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템
- IOT 시대가 되면 수많은 물건에 센서가 부착되어 끊임없이 생산된다. 이때 빅데이터 사업자들은 Iot를 통해 생산된
  데이터를 저장해 두고 이 데이터를 API를 통해 공개하여 활용하도록 할 수 있음

 

OLTP, OLP
- OLTP은 온라인 거래 처리로 다양한 과정의 연산이 하나의 단위 프로세스로 실행되도록 하는 단순 자동화에 치우쳐
  있는 시스템

- OLP는 온라인 분석 처리로 다차원의 데이터를 대화식으로 정보를 분석 및 의사 결정에 활용할 수 있는 통계적인
  요약 정보를 제공하는 데이터 분석 기술

- OLP은 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
- OLP은 정보위주의 처리를 의미하며, 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여
  의사결정에 활용할 수 있는 정보를 얻어해주는 기술의 의미하는 시스템




BI, BA
- BI은 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스
- BI은 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
- BA은 데이터 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석 방법
- BA은 비즈니스 통찰력 획득 및 선제적 의사결정을 목적으로 하며 과거 성과 데이터에 대한 반복적 탐색 및 연구를
  위한 역량 기술 응용프로그램, 실행 프로그램

- BA은 경영 의사결정을 위한 통계적이고 수학적 분석에 초점을 둔 기법

데이터 사이언스
- 컴퓨터공학, 통계학, 수학 등의 학문적 지식은 물론 시각화 및 해커로서의 소양에 이르는 관련 분야의 전문지식을
  종합한 학문
- 기존의 통계학과 이것이 다른 점은 총체적 접근법을 사용한다는 점

- 통계학이 정형화된 데이터를 분석 대상으로 하지만 데이터 사이언스는 다양한 데이터 유형을 대상
- 데이터 사이언스란 데이터로부터 의미있는 정보를 추출해내는 학문
- 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한
  유형의 데이터를 대상으로 하며, 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념

- 핵심 구성요소로는 IT영역, 분석적 영역, 비즈니스 컨설팅 영역 있음


스키마
- 데이터 베이스 스키마는 데이터 베이스에서 자료의 구조, 자료의 표현 방법, 자료 간의 관계를 형식 언어로 정의한 구조
- 스키마는 데이터 베이스의 구조와 제약조건에 관한 전반적인 명세를 의미하는 것으로서, 데이터베이스를 구성하는
   데이터 개체, 속성, 관계 및 데이터 조작 시 데이터 값들이 갖는 제약 조건 등에 관해 전반적으로 정의





DIKW 지식 (데이터, 정보, 지식, 지혜)

- 데이터는 존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호
- 데이터의 예는 A카페 아메리카노 3000원, B카페 아메리카노 1800원, C카페 아메리카노 3800원
- 정보는 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터
- 정보의 예는 오늘 카페별로 아메리카노 가격 결과 B <A <C 순으로 비쌈
- 지식은 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
- 지식의 예는 B카페에서 아메리카노를 사서 마실 것
- 지혜는 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
- 지혜의 예는 다른 커피도 B카페 가격이 저렴할 것이라고 판단



  
정성적 데이터
- 정상적 데이터는 형태와 형식이 정해져 있지 않고 언어 또는 문자로 기술되는 데이터
- 정상적 데이터는 비정형데이터와 같이 형태와 형식이 정해져 있지 않아 검색, 저장, 분석에 비용, 시간,
  기술적 투자가 필요

- 정상적 데이터는 언어, 문자, 등의 데이터

정량적 데이터
- 수치로 명확하게 표현되는 이것은 데이터의 양이 크게 증가해도 이를 관리하는 시스템에 저장, 검색,
  분석하여 활용하기가 매우 용이

- 도형, 기호, 수치 등의 데이터



알고미즈미스트
- 데이터 오용의 피해를 막아주는 역할
- 컴퓨터, 수학, 통계학뿐 아니라 비즈니스 전반에 대한 이해가 필요하고, 알고리즘 코딩 해석을 통해 빅데이터
  알고리즘에 의해 부당하게 피해를 입은 사람들을 구제하는 전문직 종사자로 부상할 것


빅데이터
- 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을
  지원하도록 고안된 차세대 기술 및 아키텍처

- 데이터의 양, 데이터 유형과 소스 측면의 다양성, 데이터 수집과 측면에서 속도가 급격히 증가하면서 나타난 현상


상관관계
- 두 변수 간의 일정한 관계가 있음을 뜻함
- 두 변수 간의 관계가 증가할 때, 양의 상관관계, 감소할 때는 음의 상관관계라고 함
- 그 정도의 차이를 나타내는 것을 상관계수라고 하며, 상관계수의 절댓값이 클수록 상관이 높음을 의미
- 신속한 의사결정을 원하는 비즈니스에서는 실시간 분석에서 도출된 인사이트를 바탕으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있음




인과관계
- 원인과 결과의 관계
- 변인들 간의 인과관계를 많이 알수록 현상에 대한 이해와 폭과 깊이가 깊어지기 때문




유전 알고리즘
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 와 같은 문제를 해결을 위해
  사용될 분석방법


렌즈 역할- 빅데이터 기능 중 렌즈 역할의 대표적인 사례로 구글이 제공하는 “Ngram Viewer”(엔그램 뷰어) 관련 서비스 내용
- 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것으로 기대되는 빅데이터의 기능은 렌즈의 역할


사용자 로그

- 빅데이터 출현에 따른 변화로 사용자 로그 정보 (사용자가 인터넷에 접속한 시간과 정보, 검색기록 등)에 대한 프로파일링이 이뤄지기 시작하면서 정체성이 뚜렷해지고 사용자와 광고를 매칭 하는 정확도도 향상


ERP, CRM, SCM, KMS
- ERP는 기업 전체의 자원을 효과적이며, 통합적으로 관리하고 경영의 효율화를 기하는 수단으로 정보의 통합을
  위해 기업의 모든 자원을 최적의 상태로 관리하기 위한 기업 경영정보시스템

- CRM은 고객관계 관리으로 고객에 대한 정보를 이해하고 그로 인해 고객이 원하는 제품과 서비스를 제공하므로
  인해 고객과의 관계를 장기적으로 구축하는 고객관계관리 프로세스

- SCM은 기업에서 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에
  제공하는 ‘공급망 관리’

- KMS ‘지식 관리 시스템’으로 지적 재산의 중요성이 커짐에 따라 기업 경영을 지식이라는 관점에서 기업을
  관리하는 접근방식



데이터 오용
- 포드가 자동차를 만들려고 했을 때 사람들의 의견을 물었다면 사람들은 더 빠른 말이 필요하다는 대답을 했을 것이라고 비유를 하였다. 또한 애플 CEO였던 스티브 잡스는 사람들이 일반적으로 필요로 하는 것은 현실에 대한 인식에 바탕으로 두고 있기 때문에 새로운 제품을 개발할 때 사람들의 의견을 묻지 않는다고 했다. 이러한 예를 통해 알 수 있는 빅데이터 시대의 위기 요인은 데이터 오용


책임 원칙 훼손
- 영화 ‘마이너리티 리포트’는 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포되는 내용
- 빅데이터 기반 분석과 예측 기술을 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의
  희생양이 될 가능성도 올라감

- 이러한 예를 통해 알 수 있는 빅데이터 시대의 위기 요인을 말함


맵리듀스
- 클라우드 분산 병렬 처리 컴퓨팅 중 빅데이터와 같은 대용량 데이터의 처리 비용을 획기적으로 줄인 방식으로 맵리듀스


DBMS
- 데이터베이스 형태로 저장된 방대한 양의 각종 정보를 체계적으로 관리하는 데이터베이스 관리 시스템을 의미


형식지
- 객관적인 데이터인 책과 같이 형식지를 만드는 표출화된 지식을 개인의 지식으로 연결화로 형식 지은 상호작용
- 지식의 전달 및 공유가 용이하다는 장점
- 교과서, 매뉴얼, 비디오, DB와 같이 형상화된 지식을 의미하는데, 유형의 대상이 있기 때문에 지식의 전달과 공유 쉬움


암묵지
- 학습과 체험을 통해 개인이 습득한 지식으로 시행착오와 경험을 통해 개인이 습득하여 겉으로 드러나지 않는 지식
- 개인에게 축적된 내면화된 지식을 조직의 지식으로 공통화하여 암묵지는 상호작용
- 김치 담그기, 자전거 타기와 같이 학습적 체험을 통해 개인에게 습득되어 있지만 겉으로는 드러나지 않는 지식
- 사회적으로 중요하지만 다른 사람에게 공유되기 어려움
- 개인에게 축적된 내면화된 지식을 조직에 지식으로 공통화하는 것이 중요


데이터 사이언티스트
- 데이터 분석은 완벽하지 않으므로 데이터 사이언티스트은 인문학자들처럼 모델의 능력에 대해 항상 의구심을 가지고,
  가정들과 현실의 불일치에 대해 끊임없이 고찰하고, 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를
  분석하고 경험과 세상에 대한 통찰력과 함께 분석을 활용하는 것을 잊지 말아야 함 

- 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서
  전문가 역할을 할 것으로 기대

- 정량 분석이라는 과학과 인문학적 통찰에 근거한 합리적 추론을 조합
- 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써
  빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가
  역할을 할 것으로 기대



미래의 빅데이터 요소 (데이터, 기술, 인력)
- 데이터 : 모든 것의 데이터화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트와 알고 리즈 미스트가 있음


하둡
- 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- 분산 파일 시스템을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공하고 맵리듀스로 분산 파일
  시스템에 저장된 대용량의 데이터를 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술 

- 부족한 기능을 서로 보완하는 ‘에코시스템’ 이 등장하여 다양한 솔루션을 제공
- 대량의 자료를 처리할 수 있도록 대형 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램 지원 프레임워크로
  빅데이터 자체로 볼 수 없음  






데이터 베이스
- 통합된 데이터로는 다양한 방법으로 필요한 정보를 검색할 수 있는 검색 가능성을 가짐
- 변화되는 데이터로 데이터의 삽입, 삭제, 갱신에도 항상 현재의 정확한 데이터를 유지해야 함
- 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미로 통합된 데이터이며 데이터 중복은 관리상의 복잡한
  부작용을 초래

- 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미하므로
  저장된 데이터이며 기본적으로 컴퓨터 기술을 바탕으로 한 것

- 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용하므로 공용 데이터이며 대용량화 되고 구조가 복잡한 것


데이터 익명화
- 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것을 말함
- 가명, 일반화, 치환 등을 포함한 다양한 방법으로 이것을 구현


총제적 접근법
- 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당분야의 전문 지식을
  종합한 학문으로 정의
- 이런 정의의 연장에서 데이터 사이언스가 기존의 통계학과 다른 총제적 접근법을 사용

- 데이터 사이언스가 기존의 통계학과 다른 점은 총제적 접근법을 사용한다는 점으로 통계학이 정형화된 실험 데이터를
  분석 대상으로 하는 것에 비해 데이터 사이언스는 정형 또는 비정형을 막론하고 인터넷, 휴대전화, CCTV 등에서
  생성되는 숫자와 문자, 영상정보 등 다양한 유형의 데이터를 대상으로 함



데이터웨어하우스
- 기업 내의 의사결정 지원 애플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 자정 공간
- ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후
  데이터웨어하우스에 정보를 적재

- 관리하는 데이터들을 시간의 흐름에 따라 변화하는 값을 유지
- 데이터들은 전사적 차원에서 일관된 형식으로 정의
- 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장
- 특정 주제에 따라 데이터들이 분류, 저장, 관리


SQL
- 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리 

 

반응형

'데이터분석' 카테고리의 다른 글

[데이터 분석] 저장된 데이터 확인하기  (0) 2024.09.29
데이터 분석기획  (0) 2021.11.17
연관분석  (0) 2021.11.15
분류분석  (0) 2021.11.14
군집분석  (0) 2021.11.13