오늘은 데이터 분석을 하기 위한 데이터 확인하는 방법에 대해서 포스팅하려고 합니다.
분석하고자 하는 도메인의 데이터를 제대로 이해해야 올바른 데이터를 추출 할 수 있는데요.
- 데이터가 어떻게 저장되어 있는가?
- 어떤 데이터가 저장되어 있는가?
- 컬럼의 의미는 무엇인가?
데이터에 대해 제대로 이해해 줘야, 구체적인 문제 정의가 가능해 집니다.
개인적으로 쿼리 작성하는 스킬 보다도 어떤 문제를 정의하고자 하는 인사이트가 더 중요하다고 보는데요.
어떤 문제를 해결해서 어떤 효과를 줄 수 있는지 예측이 가능해야 방향성에 대한 임펙트가 클 수 있다고 생각합니다.
이 말은 도메인에 대한 경험과 지식 이해도가 중요하다는 뜻이기도 합니다. 분석 스킬도 중요하지만 어떤 데이터를 분석해서 도입하는 것이 우리에 제품과 회사에 큰 영향을 줄 것인지를 판단할 수 있어야 합니다.
회사마다 ERD를 정의한게 없을 수도 있는데요. 개발자 또는 DBA에게 확인해 보면 좋습니다.
저도 예전에 일하던 회사에서 ERD를 요구 했던 적이 있었는데, 없다는 답변을 듣기도 했었습니다.
작게 시작하거나, 확장에 대한 고려가 없는 회사일 수록 이런 부분들에 대한 준비가 부족하기도 합니다.
어떤 시스템을 구축할 때 고려되지 않은 상황으로 급급하게 제품을 확장할 때나, 데이터수집이 안되게 제품을 만드는 경우로 이럴 때는 ERD를 정의하거나, 데이터가 수집될 수 있는 방식으로 구조를 변경해 줘야 합니다.
만약 ERD가 없다면 기다리지 말고 스스로 정리해 보는 것을 추천합니다. (데이터베이스 직접 보면서 탐색하기)
실제 ERD를 보면 테이블이 많을 수 있고 서로 연결관계를 갖고 있습니다.
많은 연결관계를 처음부터 이해하기 보다는 본인이 실제 데이터분석을 할 때 자주 쓰는 데이터 테이블이 뭔지 생각해보고 정의 부터 시작하면 좋을것 같습니다. 그리고 이후 확장하는 것을 추천합니다. (많이 사용할 테이블 부터 정리)
보통 제품/서비스에는 아래와 같은 데이터들을 보유 하고 있고요.
- 유저 테이블, 앱/웹 로그데이터 (과정 데이터)
- 결제, 배송, CS, 상담, 학습관리, 중단사유, NPS
- 도메인 성격에 따라 로그데이터의 정의를 다양한 관점으로 바라 볼 수 있음
- 웹은 구글 어널리틱스, 앱은 Firebase에서 로그를 수집할 수 있음
교육 업계는 일반 산업과 다르게 학습에 대한 특수성이 있어 아래와 같은 데이터들을 보유 하고 있다고 볼 수 있습니다.
- 유저 데이터
- 콘텐츠 데이터
- 학습 서비스 이용 데이터
- 상담 데이터
- 학습 관리 데이터
- 활동 데이터
이런 데이터를 통해서 어떤 것들을 분석하고 개선 할 수 있을지 앞으로도 포스팅을 통해 소식 전하도록 하겠습니다.
우선 본인의 회사에서 갖고 있는 ERD의 존재를 파악하고 테이블과 컬럼을 이해하며 제품/서비스에 대한 이해도를 높이면서 데이터 분석을 준비해 보시죠.
'데이터분석' 카테고리의 다른 글
[데이터 분석] 제품/서비스 성장 5단계 (AARRR) (0) | 2024.11.24 |
---|---|
[데이터 분석] 어떤 지표를 볼 것인가? (0) | 2024.11.11 |
데이터 분석기획 (0) | 2021.11.17 |
데이터의 이해 (0) | 2021.11.16 |
연관분석 (0) | 2021.11.15 |