데이터 분석에 대한 아티클 읽고 정리
사용자 데이터를 효과적으로 분석하는 법 | 요즘IT
사용성 평가나 설문 조사 그리고 인터뷰와 같은 사용자 조사는 고객 관점에서의 사업 기회 발굴과 디자인 개선에 대한 인사이트를 제공해 줍니다. 그렇지만 단순히 사용자 조사로 수집된 데이
yozm.wishket.com
✔ 요약
- 사용자 조사(사용성 평가, 설문 조사, 인터뷰 등)를 통해 수집한 정량, 정성 데이터를 분석하여 비즈니스 인사이트를 얻을 수 있다.
- 정량 데이터 분석 방법 : 기술통계, 추론통계
- 기술 통계
- 데이터 특성(범주형/수치형) 파악하여 평균, 중앙값, 최빈값 등 중심 경향 지표 사용
- 수집된 데이터의 분포 특성과 분석 목적에 따라 적절한 값을 활용해야 함
(ex. 극단값이 많이 포함될 경우 평균 대신 중앙값 활용) - 기술 통계의 시각화 : Excel
- 범주형 데이터 : 원그래프, 누적 막대 그래프
- 수치형 데이터 : 막대그래프, 선그래프
- 그외 : 방사형 그래프(특정 대상에 대해 여러 평가 항목들로 비교해 전체적인 경향을 유추하고 싶을 때),
산점도(서로 다른 두 척도 비교, 변수 간 관계 확인)
- 추론 통계
- 샘플로 모집단을 추론하거나 가설 검정(t-검정, ANOVA 분석 등)
- 먼저 표본으로 수집된 데이터가 정규성이 확보되는지 확인 필요 (정규분포)
- 분석 결과가 유의미한지 p-value(유의수준) 0.05 이하인지 확인
- 변수들 간의 통계적 차이가 있는지를 살펴보는 것뿐만 아니라, 변수들 간의 관계 파악하는 데에도 활용(상관분석, 회귀분석)
- 추론 통계의 분석 도구 : SPSS, SAS, Minitab (전문적 통계 분석 툴)
- t검정 : 비교 대상이 2개일 때, p-value ≤0.05
- ANOVA : 비교 대상이 2개 이상일 때, p-value ≤0.05 AND 사후검정도 필요함
- 상관분석 : 2개 이상의 변수들의 선형적인 관계를 살펴보기 위한 분석 방법, p-value ≤0.05 AND 상관계수 r ex.) 에러 수와 수행 시간의 r 값이 0.3이라면, 에러 수가 많은 것과 수행 시간이 늘어나는 것이 정적 상관성이 있다. 즉, 에러와 수행 시간에 대한 사용자 조사 결과를 해석할 때 이러한 상관성을 고려해 사용자의 행동을 이해하는 것이 필요하다.
- 회귀분석 : 하나의 종속 변수에 대해 다수의 독립변수들이 어떻게 영향을 미치는지 인과 관계를 분석, 회귀 분석을 통해 회귀 모형의 적합도(p-value), 모델 설명력(R2), 각 독립변수(예: 가격, 마케팅 비용 등)가 종속변수(예: 매출액)에 미치는 영향력을 나타내는 회귀계수(Beta)를 도출할 수 있음
- 현업에서의 활용
- 기술 통계는 Excel의 간단한 함수 통해 그래프 그려 활용
- 추론 통계는 심리학적 실험 설계 방법이나 통계 분석 같은 전문 지식 + 통계 분석 툴(SPSS, SAS) 활용 기술 습득 필요
- 그래프 그릴 때는 왜곡 발생하지 않도록 하기. 그래프를 통해 비교나 상관관계 파악 용이
- 주관적 데이터를 추론 통계로 분석했을 때가 통계적 유의차가 나타나지 않는 빈도 잦음
✔ 주요 내용
✔핵심 개념
정량 데이터, 기술 통계, 추론 통계, 시각화 등
✔용어 정리
- 통계적으로 유의미하다 : 분석된 결과가 우연에 의해 발생된 것이 아니라 다시 재현해도 반복적으로 나타난다는 것
- 유의수준 0.05 이하 : 표본에서 관찰된 결과가 모집단에서 다시 샘플링해 측정하여도 다른 결과가 나타날 가능성이 20번 중에 1번보다 적다
- 상관계수 r : 변수들 간의 관계가 긍정 또는 부정적인지, 얼마만큼 연관되는지를 나타냄
✔ 인사이트
마케팅에서의 ab test는 t검정이나 아노바 검정이 아닌 툴에서의 기능 중 하나였는데 이렇게 직접 다양한 요소에 대해 계산해서 비교하고 유의수준을 검정할 수 있는 방법이 있다는 것이 새롭고 흥미롭다. 이번주 프로젝트에서 추론통계 기법을 활용할 수 있는게 있을지 생각해봐야겠다.