데이터를 특정 대표값(평균, 중앙값 등)으로 요약해서 데이터의 특징을 간단하고 쉽게 알 수 있음
단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있어 데이터의 모든 부분을 확인할 수 있는 것은 아님
평균
모든 데이터를 더한 후 데이터의 개수로 나누어 계산
중앙값
데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
중앙값은 이상치에 영향을 덜 받기 때문에 데이터에 이상치가 있으면 중앙값 사용하는 것이 나음
분산
데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도, 각 데이터 값에서 평균 뺀 값을 제곱
ex. 데이터가 70,80,90,100일 때 평균은 85, 분산은 각 데이터에서 평균 빼고 제곱한 값을 모두 더해서 데이터 개수로 나누면분산= (225 + 25 + 25 + 225) / 4 =125
(70-85)^2 = 225
(80-85)^2 = 25
(90-85)^2 = 25
(100-85)^2 = 225
표준편차
분산과 동일한 용도로 값이 클수록 데이터가 평균으로 더 넓게 퍼져 있음을 의미, 분산의 제곱근
표준편차는 원래 데이터 값과 동일한 단위로 변환되어 분산보다 직관적임
ex. 데이터가 70,80,90,100일 때 평균은 85, 분산은 125. 근데 데이터는 70~120인데 분산이 125라서 평균에서 얼마나 떨어진 값이라는건지 감이 안 오니까 표준편차를 구함. 125의 제곱근 = 11.18
추론 통계(Inferential Statistics)란
데이터 일부를 통해 전체를 추론하는 것
가지고 있지 않은 데이터, 미래에 일어날 일을 추론해야 해서 기술 통계보다 쉽지 않음
신뢰 구간 (Confidence Interval)
모집단의 평균이 특정 범위 내에 있을 확률
일반적으로 95% 신뢰 구간 사용
가설 검정 (Hypothesis Testing)
모집단에 대한 가설을 검증하기 위해 사용
귀무가설과 대립가설이 있음
귀무가설 (H0)
검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설
대립가설 (H1)
그 반대 가설로 주장하는 바
둘 중 무엇이 맞는지 확인하는 방법 : `p-value`가 0.05 이하면 귀무가설 기각 가능
Python 실습
위치 추정
데이터 중심 확인하는 방법 `평균` `중앙값`
# 데이터 분석에서 자주 사용되는 라이브러리
import pandas as pd
# 다양한 계산을 빠르게 수행하게 돕는 라이브러리
import numpy as np
# 시각화 라이브러리
import matplotlib.pyplot as plt
# 시각화 라이브러리2
import seaborn as sns
# 이 data는 아래에서도 계속 사용 됩니다
data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]
mean = np.mean(data)
median = np.median(data)
print(f"평균: {mean}, 중앙값: {median}")
변이 추정
데이터들이 서로 얼마나 다른지 확인하는 방법 `분산` `표준편차` `범위`
`범위(range)` : 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도, 데이터가 어느 정도의 변동성을 가지는지 쉽게 파악 가능함. 범위(R) = 최대값 - 최소값