통계 실습 | 파이썬으로 카이제곱검정
·
Python
문제 4.  카이제곱검정출제의도귀무가설과 대립가설을 설정할 수 있다.카이제곱 검정을 이해하고 올바르게 해석할 수 있다.카이제곱 검정 함수에 적절한 전달인자를 넣을 수 있다.문제다음 click_rate 데이터는 헤드라인별 클릭과 클릭하지 않은 수 에 대한 데이터입니다.귀무가설과 대립가설을 설정하세요.카이제곱 검정 수행하여 실제로 클릭률에 대한 차이가 있는지 유의수준 0.05 에서 검정해보세요.Skeleton codeimport pandas as pdfrom scipy import stats# URL 로 데이터 가져오기url = "https://raw.githubusercontent.com/gedeck/practical-statistics-for-data-scientists/master/data/click_..
통계 실습 | 파이썬으로 이표본 t 검정
·
Python
문제 3.  이표본 t 검정출제의도귀무가설과 대립가설을 설정할 수 있다.t검정에 이해하고 올바르게 해석할 수 있다.t검정에 적절한 전달인자를 넣을 수 있다.문제목초에 따른 우유의 생산량을 알아보기위하여 25마리 젖소를 대상으로 3주동안 임의로 추출된 12마리 젖소에게 건조시킨 목초를 주고 13마리 젖소에게는 들판에서 말린 목초를 주었다.두 종류의 모 표준편차는 같다고 가정하고 또한 우유생산량의 자료는 정규분포를 따른다고 가정한다.자연적으로 말린 목초의 사육하는 젖소의 우유생산량이 인공적으로 말린 목초로 사용하는 젖소보다 많다고 할 수 있는지 유의수준 0.05 에서 검정하세요.(단측 검정)Skeleton codeimport numpy as npfrom scipy import statsnature = [44..
통계 실습 | 파이썬으로 신뢰구간 구하기
·
Python
문제 2.  파이썬으로 신뢰구간 구하기출제의도scipy 의 함수를 이용해서 신뢰구간을 구합니다.문제평균이 µ이고 표준편차가 σ = 8인 정규분포를 따르는 모집단에서 크기가 25인 표본을 추출하여 평균을 계산하였더니 x̅가 42.7 이다. 이때 µ에 대한 95% 신뢰 구간을 구하라.Skeleton codeimport scipy.stats as statsimport numpy as np# 주어진 값들sigma = 8 # 모집단의 표준편차n = 25 # 표본 크기x_bar = 42.7 # 표본 평균confidence_level = 0.95 # 신뢰 수준'''여기에 코드를 넣으세요'''# 결과 출력print(f"95% 신뢰 구간: ({lower_bound:.2f}, {upper_bound:.2f})")출..
통계 실습 | 파이썬으로 변동계수 구하기
·
Python
문제 1. 변동계수 구하기출제의도평균과 표준편차를 구하는 함수를 사용할 수 있습니다.모집단과 샘플의 차이를 구분합니다.Numpy 혹은 Pandas를 이용한 변동계수를 계산해봅니다.문제회사 주식에 투자하고자 합니다. 하지만 보수적인 나는 변동성이 크지 않은 회사를 골라 안정적인 투자를 희망합니다. 이를 위해 2가지 회사로 좁혔고 A,B회사의 6일간 주가 데이터를 수집하였습니다. Numpy 혹은 Pandas를 이용하여 회사의 변동계수를 구해봅시다.변수명cv_a_np : a 회사의 변동계수cv_b_np : b 회사의 변동계수Skeleton codeimport numpy as npcom_a = [76300, 77400, 77900, 77200, 76900, 78800]com_b = [6400, 7000, 740..
통계 공부 | 파이썬으로 정규분포, 이항분포 시각화(matplotlib subplot)
·
Python
실습하면서 도움된 자료 정리파이썬으로 균일분포, 정규분포, 감마분포, 이항분포 그리기 python으로 균일분포, 정규분포, 감마분포, 이항분포 구현하기참고사이트 https://www.datacamp.com/community/tutorials/probability-distributions-python 영어해석 (Tutorial) Probability Distributions in Python Learn about commonly used PROBABILITY DISTRIBUTIONS in MACHINE LEARNING literature. Such as Uniform, Nbinggamel.tistory.com파이썬Matplotlib Subplot 활용해서 그래프 여러개 그리는 방법plt.subplot(O행..
Python 실습 | 데이터프레임 합치기(merge,concat), 컬럼명 변경(rename), 인덱스 재지정(reset_index), 집계(agg, mean, sum 등)
·
Python
import seaborn as snsimport pandas as pd문제 1.  데이터 변형 - Iris 데이터셋을 활용하여 다음을 수행하세요:Iris 데이터셋을 불러옵니다.sepal_length가 평균보다 큰 데이터와 평균보다 작은 데이터를 각각 필터링하여 두 개의 데이터프레임을 만드세요.새로운 열 category를 추가하여 각 행이 'above_average'인지 'below_average'인지 표시하세요.위 두 데이터프레임을 concat을 사용하여 하나로 합칩니다. (category가 above_average인 데이터 프레임 → category가 below_average인 데이터프레임 순서)최종 데이터프레임 concat_df의 50, 120번째 행을 출력하세요.조건 : concat을 사용할 때,..
Python 실습 | 베이직 라이브세션 QCC 3회차
·
Python
문제1문자열을 입력 받아 각 단어가 몇 번 등장했는지 계산하는 word_frequency 함수를 작성하세요.조건: 빈 문자열 인 경우 "입력한 문자열이 없습니다."를 반환해주세요.힌트:문자열을 split() 메서드로 나눌 수 있습니다.딕셔너리를 사용해 단어 빈도를 계산하세요.skeleton codedef word_frequency(text): """ 여기에 코드를 작성하세요. """# 테스트 1text1 = "hello world hello python world"print(word_frequency(text1)) # 테스트 2text2 = ""print(word_frequency(text2))출력 결과'''{'hello': 2, 'world': 2, 'python': 1}입력한 문자열..
통계 공부 | 가설검정의 주의점
·
Python
1. 재현 가능성동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부결과가 재현되지 않으면 해당 가설의 신뢰도가 떨어짐ex) 신약 개발 시 실험실에서만 효과가 있는 게 아니라 실제 상황에서도 일관된 결과가 나온다고 믿을 수 있기 때문에 개발 가능한 것최근 p값에 대한 논쟁이 두드러지고 있음p값을 사용하지 않는 것이 좋다유의수준을 0.05에서 변경하는 것이 좋다가설검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제 발생재현성 위기의 원인은 무엇인가?1. 실험 조건을 동일하게 조성하기 어려움완전 동일하게 다시 똑같은 실험을 수행하는 것이 쉽지 않음가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 나타날 수 있음2. 가설검정 사용방법에 있어서 잘못됨p값이 0..
통계 공부 | 상관관계, 파이썬으로 구하는 방법
·
Python
피어슨 상관계수가장 대표적인 상관계수두 연속형 변수 간의 선형 관계를 측정하는 지표-1에서 1 사이의 값 -> 1 : 완전한 양의 선형 관계, -1 : 완전한 음의 선형 관계, 0 : 선형 관계가 없음ex. 공부 시간과 시험 점수 간의 상관관계 분석import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# 예시 데이터 생성np.random.seed(0)study_hours = np.random.rand(100) * 10exam_scores = 3 * study_hours + np.random.randn(100) * 5# 데이터프레임 생성df = ..
통계 공부 | 회귀(regression), 파이썬으로 구하는 방법
·
Python
단순선형회귀한 개의 변수에 의한 결과를 예측하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법데이터가 직선적 경향을 따를 때 사용, 간단하고 해석이 용이함`회귀식`Y = β0 + β1X여기서 β0는 절편, β1는 기울기중학교 때 배웠던 1차 함수를 생각하면 이해하기 쉬움! y = ax + b 여기서 b는 y절편, a는 기울기.β0, β1만 알면 x, y가 무엇이든 구할 수 있는 것독립 변수(X)의 변화에 따라 종속 변수(Y)가 어떻게 변화하는지 설명하고 예측ex. 광고비(X)와 매출(Y) 간의 관계 분석# 머신러닝 배울 때 더 자세하게 배울 거니까 일단은 그냥 이렇다고 알아두자~import numpy as npimport pandas as pdimport matplotl..