Python 실습 | 데이터프레임 합치기(merge,concat), 컬럼명 변경(rename), 인덱스 재지정(reset_index), 집계(agg, mean, sum 등)
·
Python
import seaborn as snsimport pandas as pd문제 1.  데이터 변형 - Iris 데이터셋을 활용하여 다음을 수행하세요:Iris 데이터셋을 불러옵니다.sepal_length가 평균보다 큰 데이터와 평균보다 작은 데이터를 각각 필터링하여 두 개의 데이터프레임을 만드세요.새로운 열 category를 추가하여 각 행이 'above_average'인지 'below_average'인지 표시하세요.위 두 데이터프레임을 concat을 사용하여 하나로 합칩니다. (category가 above_average인 데이터 프레임 → category가 below_average인 데이터프레임 순서)최종 데이터프레임 concat_df의 50, 120번째 행을 출력하세요.조건 : concat을 사용할 때,..
MySQL 실습 | 상품을 구매한 회원 비율 구하기
·
SQL
`복습하기`문제 1.  상품을 구매한 회원 비율 구하기USER_INFO 테이블과 ONLINE_SALE 테이블에서 2021년에 가입한 전체 회원들 중 상품을 구매한 회원수와 상품을 구매한 회원의 비율(=2021년에 가입한 회원 중 상품을 구매한 회원수 / 2021년에 가입한 전체 회원 수)을 년, 월 별로 출력하는 SQL문을 작성해주세요. 상품을 구매한 회원의 비율은 소수점 두번째자리에서 반올림하고, 전체 결과는 년을 기준으로 오름차순 정렬해주시고 년이 같다면 월을 기준으로 오름차순 정렬해주세요. 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr💡 문제 풀이 `내 풀이`SELECT YEAR(SALES_DA..
MySQL 실습 | 자동차 대여 기록 별 대여 금액 구하기
·
SQL
`복습하기★★`문제 1.  자동차 대여 기록 별 대여 금액 구하기CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블에서 자동차 종류가 '트럭'인 자동차의 대여 기록에 대해서 대여 기록 별로 대여 금액(컬럼명: FEE)을 구하여 대여 기록 ID와 대여 금액 리스트를 출력하는 SQL문을 작성해주세요. 결과는 대여 금액을 기준으로 내림차순 정렬하고, 대여 금액이 같은 경우 대여 기록 ID를 기준으로 내림차순 정렬해주세요. 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr💡 문제..
Python 실습 | 베이직 라이브세션 QCC 3회차
·
Python
문제1문자열을 입력 받아 각 단어가 몇 번 등장했는지 계산하는 word_frequency 함수를 작성하세요.조건: 빈 문자열 인 경우 "입력한 문자열이 없습니다."를 반환해주세요.힌트:문자열을 split() 메서드로 나눌 수 있습니다.딕셔너리를 사용해 단어 빈도를 계산하세요.skeleton codedef word_frequency(text): """ 여기에 코드를 작성하세요. """# 테스트 1text1 = "hello world hello python world"print(word_frequency(text1)) # 테스트 2text2 = ""print(word_frequency(text2))출력 결과'''{'hello': 2, 'world': 2, 'python': 1}입력한 문자열..
통계 공부 | 가설검정의 주의점
·
Python
1. 재현 가능성동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부결과가 재현되지 않으면 해당 가설의 신뢰도가 떨어짐ex) 신약 개발 시 실험실에서만 효과가 있는 게 아니라 실제 상황에서도 일관된 결과가 나온다고 믿을 수 있기 때문에 개발 가능한 것최근 p값에 대한 논쟁이 두드러지고 있음p값을 사용하지 않는 것이 좋다유의수준을 0.05에서 변경하는 것이 좋다가설검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제 발생재현성 위기의 원인은 무엇인가?1. 실험 조건을 동일하게 조성하기 어려움완전 동일하게 다시 똑같은 실험을 수행하는 것이 쉽지 않음가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 나타날 수 있음2. 가설검정 사용방법에 있어서 잘못됨p값이 0..
통계 공부 | 상관관계, 파이썬으로 구하는 방법
·
Python
피어슨 상관계수가장 대표적인 상관계수두 연속형 변수 간의 선형 관계를 측정하는 지표-1에서 1 사이의 값 -> 1 : 완전한 양의 선형 관계, -1 : 완전한 음의 선형 관계, 0 : 선형 관계가 없음ex. 공부 시간과 시험 점수 간의 상관관계 분석import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# 예시 데이터 생성np.random.seed(0)study_hours = np.random.rand(100) * 10exam_scores = 3 * study_hours + np.random.randn(100) * 5# 데이터프레임 생성df = ..
통계 공부 | 회귀(regression), 파이썬으로 구하는 방법
·
Python
단순선형회귀한 개의 변수에 의한 결과를 예측하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법데이터가 직선적 경향을 따를 때 사용, 간단하고 해석이 용이함`회귀식`Y = β0 + β1X여기서 β0는 절편, β1는 기울기중학교 때 배웠던 1차 함수를 생각하면 이해하기 쉬움! y = ax + b 여기서 b는 y절편, a는 기울기.β0, β1만 알면 x, y가 무엇이든 구할 수 있는 것독립 변수(X)의 변화에 따라 종속 변수(Y)가 어떻게 변화하는지 설명하고 예측ex. 광고비(X)와 매출(Y) 간의 관계 분석# 머신러닝 배울 때 더 자세하게 배울 거니까 일단은 그냥 이렇다고 알아두자~import numpy as npimport pandas as pdimport matplotl..
MySQL 실습 | 특정 기간동안 대여 가능한 자동차들의 대여비용 구하기
·
SQL
`★복습하기`문제 1.  특정 기간동안 대여 가능한 자동차들의 대여비용 구하기CAR_RENTAL_COMPANY_CAR 테이블과 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블과 CAR_RENTAL_COMPANY_DISCOUNT_PLAN 테이블에서 자동차 종류가 '세단' 또는 'SUV' 인 자동차 중 2022년 11월 1일부터 2022년 11월 30일까지 대여 가능하고 30일간의 대여 금액이 50만원 이상 200만원 미만인 자동차에 대해서 자동차 ID, 자동차 종류, 대여 금액(컬럼명: FEE) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 대여 금액을 기준으로 내림차순 정렬하고, 대여 금액이 같은 경우 자동차 종류를 기준으로 오름차순 정렬, 자동차 종류까지 같은 경우 자동차 ID를..
Python 실습 | x만큼 간격이 있는 n개의 숫자
·
Python
문제 1.  x만큼 간격이 있는 n개의 숫자함수 solution은 정수 x와 자연수 n을 입력 받아, x부터 시작해 x씩 증가하는 숫자를 n개 지니는 리스트를 리턴해야 합니다. 다음 제한 조건을 보고, 조건을 만족하는 함수, solution을 완성해주세요. 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr💡 문제 풀이 `내 풀이`def solution(x, n): answer = [] for n in range(1,n+1): answer.append(x * n) return answer `더 나은 풀이`아래와 같이 이렇게 간단하게 만들 수도 있음def solution(x, n..
통계 공부 | 유의성 검정, 파이썬으로 구하는 방법
·
Python
1. A/B 검정`scipy.stats.ttest_ind` : 독립표본(independent sample) t-검정을 수행하여 두 개의 독립된 집단 간 평균의 차이가 유의미한지 평가이 함수는 두 집단의 데이터 배열을 입력으로 받아서 t-통계량과 p-값을 반환합니다.t-통계량 (statistic)t-검정 통계량. 두 집단 간 평균 차이의 크기와 방향을 나타냄p-값 (p-value, probability value, 유의확률)p-값은 귀무 가설이 참일 때, 현재 데이터보다 극단적인 결과가 나올 확률p-값이 유의수준(α) 보다 작으면 귀무 가설을 기각하고, 유의수준(α) 보다 크면 귀무 가설을 기각하지 않음import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터..