기초통계
카이제곱 검정
<stats.chisquare(data1, data2)> , 분할표(contingency table) 기준 <stats.chi2_contingency(df,correction=False)>
(설명변수 - 범주형 , 반응변수 - 분류 )
- 카이제곱 검정은 카이제곱 분포에 기초한 통계적 방법으로,
관찰된 빈도가 기대빈도와 의미 있게 다른지 여부를 검증 하기 위해 사용되는 검정 방법이다.
카이제곱-검정
- 각 변수(범주형)에 대한 집단의 분포가 독립인지를 검정
- 관찰도수와 기대도수의 차를 이용하여 카이제곱값을 구하여 검정
- 예) 제품의 판매량 비율을 통해 카이제곱 검정을 수행 할 수 있다.
단일표본 t-test :
stats.ttest_1samp(heights, 175)
-특정 집단의 평균을 어떤 숫자와 비교 해서 검정하는 방법이다.
수질 정화시설 Ph 농도가 기준치에 부합하는 지 확인
독립표본 t-est :
stats.ttest_ind(arr_no, arr_yes, equal_var=False)
- 서로 다른 두 그룹 간 평균 비교
남성과 여성의 소득의 차이
대응표본 t-test :
stats.ttest_rel(atfer, before)
- 한 집단의 처리(사건) 전후 평균 비교
ex) 학생들의 과외를 하기 전후 성적 비교
ANOVA (analysis of variance : 분산분석)
여러 그룹간의 평균의 차이가 통계적으로 유의미 한지를 판단하고자 할 때 사용
세 개 이상의 집단간의 평균의 차이가 통계적으로 유의미한지 비교
## 아노바분석 - 일원분산분석(One-way ANOVA) ### 김부장이 4개의 각기 다른 신입사원 교육훈련 기법의 효과성을 평가하고자 한다. ### 새로 입사한 32명의 신입사원에게 4가지 기법을 임의로 적용시켜 교육을 시켰다. ### 한 달간의 훈련기간이 끝난 후 표준 시험을 쳤는데 그 점수는 아래와 같다. ### 4개의 교육훈련 기법간 차이가 있는가? 만약 있다면 어떻게 다른가? ### 3개 이상의 대응표본을 비교해야 하므로 일원배치 분산분석 기법을 사용해야 한다. ### 귀무가설 : 4개의 교육훈련 기법간의 차이가 없다. ### 대립가설 : 4개의 교육훈련 기법간의 차이가 있다.
import pandas as pd
import numpy as np
import matplotlib.pylab as plt # 시각화
import seaborn as sns # 시각화
import matplotlib.font_manager
plt.rcParams["font.family"] = "NanumGothicCoding"
plt.rcParams["font.size"] = 12
df = pd.read_csv('http://www.sthda.com/sthda/RDoc/data/housetasks.txt', sep = "\t", engine='python', encoding = "cp949")
df.head(6)
df['Unnamed: 0']