统计学——Python实现教学课件cha7.pptx
《统计学——Python实现教学课件cha7.pptx》由会员分享,可在线阅读,更多相关《统计学——Python实现教学课件cha7.pptx(11页珍藏版)》请在冰豆网上搜索。
第第1章章统计学Python实现贾贾俊俊平平2022-12-15人生苦短,人生苦短,我要我要PythonStatisticswithPython1-统计学Python实现贾俊平2022-12-15第第7章章1.一个一个类别变类别变量的量的拟拟合合优优度度检验检验2.两个两个类别变类别变量的独立性量的独立性检验检验3.两个两个类别变类别变量的相关性度量量的相关性度量贾贾俊平俊平2022-12-157-统计学Python实现贾俊平2022-12-15第第7章章类别变类别变量分量分析析第第7章章7.1一个类别变量的拟合优度检验拟合优度检验期望频数相等利用Pearson-统计量来判断某个类别变量各类别的观察频数分布与某一理论分布或期望分布是否一致的检验方法比如,各月份的产品销售量是否符合均匀分布不同地区的离婚率是否有显著差异也称为一致性检验(testofhomogeneity)该检验也可用于判断各类别的观察频数分布是否符合泊松分布或正态分布等7-统计学Python实现贾俊平2022-12-15第第7章章7.1一个类别变量的拟合优度检验拟合优度检验期望频数相等例题分析【例7-1】(数据:
example7_1.RData)为研究消费者对不同类型的饮料是否有明显偏好,一家调查公司随机调查了2000个消费者对4种类型饮料的偏好情况,得到不同类型饮料的偏好数据如表7-1所示。
饮饮料料类类型型人人数数碳酸碳酸饮饮料料525矿矿泉泉水水550果果汁汁470其其他他455合合计计2000卡方统计量=12.10,p值=0.0070487-统计学Python实现贾俊平2022-12-15第第7章章7.1一个类别变量的拟合优度检验拟合优度检验期望频数不相等例题分析受教育程受教育程度度离婚家庭离婚家庭数数小学及以小学及以下下30初初中中110高高中中80大大学学25研究研究生生15合合计计2607-统计学Python实现贾俊平2022-12-15第第7章章7.1一个类别变量的拟合优度检验拟合优度检验期望频数不相等例题分析受教育程受教育程度度观观察察频频数数期望比例期望比例%期望期望频频数数=期望比例期望比例样样本本量量小学及以小学及以下下30200.20260=52.0初初中中110350.35260=91.0高高中中80250.25260=65.0大大学学25120.12260=31.2研究研究生生1580.08260=20.8合合计计2601003007-统计学Python实现贾俊平2022-12-15第第7章章7.2两个类别变量的独立性检验独立性检验研究两个类别变量时,每个变量有多个类别,通常将两个变量多个类别的频数用交叉表的形式表示出来一个变量放在行(row)的位置,称为行变量,其类别数(行数)用r表示另一个变量放在列(column)的位置,称为列变量,其类别数(列数)用c表示这种由两个或两个以上类别变量交叉分类的频数分布表称为列联表(contingencytable)一个由r行和c列组成的列联表也称为rc列联表例如,本章开头的案例中,行变量“逃课情况”有两个类别,列变量“性别”也有两个类别,这就是一个22列联表对列联表中的两个类别变量进行分析,通常是判断两个变量是否独立该检验的原假设是:
两个变量独立(无关)如果原假设被拒绝,则表明两个变量不独立,或者说两个变量相关独立性检验的统计量为7-统计学Python实现贾俊平2022-12-15第第7章章7.2两个类别变量的独立性检验独立性检验例题分析满满意意度度地地区区东东部部中中部部西西部部合合计计满满意意12615835319不不满满意意348265181合合计计1602401005007-统计学Python实现贾俊平2022-12-15地地区区满满意意度度东东部部中中部部西西部部合合计计满满意意126(102.08)158(153.12)35(63.80)319不不满满意意34(57.92)82(86.88)65(36.20)181合合计计160240100500第第7章章7.2两个类别变量的独立性检验独立性检验注意事项在应用2检验时,要求样本量应足够大,特别是每个单元格的期望频数不能太小,否则应用应检验可能会得出错误的结论从2统计量的公式可以看出,期望频数在公式的分母上,如果某个单元格的期望频数过小,统计量的值就会变大,从而导致拒绝原假设应用2检验时对单元格的期望频数有以下要求如果仅有两个单元格,单元格的最小期望频数不应小于5。
否则不能进行2检验单元格在两个以上时,期望频数小于5的单元格不能超过总格子数的20%,否则不能进行2检验如果出现期望频数小于5的单元格超过20%,可以采取合并类别的办法来解决这一问题7-统计学Python实现贾俊平2022-12-15第第7章章7.3两个类别变量的相关性度量两个类别变量相关性度量例题分析系数主要用于22列联表的相关性测量。
计算公式CramersV系数由Cramer提出,计算公式系数phi系数=0.321957-统计学Python实现贾俊平2022-12-15主要用于大于22列联表的相关性测量,用C表示。
计算公式为v系数=0.32195c系数=0.30646联系数不可能大于1。
当两个变量独立时,C=0,但即使两个变量完全相关,列联系数也不可能等于1,因此,对列联系数含义的解释就不够方便THEENDTHANKS2022-12-15