ImageVerifierCode 换一换
格式:DOCX , 页数:9 ,大小:27.76KB ,
资源ID:9223826      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9223826.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(记数数据统计法卡方检验法.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

记数数据统计法卡方检验法.docx

1、记数数据统计法卡方检验法记数数据统计法卡方检验法第八章记数数据统计法一卡方检验法知识引入在各个研究领域中,有些研究问题只能划分为不 同性质的类别,各类别没有量的联系。例如,性 别分男女,职业分为公务员、教师、工人、 ,教师职称又分为教授、副教授、。有时虽有 量的关系,因研究需要将其按一定的标准分为不 同的类别,例如,学习成绩、能力水平、态度等 都是连续数据,只是研究者依一定标准将其划分 为优良中差,喜欢与不喜欢等少数几个等级。对 这些非连续等距性数据,要判别这些分类间的差 异或者多个变量间的相关性方法称为计数数据 统计方法。卡方检验是专用于解决计数数据统计分析 的假设检验法。本章主要介绍卡方检

2、验的两个应 用:拟合性检验和独立性检验。拟合性检验是用 于分析实际次数与理论次数是否相同,适用于单 个因素分类的计数数据。独立性检验用于分析各 有多项分类的两个或两个以上的因素之间是否 有关联或是否独立的问题。在计数数据进行统计分析时要特别注意取 样的代表性。我们知道,统计分析就是依据样本 所提供的信息,正确推论总体的情况。在这一过 程中,最根本的一环是确保样本的代表性及对实 验的良好控制。在心理与教育研究中,所搜集到 的有些数据属于定性资料,它们常常是通过调 查、访问或问卷获得,除了少数实验可以事先计 划外,大部分收集数据的过程是难于控制的。 例 如,某研究者关于某项教育措施的问卷调查, 由

3、于有一部分教师和学生对该项措施存有意见,或 对问卷本身有偏见,根本就不填写问卷。这样该 研究所能收回的问卷只能代表一部分观点, 所以 它是一个有偏样本,若据此对总体进行推论,就 会产生一定的偏差,势必不能真实地反映出教师 与学生对这项教育措施的意见。因此应用计数资 料进行统计推断时,要特别小心谨慎,防止样本 的偏倚性,只有具有代表性的样本才能作出正确 的推论。第一节卡方拟合性检验一、卡方检验的一般问题卡方检验应用于计数数据的分析,对于总体 的分布不作任何假设,因此它又是非参数检验法 中的一种。它由统计学家皮尔逊推导。理论证明, 实际观察次数(f。)与理论次数(fe),又称期 望次数)之差的平方

4、再除以理论次数所得的统计 量,近似服从卡方分布,可表示为:宀送笔型一这是卡方检验的原始公式,其中当fe越大 (fe 5,近似得越好。显然fo与fe相差越大,卡 方值就越大;fo与fe相差越小,卡方值就越小; 因此它能够用来表示fo与fe相差的程度。根据这 个公式,可认为卡方检验的一般问题是要检验名 义型变量的实际观测次数和理论次数分布之间 是否存在显著差异。它主要应用于两种情况:卡方检验能检验单个多项分类名义型变量 各分类间的实际观测次数与理论次数之间是否 一致的问题,这里的观测次数是根据样本数据得 多的实计数,理论次数则是根据理论或经验得到 的期望次数。这一类检验称为拟合性检验。拟合性检验的

5、零假设是观测次数与理论次 数之间无差异。其中理论次数的计算一般是根据 某种理论,按一定的概率通过样本即实际观测次 数来计算。这里所说的某种理论,可能是经验规 律,也可能是理论分布。确定理论次数是卡方检 验的关键。拟合性检验自由度的确定与两个因素有关: 一是分类的项数,二是在计算理论次数时,所用 统计量或约束条件的个数,这两者之差即为自由 度。由于一般情况下,计算理论次数时只用到总 数”这一统计量,所以自由度一般是分类的项数 减1。但在对连续数据分布的配合度检验中,常 常会用数据个数、平均数、标准差等统计量来计 算理论次数,所以此时的自由度应从总分类项中 减去更多的个数。按照检验中理论次数的定义

6、不 同,拟合性检验有以下集中应用。二、检验无差假设所谓无差假设,是指各项分类的实计数之间 没有差异,也就是说各项分类之间的概率相等(均匀分布),因此理论次数完全按概率相等的 条件来计算。即任一项的理论次数都等于总数 / 分类项数。因此自由度也就等于分类项数减 1。【例1】 随机地将麻将色子抛掷300次, 检验该色子的六个面是否均匀。 结果1-6点向上 的次数依次是,43,49,56, 45,66,41。解:每个类的理论次数是 300/6 = 50,代入 公式:. 仝久疔 (43-50)3 _糾-网2 , (%-5好y = 1 = + H 厶 兀 刃 50 50+(件矽J6佻; 空50 50 5

7、0 恥曲因此,在0.05的显著性水平下,可以说这 个色子的六面是均匀的。【例2】随机抽取60名高一学生,问他们 文理要不要分科,回答赞成的39人,反对的21 人,问对分科的意见是否有显著的差异。解:如果没有显著的差异,则赞成与反对的 各占一半,因此是一个无差假设的检验,于是理 论次数为60/2=30,代入公式:戸=乞色尹=M + = 5.4 爲(1)=珊所以对于文理分科,学生们的态度是有显著 的差异的。三、检验假设分布的概率这里的假设分布可以是经验性的, 也可以是 某理论分布。公式中所需的理论次数则按照这里 假设的分布进行计算。【例3】 国际色觉障碍讨论会宣布,每 12 个男子中,有一个是先天

8、性色盲。从某校抽取的 132名男生中有4人是色盲,问该校男子色盲比 率与上述比例是否有显著差异?解:按国际色觉障碍讨论会的统计结果,132 人应该有132/12=11人是色盲,剩下的121人非 色盲,代入公式有:= 4.36 (1) = 3.24(皐-灯 _(4-11)3 , (128-121)3 = I 因此,在0.05和显著性水平下,该校男子色盲比率与国际色觉障碍讨论会的统计结果有 显著差异,显然根据比例可知该校的色盲率小于 国际色觉障碍讨论会的统计结果。【例4】在英语四级考试中,某学生做对 了 80个四择一选择题中的28题,现在要判断该 生是否是完全凭猜测做题。解:假如该生完全凭猜测做题

9、,那么平均而 言每道题做对的可能性是1/4,因此80个题中平 均而能做对80/4=20题,代入公式有:因此,该生可能会做一些题四、连续变量分布的拟合性检验对于一组连续数据,经常需要对其次数分布 究竟服从哪种理论分布进行探讨, 这一方面的主 要应用就是在前面经常所提到的总体正态性检 验。首先要将测量数据整理成次数分布表和画出 次分布图,并据此选择恰当的理论分布。 这些理 论分布是多种多样的,例如有正态分布、均匀分 布等。然后根据选择的理论分布计算出理论次 数,就可以计算卡方统计量并进行显著性检验 了。若差异显著,说明所选择的理论分布不合适, 可以再选一个理论分布进行检验,直至完全拟 合。当然有时

10、也只需检验是否与某确定的理论分 布相符,如正态性检验(参见教材有关内容)。对连续随机变量分布的吻合性检验, 关键的 步骤是计算理论次数与确定自由度。理论次数的 计算是按所选理论分布规律,并利用观测数据的 有关统计量来计算各分组(次数分布表中)理论 次数。自由度则是用分组数减去计算理论次数时 所用统计量的数目。这种拟合性检验计算较为繁琐,不做要求。五、小理论次数时的连续性校正卡方检验中,当某分类理论次数小于 5时, 卡方统计量不能很好地满足卡方分布,此时需要 对卡方统计量进行校正,称为卡方的连续性校 正,其公式如下:* zZ尽管采用此方法校正后,卡方统计量能较为 接近卡方分布,不过我们仍然建议在

11、实际中最好 增大样本的容量,尽量减少出现这种不大服从理 论分布的情况。第二节独立性检验卡方检验还可以用于检验两个或两个以上因 素(各有两项或以上的分类)之间是否相互影响 的问题,这种检验称为独立性检验。例如要讨论 血型与性格的关系,血型有A、B、AB、0四类, 性格采用心理学上的A型性格来划分,即有A 型和B型两种,每个人可能是它们之间交叉所形 成的8种类型中的一种,那么倒底它们之间有不 有关系,就可以用卡方独立性检验。卡方独立性检验用于检验两个或两个以上 因素(各有两项或以上的分类)之间是否相互影 响的问题。所谓独立,即无关联,互不影响,就 意味着一个因素各个分类之间的比例关系, 在另 一个

12、因素的各项分类下都是相同的, 比如在血型 与性格关系中,如果 A型性格人群中各血型的 比例关系,与B型性格人群中各血型的比例关系 相同,就可能说血型与性格相互独立,当然这里 的 两者比例相同”在统计的意义下,应表述为 两比例差异不超过误差范围”,因为就算总体之 间相互独立,收集到两个比例完全相同的样本的 可能是很小很小的,甚至是不可能的。相反,若 一个因素各个分类之间的比例关系,在另一个因 素的各项分类下是不同的,则它们之间相关。假 如A型性格中A型血的比例高于B型性格中A 型血的比例,而且达到显著水平,那么就可以说 血型与性格之间相关,不相互独立。卡方独立性检验的零假设是各因素之间相 互独立

13、。因此理论次数的计算也是基于这一假 设,具体计算时,采用列联表的方式,后面将举 例说明。 輩削曲豳:【例1】某校对学生课外活动内容进行调 查,结果整理成下表,表中彩色格子里的数是原 始数据的汇总数,括号内的数是理论次数(是按 下面将要介绍的原理计算得来的),此外的是原 始数据。性别(因素2)课外活动内容(因素1)小计和(fx)体育文娱阅读男生21(15.3)11(10.2)23(29.5)55女生6(11.7)7(7.8)29(22.5)42小计和(fy)27185297由于所有学生参加三项活动的比例是 27:18:52,因此如果课外活动的选择与性别没有 关系的话,男女生参加这三项活动的比例也

14、应是 这同一比例,而男女各自的人数可以计算,所以 每格内的理论次数的计算方法如下:男生中 参加体育活动的理论人数:55怎7/97=15.3 参加文娱活动的理论人数:55 X18/97=1O.2参加阅读活动的理论人数:55X52/97=29.5 女生中 参加体育活动的理论人数:42冷7/97=11.7参加文娱活动的理论人数:42X18/97= 7.8参加阅读活动的理论人数:42 52/97=22.5我们将行列的小计和分别用 fx和fy来表 示,总人数用N来表示时,上述计算理论次数 的方法可以表示为:feij = fxi Xfyj/N所以,卡方独立性检验的公式可以表示如 下,其中最后一个式子比较便

15、于计算,fxy表示 每格的原始数据。由于在计算理论次数时,用了按每个因素分类的小计和(fx和fy,其个数分别记为 R个 和C个),和总和N,而总和又可由按每个 因素分类的小计和计算得来,因此若从总分类个数RXC中减去R+C,则将总和重复减去了,因 此要补1个自由度回来,所以最终独立性检验 的自由度表示为:4f = Ry.C-R-C + l= g-lj(H-Y)上述例题最终计算得:_ (21-15 (11-10 2)3 (23- 29,33=K3 m 295(6IL?) p-7.8)a (出22 疔斗K7 + 7.8 + 2Z5=8.3552或者:1 =S3217 )1卩亠N丄住亠守丄羽55d8

16、+552+42x27+ 418+42x52这两个公式的计算结果有一点点差异, 这完 全是计算误差即四舍五入引起的。df = (3-1)(2-1) = 2,而 Xo.o5(2) = 5.99,所以 在0.05的显著性水平下,拒绝零假设,即可以 认为性别与课外活动内容有关联,或者说男女生 在选择课外活动上存在显著的差异。四格表独立性检验对于两个都只作两项分类的因素,它们的数 据整理成的是一个2怎的表格,一般称为四格 表,对于四格表教材里给出了一个更简洁的公 式:* = (a+ 观 + + 4)公式中,a、b、c、d的规定要求是a和d 必须呈对角线。该公式的含义非常明确,即当对 角线单元格中的次数差

17、异越大时,卡方检验越容 易显著,自然也就意味着两变量间的关联越密 切。掌握了一般的R*C表计算后,四格表计算 相对简单地多。这里不再展开。注意,在独立性检验中,同样存在某格的理 论次数小于等于5的问题,如同拟合性检验中 一样,我们仍然建议在实际中最好增大样本的容 量,尽量减少出现这种不大服从理论分布的情 况。此外,在独立性检验中,若拒绝了零假设, 即各因素之间有关联,则如同方差分析中仅判定 了存在交互作用一样,只是一个总体的结果,并 不能回答具体关联的形式的问题。如果各因素之 间独立,则到此为止,若各因素间有关联,还应 该作进一步的分析,具体搞清楚各变量的次数间 是如何关联的。对此卡方检验有一

18、些办法,但不 如参数检验中那样严格。卡方独立性检验一般也 仅限于两变量间的关联考察,对于多个名义型变 量,往往采用分拆一个变量分别进行独立性检验 的办法,然后试图整合多次检验的结果。这种做 法就显得更牵强一些。品质相关卡方检验既然是用来解决变量间关联性的,则也 可以构造和积差相关或等级相关系数一样的相 关程度的度量,称为品质相关。常用的品质相关 有以下几种:1、相关系数相关只适用于四格表,它要求两变量是不 同性质的。相关的公式实际上是根据四格表的 卡方值变换而来的,通过变换使得其取值大约在 正负1之间,这样便于联系一般的相关系数的含 义进行解释。在卡方检验一节,我们曾讲到卡方 值的大小反映了实

19、际次数与理论次数之间差异 的大小,而独立性检验中的理论次数是根据两变 量独立的假设计算出来的,因此卡方值的大小也 就反映了两变量距独立有多远,离独立越远就越 相关,因此卡方值本身就反映了两变量间相关的 程度。相关的计算公式如下:相关系数依分子的正负号可取正负值。不 过,所有的品质相关几乎都不是独立构造的, 而 都是对卡方检验中卡方统计量的变换。因此实际 上,只要进行了卡方独立性检验,则这两步过程 就一次解决了。计算品质相关系数只是为了更好 地理解两变量间关系的密切程度。2、列联相关C系数列联相关实际上是将相关的适用情况从 四格表扩展到一般的列联表。列联相关公式的来 历也基本上与 相关相同。列联

20、相关公式为:c =该系数的取值也在0和1之间,不会取到1。 与使用相关一样,使用列联相关之前,最好 先检验两变量是否相关,只有两变量相关时,这 一系数才有意义。阅读材料班上要选班长,有两名候选人A和B,他们获 得的票数分别是45和49。班主任认为票数悬殊 太小,不足以说明B更受欢迎,因此决定让二者 各任一周班长,两周后再进行公开投票。 B很不 服气,认为老师偏心,请你为他主持公道,你能 不能用统计学的知识来说明这次投票的结果? 先想一想这个案例可以用卡方分布来检验两名候选 人的票数是否有显著差异。候选人O (实际频数)E (预期频数)D (偏差)(O-E)2(O-E)2/EA4547240.085B4947240.085得出的显著性水平是0.68,显然,二者所得 票数确实无显著差异,老师的决策是对的。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1