1、 (2)估计吸烟者与不吸烟者患病的可能性差异:在吸烟的人中,有的人患病,在不吸烟的人中,有的人患病由上述结论能否得出患病与吸烟有关?把握有多大?三建构数学1独立性检验: (1)假设:患病与吸烟没有关系若将表中“观测值”用字母表示,则得下表:(近似的判断方法:设,如果成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得,即,因此,越小,患病与吸烟之间的关系越弱,否则,关系越强),在假设成立的条件下,可以通过求 “吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用表示出来例如:“吸烟且患病”的估计人数为;“吸烟但未患病
2、” 的估计人数为“不吸烟但患病”的估计人数为“不吸烟且未患病”的估计人数为如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设否则,应认为假设不能接受,即可作出与假设相反的结论 (2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(2)来进行估计卡方2统计量公式: 2(其中)由此若成立,即患病与吸烟没有关系,则2的值应该很小把代入计算得2,统计学中有明确的结论,在成立的情况下,随机事件“”发生的概率约为,也就是说,在成立的情况下,对统计量2进行多次观测,观测值超过的频率约为由此,我们有99%的把握认为不成立,即有99%的把握认为“患病与吸烟有关系”象以上这
3、种用统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验说明:(1)估计吸烟者与不吸烟者患病的可能性差异是用频率估计概率,利用2进行独立性检验,可以对推断的正确性的概率作出估计,观测数据取值越大,效果越好在实际应用中,当均不小于5,近似的效果才可接受(2)这里所说的“呼吸道疾病与吸烟有关系”是一种统计关系,这种关系是指“抽烟的人患呼吸道疾病的可能性(风险)更大”,而不是说“抽烟的人一定患呼吸道疾病”(3)在假设下统计量2应该很小,如果由观测数据计算得到2的观测值很大,则在一定程度上说明假设不合理(即统计量2越大,“两个分类变量有关系”的可能性就越大)2独立性检验的一般步骤:一般地,对
4、于两个研究对象和,有两类取值:类和类(如吸烟与不吸烟),也有两类取值:(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示: 类推断“和有关系”的步骤为:第一步,提出假设两个分类变量和没有关系;第二步,根据22列联表和公式计算2统计量;第三步,查对课本中临界值表,作出判断3独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立四数学运用1例题:例1在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结
5、果如表所示问:该种血清能否起到预防感冒的作用?未感冒感冒使用血清258242500未使用血清2162844745261000分析:在使用该种血清的人中,有的人患过感冒;在没有使用该种血清的人中,有的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异解:提出假设感冒与是否使用该种血清没有关系由列联表中的数据,求得当成立时,的概率约为,我们有99%的把握认为:该种血清能起到预防感冒的作用 例2为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示根据所选择的193
6、个病人的数据,能否作出药的效果与给药方式有关的结论?有效无效口服4098注射64319512271193在口服的病人中,有的人有效;在注射的病人中,有的人有效从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明药的效果与给药方式没有关系由列联表中的数据,求得当的概率大于,这个概率比较大,所以根据目前的调查数据,不能否定假设,即不能作出药的效果与给药方式有关的结论如果观测值,那么就认为没有充分的证据显示“与有关系”,但也不能作出结论“成立”,即与没有关系3.1 独立性检验(2)一学生活动练习: (1)某大学在研究性别与
7、职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据? (2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:非统计专业统计专业男1310女720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到,2所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 (答案:5%)附:临界值表(部分):(20.100.050.0250.0102.7063.8415.0246.635二数学运用例1在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人
8、主要的休闲方式是看电视,另外33人主要的休闲方式是运动。 (1)根据以上数据建立一个2 2列联表; (2)判断性别与休闲方式是否有关系。(1)2 2的列联表:休闲方式性别看电视运动总计432770335460124 (2)假设“休闲方式与性别无关” 因为2,所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”。例2气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示问它们的疗效有无差异(可靠性不低于99%)?复方江剪刀草18461245胆黄片919100275345由列联表中的数据可知,服用复方江剪刀
9、草的患者的有效率为,服用胆黄片的患者的有效率为,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有 效率存在较大差异下面用进行独立性检验,以确定能有多大把握作出这一推断两种中草药的治疗效果没有差异,即病人使用这两种药物中的何种药物对疗效没有明显差异由列联表中的数据,求得 ,而这里所以我们有的把握认为:两种药物的疗效有差异例3下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?喝过酒没喝过酒男生77404481女生1613893619该周内中学生是否喝过酒与性别无关所以,不能推断出喝酒与性别有关的结论
10、三回顾小结:1独立性检验的思想方法及一般步骤四课外作业:补充。3.2 回归分析(1)教学目标(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;(3)能求出简单实际问题的线性回归方程教学重点,难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法教学过程1 情境:对一作直线运动的质点的运动过程观测了次,得到如下表所示的数据,试估计当x=时的位置y的值时刻/s位置观测值/cm根据数学(必修)中的有关内容,解决这个问题的方法是:先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间与位置观测值y之间有着较好
11、的线性关系因此可以用线性回归方程来刻画它们之间的关系根据线性回归的系数公式,可以得到线性回归方为,所以当时,由线性回归方程可以估计其位置值为2问题:在时刻时,质点的运动位置一定是吗?思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映与之间的关系,的值不能由完全确定,它们之间是统计相关关系,的实际值与估计值之间存在着误差1线性回归模型的定义:我们将用于估计值的线性函数作为确定性函数;的实际值与估计值之间的误差记为,称之为随机误差;将称为线性回归模型(1)产生随机误差的主要原因有:所用的确定性函数不恰当引起的误差;忽略了某些因素的影响;存在观测误差 (2)对于线性回归模型,我们应该考虑下面两个问题: 模型是否合理(这个问题在下一节课解决); 在模型合理的情况下,如何估计?2探求线性回归系数的最佳估计值:对于问题,设有对观测数据,根据线性回归模型,对于每一个,对应的随
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1