统计学第四章推断统计概述.docx-资源下载

统计学第四章推断统计概述.docx

1、统计学第四章推断统计概述第四章推断统计概述第一部分概率论基本知识* 一、概率的定义；二、概率的性质；三、概率的加法定理和乘法定理* 四、概率分布类型四、概率分布类型* 概率分布（probability distribution）是指对随机变量取不同值时的概率的描述，一般用概率分布函数进行描述。* 依不同的标准，对概率分布可作不同的分类。、离散型分布与连续型分布* 依随机变量的类型，可将概率分布分为离散型概率分布与连续型概率分布。* 教育统计学中最常用的离散型分布是二项分布，最常用的连续型分布是正态分布。、经验分布与理论分布* 依分布函数的来源，可将概率分布分为经验分布与理论分布。*

2、经验分布（empirical distribution）是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。* 理论分布（theoretical distribution）是按某种数学模型计算出的概率分布。、基本随机变量分布与抽样分布* 依所描述的数据的样本特性，可将概率分布分为基本随机变量分布与抽样分布（sampling distribution）。* 基本随机变量分布是随机变量各种不同取值情况的概率分布，* 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。第二部分几种常见的概率分布* 一、二项分布* 二项分布（binomial distribution）是一种具有广泛

3、用途的离散型随机变量的概率分布，它是由贝努里创始的，因此又称为贝努里分布。* 2二项分布函数* 二项分布是一种离散型随机变量的概率分布。* 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数（X0，1，n）的概率分布，叫做二项分布函数。* 二项展开式的通式（即二项分布函数）：* * * * * * 成功概率 p；样本容量 n* 在成功概率为p的总体中随机抽样，抽取样本容量为n的样本中，有X次为成功的概率：* （X0，1，n） * 称X服从参数为n，p的二项分布，记为：* XB(n,p) 其中，0p1* 二项分布的性质* 二项分布有如下性质：* 当p=q时，图形是对称的。*

4、当pq时，直方图呈偏态。pq与pq时的偏斜方向相反。* 3二项分布的平均数和标准差* 如果二项分布满足pq且 nq5（或者pq且 np5时，二项分布接近于正态分布。可用下面的方法计算二项分布的平均数和标准差。* 二项分布的平均数为* 二项分布的标准差为* 4二项分布的应用* 二项分布函数除了用来求成功事件恰好出现X次的概率之外，在教育中主要用来判断试验结果的机遇性与真实性的界限。 * 一个学生凭猜测做10个是非题，平均可以猜对5题。什么情况下可以说他是真会而不是猜测呢？* 解：猜对与猜错的概率：p=q=1/2。* 猜对8的概率为0.044* 猜对9题的概率为0.010* 猜对10题的概率为0

5、.001* 猜对8题以上的概率为：0.044+0.010+0.001=0.055* 一个教师对8个学生的作业成绩进行猜测，如果教师猜对的可能性为13，问：* 平均能猜对几个学生的成绩？* 假如规定猜对95，才算这个教师有一定的评判能力，那么这个教师至少要猜对几个学生？* * (1)( 2) 这个教师至少要猜对5个学生，才有一定的评判能力正态分布* 正态分布（normal distribution）也称为常态分布，是连续型随机变量概率分布的一种，是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。 * 正态分布由棣莫弗于1733年发现的。拉普拉斯、高斯对正态分布的研究也做出了贡献，故有时

6、称正态分布为高斯分布。1.正态分布曲线函数正态分布曲线函数又称概率密度函数（即方程），其一般公式为公式所描述的正态曲线，由和两个参数决定。* XN( , 2),将N改为频率，正态曲线形态不变。正态曲线的特征关于x=对称。在x=处取得该概率密度函数的最大值，在处有拐点，表现为钟形曲线。决定曲线在横轴上的位置，增大，曲线沿横轴向右移；反之，减小，曲线沿横轴向左移。决定曲线的形状，当恒定时，越大，数据越分散，曲线越“矮胖”；越小, 数据越集中，曲线越瘦高。曲线下面积为1。正态曲线下的面积规律* 正态曲线关于均数对称；对称的区域内面积相等；* 对任意正态曲线，按标准差为单位，对应的

7、面积相等；正态曲线下面积的含义-1.64 +1.64内面积为90%； -1.96 +1.96内面积为95%； -2.58 +2.58内面积为99%。* 1.曲线下面积是全体数据落入某区间的概率；* 2.曲线下面积是落入某区间的数据占全体数据的比例标准正态分布曲线将标准分数代入正态曲线函数，则公式变换为标准正态分布函数：* 以为横坐标，以为纵坐标，可绘制标准正态分布曲线。* 标准正态分布曲线的纵线高度为概率密度，曲线下的面积为概率。3标准正态分布曲线的特点* 曲线在处达到最高点* 曲线以处为中心，双侧对称* 曲线从最高点向左右缓慢下降，向两侧无限延伸，但永不与基线相交。* 标准正态分布曲线的平均

8、数为，标准差为。* 从3至3之间几乎分布着全部数据（99.73%）。* 曲线的拐点为正负一个标准差处。4.正态曲线的面积与纵线* 1）累积正态分布函数* 正态曲线与基线之间某一区间的面积，相当于能在该区间找到个体的概率。曲线下的面积，即累积概率是用积分表示的。* 累积正态分布函数是：2）标准正态曲线下面积的求法 * 利用积分公式可求出正态曲线下任何区间的面积，但需要计算，非常麻烦。* 统计学家已编制好了标准正态分布表，使用非常方便。 * 2）已知曲线下面积求Z值* 求Z=0以上或以下某一面积相对应的Z值* 求与正态曲线上端或下端某一面积相对应的Z值* 求与正态曲线下中央部位某一面积相对应的Z值

9、3)正态曲线的纵线* 正态曲线的纵线高度Y是横轴上某一Z值的频率密度（即概率）* （1）已知Z值求纵线高度* （2）已知面积求纵线高度三、正态分布的应用1以标准分数表示考试成绩 * 比较学生的考试成绩时，使用原始分数不合理* 原始分制度没有提示考生成绩在考生团体成绩中的位置。* 由于各科命题难度不同，导致各科原始分之间不能直接比较，造成分数解释上的困难。* 各科原始分相加不合理。 2确定等级评定的人数* 例：若有100人某种能力呈正态分布，欲将其分成五个等距的等级，问各等级应有多少人？* 解：65=1.2。* 每个等级应占1.2个标准差的距离。3、确定录取分数线* 例：某项职业录取考试，准备在

10、参加的1600考生中录取200人，考试分数分布接近正态分布，平均分数为74，标准差为11，问录取分数线是多少？* 解：将200/1600=0.125作为正态分布上端的面积。* P=0.5-0.125=0.375，则Z=1.15* 录取分数线为4.确定正态分布下特定分数段内的人数或某面积下（或人数）的分数段* 例1：某地区某年高考物理科考生4.7万，平均分为57.08，标准差为18.04。试问：* 成绩在90分以上有多少人？* 成绩在80分到90分之间有多少人？* 成绩在60分以下有多少人？解：先算出90分、80分、60分的标准分数。例2：某次测验分数为正态分布，其平均分为72分，标准差为6分，

11、问：95%的学生分数落在平均数上下多少分中间？99%的学生分数落在平均数上下多少分中间解：将95%和99%看作是正态曲线中央部分的面积。则，第三部分抽样分布的基本原理一、抽样的基本概念* 1.总体与抽样 2.抽样的基本方法1）简单随机抽样 2）等距抽样 3）分层随机抽样二、抽样分布区分三种不同性质的分布：* 总体分布：总体内个体数值的频数分布* 样本分布：样本内个体数值的频数分布* 抽样分布：某一种统计量的概率分布1. 抽样分布的概念2平均数抽样分布的几个定理（中心极限定理）从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。容量为n的平均数在抽样分布上的标准差（

12、即平均数的标准误），等于总体标准差除以n的平方根。从正态总体中，随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布；虽然总体不呈正态分布，如果样本容量较大，也接近于正态分布二、标准误* 某种统计量在抽样分布上的标准差，称为标准误。如:平均数抽样分布的标准差称为平均数的标准误；标准差抽样分布的标准差称为标准差的标准误。* 标准误用来衡量抽样误差。* 标准误越小，表明样本统计量与总体参数的值越接近，样本对总体越有代表性，用样本统计量推断总体参数的可靠度越大。* 因此，标准误是统计推断可靠性的指标平均数标准误的计算1总体正态，总体标准差已知（不管样本容量大小），或总体非正态，总体标准差已知，大

13、样本平均数的标准误为：平均数标准误的计算2总体正态，总体标准差未知（不管样本容量大小），或总体非正态，总体标准差未知，大样本。当总体标准差未知，需要用样本标准差来估计。总体标准差的无偏估计量：平均数标准误为：，因为未知，用S代替：因此，平均数标准误的估计值为三平均数离差统计量的分布由样本的平均数对总体平均数进行估计，首先要了解平均数离差统计量的分布，才能根据一定的概率，由样本的平均数对总体的平均数做出估计1总体正态，已知（不管样本容量大小），或总体非正态，已知，大样本平均数离差的抽样分布呈正态分布2总体正态，未知（不管样本容量大小），或总体非正态，未知，大样本平均数离差的抽样分布呈

14、t分布t分布的特点形状与正态分布曲线相似t分布曲线随自由度不同而有一簇曲线自由度的计算：自由度是指能够独立变化的数据个数或总体参数估计中变量值能够独立变化的个数。查t分布表时，需根据自由度及相应的显著性水平，并要注意是单侧数据还是双侧。有关自由度的其他说明* 统计学中：在统计模型中，自由度指样本中可以自由变动的变量的个数，当有约束条件时，自由度减少。* 自由度计算公式：自由度=样本个数-样本数据受约束条件的个数，即df = n - k（df自由度，n样本个数，k约束条件个数）t分布表的查法* 自由度df，t值和概率（面积或显著性水平）* 3总体未知，大样本时的近似处理* 样本容量增大后，平均数

15、的抽样分布接近于正态分布，可用正态分布近似处理。* （注意：此时的分布仍然是t分布）第四部分参数估计的基本原理* 根据样本统计量对相应总体参数所作的估计叫作总体参数估计。* 总体参数估计分为点估计和区间估计。* 由样本的标准差估计总体的标准差即为点估计；而由样本的平均数估计总体平均数的取值范围则为区间估计2.区间估计* 以样本统计量的抽样分布（概率分布）为理论依据，按一定概率的要求，由样本统计量的值估计总体参数值的所在范围，称为总体参数的区间估计。* 对总体参数值进行区间估计，就是要在一定可靠度上求出总体参数的置信区间的上下限计算要求：* 要知道与所要估计的参数相对应的样本统计量的值，以及

16、样本统计量的理论分布； * 要求出该种统计量的标准误； * 要确定在多大的可靠度（或置信度）上对总体参数作估计，再通过某种理论概率分布表，找出与某种可靠度相对应的该分布横轴上记分的临界值，才能计算出总体参数的置信区间的上下限。置信区间(confidence interval)* 置信度或可靠度，即置信概率，是作出某种推断时正确的可能性（概率），即1-。* 显著性水平：* 置信区间，也称置信间距，是指在某一置信度时，总体参数所在的区域距离或区域长度。置信区间是带有置信概率的取值区间。显著性水平(significance level* 对总体平均数进行区间估计时，置信概率表示做出正确推断的可能性

17、，但这种估计还是会有犯错误的可能。* 显著性水平就是指估计总体参数落在某一区间时，可能犯错误的概率，用符号表示。 .平均数区间估计的基本原理* 通过样本的平均数估计总体的平均数* 首先假定该样本是随机取自一个正态分布的总体(或非正态总体中的n30的样本)，而计算出来的实际平均数是无数容量为n的样本平均数中的一个。* 根据样本平均数的分布理论，可以对总体平均数进行估计，并以概率说明其正确的可能性总体平均数的区间估计1总体平均数区间估计的基本步骤根据样本的数据，计算样本的平均数和标准差；计算平均数抽样分布的标准误；确定置信概率或显著性水平；根据样本平均数的抽样分布确定查何种统计表；计算置信区间；解

18、释总体平均数的置信区间。2平均数区间估计的计算总体正态，已知（不管样本容量大小），或总体非正态，已知，大样本 2平均数区间估计的计算平均数离差的的抽样分布呈正态，平均数的置信区间为：=0.05时，总体平均数区间估计为* =0.01时，总体平均数区间估计为例题：某小学10岁全体女童身高历年来标准差为6.25厘米，现从该校随机抽27名10岁女童，测得平均身高为134.2厘米，试估计该校10岁全体女童平均身高的95和99置信区间。* 解：10岁女童的身高假定是从正态总体中抽出的随机样本，并已知总体标准差为=6.25。无论样本容量大小，一切样本平均数的标准分数呈正态分布。于是可用正态分布来估计该校1

19、0岁女童身高总体平均数95和99的置信区间。其标准误为当0.95时，1.96因此，该校10岁女童平均身高95的置信区间为：当0.99时，2.58因此，该校10岁女童平均身高99的置信区间为：总体正态，未知（不管样本容量大小），或总体非正态，未知，大样本平均数离差的抽样分布为t分布，平均数的置信区间为：例题2：从某小学三年级随机抽取12名学生，其阅读能力得分为28，32，36，22，34，30，33，25，31，33，29，26。试估计该校三年级学生阅读能力总体平均数95和99的置信区间。* 解：12名学生阅读能力的得分假定是从正态总体中抽出的随机样本，而总体标准差未知，样本的容量较小（=1

20、230），t分布接近于正态分布，因此可用正态分布近似处理。样本标准差：当0.95时，1.96因此，该年全部考生作文成绩95的置信区间为：当0.99时，2.58因此，该年全部考生作文成绩99的置信区间为：总体非正态，小样本 * 不能进行参数估计，即不能根据样本分布对总体平均数进行估计。第五部分假设检验的基本原理利用样本信息，根据一定概率，对总体参数或分布的某一假设作出拒绝或保留的决断，称为假设检验。1假设* 假设检验一般有两个互相对立的假设。* H0：零假设，或称原假设、虚无假设（null hypothesis）、解消假设；是要检验的对象之间没有差异的假设。* H1：备择假设（altern

21、ative hypothesis），或称研究假设、对立假设；是与零假设相对立的假设，即存在差异的假设。假设检验 * 进行假设检验时，一般是从零假设出发，以样本与总体无差异的条件计算统计量的值，并分析计算结果在抽样分布上的概率，根据相应的概率判断应接受零假设、拒绝研究假设还是拒绝零假设、接受研究假设。2小概率事件* 样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平，这时就认为小概率事件发生了。把出现概率很小的随机事件称为小概率事件。当概率足够小时，可以作为从实际可能性上把零假设加以否定的理由。因为根据这个原理认为：在随机抽样的条件下，一次实验竟然抽到与总体参数值有这么大差异的样本，

22、可能性是极小的，实际中是罕见的，几乎是不可能的。3显著性水平* 统计学中把拒绝零假设的概率称为显著性水平，用表示。* 显著性水平也是进行统计推断时，可能犯错误的概率。* 常用的显著性水平有两个： 0.05 和 0.01。（或其他0.10、0.001等。）在抽样分布曲线上，显著性水平既可以放在曲线的一端（单侧检验），也可以分在曲线的两端（双侧检验）。正态抽样分布上0.05的三种不同位置双侧检验和单侧检验* 在确定检验形式时，凡是检验是否与假设的总体一致的假设检验，被分散在概率分布曲线的两端，因此称为双侧检验。* 双侧检验的假设形式为：H0：0， H1：0 （样本平均数和总体平均数是否有显著

23、差异）* 凡是检验大于或小于某一特定条件的假设检验，是在概率分布曲线的一端，因此称为单侧检验。* 单侧检验的假设形式为：H0：0，H1：0（样本平均数是否显著低于总体平均数）或者 H0：0，H1：0（样本平均数是否显著高于总体平均数）4假设检验中的两类错误及其控制* 对于总体参数的假设检验，有可能犯两种类型的错误，即错误和错误。假设检验中的两类错误当H0为真当H0为假拒绝H0错误正确接受H0正确错误* 为了将两种错误同时控制在相对最小的程度，研究者往往通过选择适当的显著性水平而对错误进行控制，如0.05或0.01。* 对错误，则一方面使样本容量增大，另一方面采用合理的检验形式（即单侧检验或双侧检验）来使误差得到控制。5假设检验的基本步骤一个完整的假设检验过程，一般经过四个主要步骤：提出假设选择检验统计量并计算统计量的值确定显著性水平做出统计结论

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

统计学 第四章推断统计概述.docx