EXCEL 显著性水平置信度置信区间Word格式.docx-资源下载

EXCEL 显著性水平置信度置信区间Word格式.docx

1、置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。置信度，也称为可靠度，或置信水平、置信系数，即在抽样对总体参数作出估计时，由于样本的随机性，其结论总是不确定的。因此，采用一种概率的陈述方法，也就是数理统计中的区间估计法，即估计值与总体参数在一定允许的误差范围以内，其相应的概率有多大，这个相应的概率称作置信度。一般情况下，置信度是表明抽样指标和总体指标的误差不超过一定范围的概率保证度，用F（t）来表示，在大样本（n30）条件下，置信度F（t）是概率度t函数，概率度越大，置信度越越大。假设我们指出测量

2、结果的准确性有95的可靠性，这个95就称为置信度（P），又称为置信水平，它是指人们对测量结果判断的可信程度。置信水平（Confidence level），是描述GIS中线元素与面元素的位置不确定性的重要指标之一。置信水平表示区间估计的把握程度，置信区间的跨度是置信水平的正函数，即要求的把握程度越大，势必得到一个较宽的置信区间，这就相应降低了估计的准确程度.简单地从数学角度分析一下。首先明确其统计模型的类型，加入把每个对象的感觉量化为分数的话，例如从0100之间的某个数字，那么该统计的结果即3000个数值，应该近似服从于正态分布。即，当结果受到若干个彼此影响力差不多的因素影响时，所得的大量结果服

3、从正态分布。如果调查不是上述那样简单，则基本思路是：先将结果量化为数值，再根据影响结果的因素的特征来分类，看它具体符合哪种分布类型。具体的置信度设置：它应当是样本容量（例如上面的“3000”）和数值结果波动范围的函数。也就是说，你得到的结果会在某个特定数值附近波动，你希望知道的是波动范围到底有多大。简单的说，置信度随着所取范围增大而减小，例如假设平均值为50分，那么4555之间的可能性显然比3565之间小，也就是置信度低，而出现在0100之间的置信度则是100，因为全部范围就这么大。另外，样本容量一般有利于提高置信度，即人数越多所得结果越可靠，不过在达到一定界限之后对于提高置信度贡献就很小了，

4、所以一般取一定容量就足够了。具体估算置信度时，利用所得到的结果（平均值和样本方差）计算出一个表征偏离程度的数，然后在任何一本概率统计的书后查表，表中给出的是偏离程度与置信百分数的对应关系。基本上就是这个道理，更具体的涉及到操作层面的东西，恐怕还是要参考有关书籍，按图索骥会更稳妥些。例如在10000个样本中，要得到95的置信度，大概需要抽取至少600份样本。确定调查样本量的计算公式，可以从统计教材中找到，例如：n=Z（2S）2/d2其中：N：代表所需要样本量Z：置信水平的Z统计量，如95置信水平的Z统计量为1.96S：总体的标准差d：置信区间的1/2，在实际应用中就是容许误差，或者调查误差但是总

5、体标准差往往难以确定，所以按经验，这个总体数量，抽取600份左右。当然，如果分层分类控制得好，也可以少一些样本。置信度是区间估计里的概念，显著性水平是假设检验里的概念。置信度是一个比较接近于1的数字，如0.9，0.95，0.99等，显著性水平是一个比较接近于0的数字，如0.01，0.05，0.1等。置信水平是1-a，显著性水平是a，在区间估计商，只关注置信度或置信水平1-a，而显著性水平是假设检验中的概念。置信度或置信水平是正确的概率，显著性水平是犯错误的概率，置信度可以直接理解为所做的估计有多大的把握，比如有95的把握，观测值落在所给出的区间中可以这么说：置信度是人为规定的，是检验是否发生小

6、概率的标准，显著性水平则是数据本身是否有差异，一般用P表示，P越小越好,例如，P0.05，说明差异显著。期望两组数不同，但假设它们完全相同，概率是95、98（置信度），但处理后的结果发现数在置信区间外，即发生了小概率事件，P0.05或P0.01，那么既然发生了小概率事件，则两组数据不同，选择置信度0.95和0.98是不同的，就要剔除一个离群数据，选择高置信度的结果就更可靠。置信区间是一个期望轴，以检验为例，以样本情况推断总体情况，如果总体多出现在置信区间外，则推翻原假设，差异显著的检验其实是想证明两数据不同，但只能假设相同推翻这个假设，才能证明它们不同。转载置信区间与置信度置信区间或称置信间距

7、，是指在某一置信度时，总体参数所在的区域距离或区域长度。置信度又称显著性水平，意义阶段，信任系数等，是指估计总体参数落在某一区间时，可能犯错误的概率，用符号表示。例如 95置信区间是指总体参数落在该区间之内，估计正确的概率为95，而出现错误的概率为5（05），由此可见：95置信间距=05显著性水平的置信间距，或05置信度的置信间距。99置信间距=01显著性水平的置信间距，或01置信度的置信间距。显著性水平在假设检验中，还指拒绝虚无假设时可能出现的犯错误的概率水平。区间估计的原理与标准误区间估计是根据样本分布的理论，用样本分布的标准误（SE）计算区间长度，解释总体参数落入某置信区间可能的

8、概率。区间估计包括成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时，总希望估计值的范围小一点，成功的概率大一些。但在样本容量一定的情况下，二者不可兼得。如果使估计正确的概率加大些，势必要将置信区间加长，若使正确估计的概率为100，即完全估计正确，则置信区间就会很长，也就等于没作估计了。这就像在百分制的测验中你估计一个人的得分可能为0至100分之间一样。反之，如果要使估计的区间变小，那就势必会使正确估计的概率降低。统计分析中一般规定：正确估计的概率，也即置信水平为95或99，那么显著性水平则为05或01，这是依据05或01属于小概率事件，而小概率事件在一次抽样中是不可能出现的原

9、理规定的。区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上，是依据该样本统计量时分布规律样本分布的标准误（SE）。也就是说，只有知道了样本统计量的分布规律和样本统计量分布的标准误才能计算总体参数可能落入的区间长度，才能对区间估计的概率进行解释，可见标准误及样本分布对于总体参数的区间估计是十分重要的。样本分布可提供概率解释，而标准误的大小决定区间估计的长度，如果标准误越小可使置信区间的长度变短，而估计成功的概率仍可保持较高水平。一般情况下，加大样本容量可使标准误变小。平均数分布的概率下面以平均数的区间估计为例，说明如何根据平均数的样本分布及平均数分布的标准误，计算

10、置信区间和解释成功估计的概率。第五章已讲到，当总体方差已知时样本平均数的分布为正态分布或渐近正态分布。样本平均数的平均数？，平均数的离散程度即平均数分布的标准差（简称标准误写作？或？），根据正态分布，可以说：有6826的平均数落在1标准误之间，有95的平均数落在196标准误之间，有99的平均数落在258标准误之间等等。图61平均数分布的概率或者说： 1标准误之间包含所有平均数的6826，1.96标准误之间包含所有平均数的95，2.58标准误之间包含所有平均数的99，等等。只要符合正态分布，平均数的分布一定遵循按正态分布理论所计算出的概率。平均数的区间估计可是在实际的研究中，只能

11、得到一个样本的平均数，我们可将这个样本平均数看作无限多个样本平均数之中的一个。当只知样本平均数（），而不知总体平均数时，可根据平均数的样本分布进行推理。如果有所有平均数的6826的平均数落在上下一个标准误之间，那么可以推理：所有平均数中有6826的平均数加上一个或减去一个标准误这一间距之内将包含总体参数，也就是说有6826的机会被包含在任何一个平均数1标准误之间，或者说，估计在平均数1标准误之间正确的概率为6826。同样的道理可以说：在平均数1.96标准误之间的正确概率为95，在平均数258标准误之间的正确概率为99，以及其他任何可能的概率。那为什么置信区间用平均数加、减一定数量的标准误来

12、计算呢?这是因为样本平均数究竟落在的左侧还是右侧是不知道的，故用平均数Z2标准误（Z2为样本分布的横坐标值），这一段距离表示置信区间。如果能知平均数落在的左侧，那么平均数至平均数+196标准误这一区间内包含的可能为975，若能确知平均数在之右侧，那么平均数至平均数+196标准误这一区间包含的可能亦为975，这样不仅可以缩短置信区间的长度，还可提高正确估计的概率，但事实上这是做不到的。见图62图6-2 置信度当推论出总体参数按一定的概率落在某一置信区间时，实际的均值究竟落在分布的哪个位置上并不能确知，它也有可能落在分布的两侧尾部，这时若说在平均值Z2标准误之间便是错误的了，不过出现这种错误的可

13、能概率可以根据样本分布进行计算：其概率为。例如估计在平均数196标准误之间正确的概率为95，则错误的概率为5，这5来自样本分布的左右两尾端各25的样本平均数，因为这些平均数196标准误这一段距离中并不包含在内。见图6-3：图6-3 置信度示意图其他总体参数的估计原理与平均数的估计原理相同，但所依据的样本分布及标准误不同。本文来源于响石潭 http:/www.chinadoctor.org用Excel进行参数估计总体均值和比例的区间估计参数估计所要解决的问题是根据样本数据对总体的参数进行点估计和区间估计。根据样本对总体的均值、比例或方差进行点估计，就是计算样本的均值、比例或方差。有关计算在

14、Excel或SPSS中的实现我们前面已经讲解过了。根据样本对总体的均值区间估计时，根据条件的不同可以选择t分布或正态分布；对总体比例进行区间估计则要求是大样本，使用的分布是正态分布。1、利用正态分布计算均值的置信区间。正态总体、方差已知，或者非正态总体、大样本、方差已知的情况下均值的置信区间为；大样本、方差未知时，不管总体是否为正态分布，均值的置信区间均可按以下公式计算：。公式中的样本均值、样本方差可以由软件计算出来（或者总体标准差已知），可以根据正态分布的累积分布的反函数计算出来，因此相应得置信区间很容易计算。例6.1 CJW公司每个月都要进行顾客满意度调查。最近一次调查中调查了100名顾客

15、，顾客的平均满意度为82分。已知总体的标准差为20，试计算顾客满意度的95%的置信区间。在Excel单元格中输入公式“=82-NORMINV（0.975,0,1）*20/10”，可知置信下限为78.08，用公式“=82+NORMINV（0.975,0,1）*20/10”可知置信上限为85.92。如果把公式中的0.975改为0.995，可以求出顾客满意度99%的置信区间。注意NORMINV的概率参数与显著性水平的关系。在Excel中也可以利用CONFIDENCE（alpha,standard_dev,size）函数来计算正态总体方差已知情况下的置信区间：该函数的返回值等于，相当于置信区间长度的一

16、半，根据这一结果很容易计算相应的置信区间。例如在这个例子中，“=CONFIDENCE（0.05,20,100）”的计算结果为3.919928。2、利用t分布计算均值的置信区间。正态总体、方差未知时均值的置信区间为大样本时这一置信区间也成立，不过大样本时可以用正态分布的z值来代替t值。如果是样本均值、样本标准差已知，可以直接在Excel中输入相应的公式来计算置信区间。例6.2 出租汽车公司随机调查了40位乘客的乘车行驶里程，发现他们的平均行驶里程为7.7公里，样本标准差为2.93公里。假设总体为正态分布，试计算出租汽车平均行驶里程95%的置信区间。在Excel单元格中输入公式“=7.7-TINV

17、（0.05,39）*2.93/400.5”，可知置信下限为6.76公里，用公式“=7.7+TINV（0.05,39）*2.93/400.5”可知置信上限为8.64公里。由于样本容量较大，这个题目也可以用正态分布来做。在Excel单元格中输入公式“=7.7- NORMINV（0.975,0,1）*2.93/400.5”，可知置信下限为6.79公里，用公式“=7.7+ NORMINV（0.975,0,1）*2.93/400.5”可知置信上限为8.61公里。top例6.3 根据学生调查的身高数据计算总体平均身高的置信区间。如果是根据原始数据对总体均值进行区间估计，则可利用Excel分析工具库中的描述

18、统计模块来进行区间估计。在描述统计的对话框中选中“平均数置信度”复选框，并输入要求的置信度（图6-1），输出结果中包含有表6-1所示的信息。图6-1 用描述统计模块计算置信区间表6-1 描述统计的输出结果身高平均166.7714286标准误差1.080838232标准差6.394325215观测数35置信度（95.0%）2.196527551在表6-1中，“标准误差”（即通常所说的抽样分布的标准误）计算的是的值，“置信度（95.0%）”计算的是的值。因此学生平均身高95%的置信区间为166.772.20，即164.57，169.97。在SPSS中根据原始数据计算置信区间十分方便，在Descri

19、ptive StatisticsExplore过程的输出结果中包括了因变量95%的置信区间（可以在statistics对话框中设定不同的置信度）。3、比例的区间估计。当样本用量足够大（能够保证np5，nq5）时，样本比例的抽样分布用正态分布来近似。这时总体比例的置信区间为：因此，如果已经计算出了样本比例，则先用Excel函数计算的值，代入置信区间的公式就可以了。如果是根据原始数据对比例进行估计，则需要先计算样本比例，然后利用正态分布求解置信区间。例6.4 对于学生调查的数据，假设样本是随机的，试根据样本估计全校学生中女生的比例99%的置信区间。使用分析工具库的描述统计模块对性别变量进行分析可知

20、=0.542857。因此总体比例的置信下限为“=0.542857-NORMINV（0.995,0,1）*（0.542857*0.457143/35）0.5”，计算结果为0.3259609。相应的置信上限为0.7597531。样本容量的确定在简单随机抽样的情况下，如果给定了最大允许误差E （maximum allowable error）以及总体方差的估计值，可以推导出必要样本容量的计算公式。在重复抽样的条件下，估计总体均值的必要样本容量为：估计总体比例的必要样本容量为：公式中的可以用统计软件计算出来，其他的量都是已知的，因此必要样本容量很容易计算。例6.6 一名学习公共管理的学生希望估计某城市公务员的平均工资。在95%的置信水平下允许的最大抽样误差为100元。此前有研究表明公务员工资的标准差为800元。试求在简单重复抽样条件下的必要样本容量。根据相应的公式，在单元格中输入公式“=NORMSINV（0.975）2*8002/1002”，计算结果为245.8534，因此必要样本容量为246。Excel的CEILING函数可以对小数向上取整。公式中使用的函数NORMSINV是用来计算标准正态分布累计分布反函数的，比NORMINV要求的参数少一些，计算结果是相同的。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

EXCEL 显著性水平 置信度 置信区间Word格式.docx