EXCEL 显著性水平 置信度 置信区间.docx
《EXCEL 显著性水平 置信度 置信区间.docx》由会员分享,可在线阅读,更多相关《EXCEL 显著性水平 置信度 置信区间.docx(15页珍藏版)》请在冰豆网上搜索。
EXCEL显著性水平置信度置信区间
帮我通俗的解释下显著性水平和置信水平
这两个概念通俗的理解是咋样的啊,显著水平的0.05和0.01是什么意思,越高越好还是越低越好?
除了0.05和0.01外还有别的值么?
置信度和置信区间又是什么意思?
置信度越高越好么?
回答:
首先,置信水平和置信度应该是一样的,就是变量落在置信区间的可能性,“置信水平”就是相信变量在设定的置信区间的程度,是个0~1的数,用1-α表示。
置信区间,就是变量的一个范围,变量落在这个范围的可能性是就是1-α。
显著性水平就是变量落在置信区间以外的可能性,“显著”就是与设想的置信区间不一样,用α表示。
显然,显著性水平与置信水平的和为1。
显著性水平为0.05时,α=0.05,1-α=0.95
如果置信区间为(-1,1),即代表变量x在(-1,1)之间的可能性为0.95。
0.05和0.01是比较常用的,但换个数也是可以的,计算方法还是不变。
总之,置信度越高,显著性水平越低,代表假设的可靠性越高,越好。
置信度计算
现认为置信度在此算法中应该是用户指定一个即可。
“Ingeneral,duetotheweak(logarithmic)dependenceonT,smallsettingsforT(i.e.,lessthan0.1)donothavealargeeffectontheoverallwindowsize”。
没找到较好的计算过程,先贴一段吧。
置信度:
置信度,是指特定个体对待特定命题真实性相信的程度,也就是概率是对个人信念合理性的量度。
对概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。
置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。
置信区间越大,置信水平越高。
置信度,也称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。
因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。
一般情况下,置信度是表明抽样指标和总体指标的误差不超过一定范围的概率保证度,用F(t)来表示,在大样本(n>30)条件下,置信度F(t)是概率度t函数,概率度越大,置信度越越大。
假设我们指出测量结果的准确性有95%的可靠性,这个95%就称为置信度(P),又称为置信水平,它是指人们对测量结果判断的可信程度。
置信水平(Confidencelevel),是描述GIS中线元素与面元素的位置不确定性的重要指标之一。
置信水平表示区间估计的把握程度,置信区间的跨度是置信水平的正函数,即要求的把握程度越大,势必得到一个较宽的置信区间,这就相应降低了估计的准确程度.
简单地从数学角度分析一下。
首先明确其统计模型的类型,加入把每个对象的感觉量化为分数的话,例如从0~100之间的某个数字,那么该统计的结果即3000个数值,应该近似服从于正态分布。
即,当结果受到若干个彼此影响力差不多的因素影响时,所得的大量结果服从正态分布。
如果调查不是上述那样简单,则基本思路是:
先将结果量化为数值,再根据影响结果的因素的特征来分类,看它具体符合哪种分布类型。
具体的置信度设置:
它应当是样本容量(例如上面的“3000”)和数值结果波动范围的函数。
也就是说,你得到的结果会在某个特定数值附近波动,你希望知道的是波动范围到底有多大。
简单的说,置信度随着所取范围增大而减小,例如假设平均值为50分,那么45~55之间的可能性显然比35~65之间小,也就是置信度低,而出现在0~100之间的置信度则是100%,因为全部范围就这么大。
另外,样本容量一般有利于提高置信度,即人数越多所得结果越可靠,不过在达到一定界限之后对于提高置信度贡献就很小了,所以一般取一定容量就足够了。
具体估算置信度时,利用所得到的结果(平均值和样本方差)计算出一个表征偏离程度的数,然后在任何一本概率统计的书后查表,表中给出的是偏离程度与置信百分数的对应关系。
基本上就是这个道理,更具体的涉及到操作层面的东西,恐怕还是要参考有关书籍,按图索骥会更稳妥些。
例如在10000个样本中,要得到95%的置信度,大概需要抽取至少600份样本。
确定调查样本量的计算公式,可以从统计教材中找到,例如:
n=Z[(2×S)2/d]2
其中:
N:
代表所需要样本量
Z:
置信水平的Z统计量,如95%置信水平的Z统计量为1.96
S:
总体的标准差
d:
置信区间的1/2,在实际应用中就是容许误差,或者调查误差
但是总体标准差往往难以确定,所以按经验,这个总体数量,抽取600份左右。
当然,如果分层分类控制得好,也可以少一些样本。
置信度是区间估计里的概念,显著性水平是假设检验里的概念。
置信度是一个比较接近于1的数字,如0.9,0.95,0.99等,显著性水平是一个比较接近于0的数字,如0.01,0.05,0.1等。
置信水平是1-a,显著性水平是a,在区间估计商,只关注置信度或置信水平1-a,而显著性水平是假设检验中的概念。
置信度或置信水平是正确的概率,显著性水平是犯错误的概率,置信度可以直接理解为所做的估计有多大的把握,比如有95%的把握,观测值落在所给出的区间中
可以这么说:
置信度是人为规定的,是检验是否发生小概率的标准,显著性水平则是数据本身是否有差异,一般用P表示,P越小越好,例如,P<0.05,说明差异显著。
期望两组数不同,但假设它们完全相同,概率是95%、98%(置信度),但处理后的结果发现数在置信区间外,即发生了小概率事件,P<0.05或P<0.01,那么既然发生了小概率事件,则两组数据不同,选择置信度0.95和0.98是不同的,就要剔除一个离群数据,选择高置信度的结果就更可靠。
置信区间是一个期望轴,以T检验为例,以样本情况推断总体情况,如果总体多出现在置信区间外,则推翻原假设,差异显著的检验其实是想证明两数据不同,但只能假设相同推翻这个假设,才能证明它们不同。
[转载]置信区间与置信度
置信区间或称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。
置信度又称显著性水平,意义阶段,信任系数等,是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。
例如 .95置信区间是指总体参数落在该区间之内,估计正确的概率为95%,而出现错误的概率为5%(α=.05),由此可见:
.95置信间距=.05显著性水平的置信间距,或.05置信度的置信间距。
.99置信间距=.01显著性水平的置信间距,或.01置信度的置信间距。
显著性水平在假设检验中,还指拒绝虚无假设时可能出现的犯错误的概率水平。
区间估计的原理与标准误
区间估计是根据样本分布的理论,用样本分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率。
区间估计包括成功估计的概率大小及估计范围大小两个问题。
人们在解决实际问题时,总希望估计值的范围小一点,成功的概率大一些。
但在样本容量一定的情况下,二者不可兼得。
如果使估计正确的概率加大些,势必要将置信区间加长,若使正确估计的概率为1.00,即完全估计正确,则置信区间就会很长,也就等于没作估计了。
这就像在百分制的测验中你估计一个人的得分可能为0至100分之间一样。
反之,如果要使估计的区间变小,那就势必会使正确估计的概率降低。
统计分析中一般规定:
正确估计的概率,也即置信水平为.95或.99,那么显著性水平则为.05或.01,这是依据.05或.01属于小概率事件,而小概率事件在一次抽样中是不可能出现的原理规定的。
区间估计的原理是样本分布理论。
即在进行区间估计值的计算及估计正确概率的解释上,是依据该样本统计量时分布规律样本分布的标准误(SE)。
也就是说,只有知道了样本统计量的分布规律和样本统计量分布的标准误才能计算总体参数可能落入的区间长度,才能对区间估计的概率进行解释,可见标准误及样本分布对于总体参数的区间估计是十分重要的。
样本分布可提供概率解释,而标准误的大小决定区间估计的长度,如果标准误越小可使置信区间的长度变短,而估计成功的概率仍可保持较高水平。
一般情况下,加大样本容量可使标准误变小。
平均数分布的概率
下面以平均数的区间估计为例,说明如何根据平均数的样本分布及平均数分布的标准误,计算置信区间和解释成功估计的概率。
第五章已讲到,当总体方差已知时样本平均数的分布为正态分布或渐近正态分布。
样本平均数的平均数?
,平均数的离散程度即平均数分布的标准差(简称标准误写作?
或?
),
根据正态分布,可以说:
有68.26%的平均数落在μ±1标准误之间,
有95%的平均数落在μ±1.96标准误之间,
有99%的平均数落在μ±2.58标准误之间等等。
图6—1 平均数分布的概率
或者说:
μ±1标准误之间包含所有平均数的68.26%,
μ±1.96标准误之间包含所有平均数的95%,
μ±2.58标准误之间包含所有平均数的99%,等等。
只要符合正态分布,平均数的分布一定遵循按正态分布理论所计算出的概率。
平均数的区间估计
可是在实际的研究中,只能得到一个样本的平均数,我们可将这个样本平均数看作无限多个样本平均数之中的一个。
当只知样本平均数( ),而不知总体平均数时,可根据平均数的样本分布进行推理。
如果有所有平均数的68.26%的平均数落在μ上下一个标准误之间,那么可以推理:
所有平均数中有68.26%的平均数加上一个或减去一个标准误这一间距之内将包含总体参数μ,也就是说有68.26%的机会被包含在任何一个平均数±1标准误之间,或者说,估计μ在平均数±1标准误之间正确的概率为68.26%。
同样的道理可以说:
μ在平均数±1.96标准误之间的正确概率为95%,μ在平均数±2.58标准误之间的正确概率为99%,以及其他任何可能的概率。
那为什么置信区间用平均数加、减一定数量的标准误来计算呢?
这是因为样本平均数究竟μ落在的左侧还是右侧是不知道的,故用平均数±Zα/2标准误(Zα/2为样本分布的横坐标值),这一段距离表示置信区间。
如果能知平均数落在μ的左侧,那么平均数至平均数+1.96标准误这一区间内包含μ的可能为97.5%,若能确知平均数在μ之右侧,那么平均数至平均数+1.96标准误这一区间包含μ的可能亦为97.5%,这样不仅可以缩短置信区间的长度,还可提高正确估计的概率,但事实上这是做不到的。
见图6—2
图6-2 平均数的区间估计
置信度
当推论出总体参数μ按一定的概率落在某一置信区间时,实际的均值究竟落在分布的哪个位置上并不能确知,它也有可能落在分布的两侧尾部,这时若说μ在平均值±Zα/2标准误之间便是错误的了,不过出现这种错误的可能概率可以根据样本分布进行计算:
其概率为α。
例如估计μ在 平均数±1.96标准误之间正确的概率为95%,则错误的概率为5%,这5%来自样本分布的左右两尾端各2.5%的样本平均数,因为这些平均数±1.96标准误这一段距离中并不包含μ在内。
见图6-3:
图6-3置信度示意图
其他总体参数的估计原理与平均数的估计原理相同,但所依据的样本分布及标准误不同。
本文来源于响石潭http:
//www.chinadoctor.org
用Excel进行参数估计
总体均值和比例的区间估计
参数估计所要解决的问题是根据样本数据对总体的参数进行点估计和区间估计。
根据样本对总体的均值、比例或方差进行点估计,就是计算样本的均值、比例或方差。
有关计算在Excel或SPSS中的实现我们前面已经讲解过了。
根据样本对总体的均值区间估计时,根据条件的不同可以选择t分布或正态分布;对总体比例进行区间估计则要求是大样本,使用的分布是正态分布。
1、利用正态分布计算均值的置信区间。
正态总体、方差已知,或者非正态总体、大样本、方差已知的情况下均值的置信区间为
;大样本、方差未知时,不管总体是否为正态分布,均值的置信区间均可按以下公式计算:
。
公式中的样本均值、样本方差可以由软件计算出来(或者总体标准差已知),
可以根据正态分布的累积分布的反函数计算出来,因此相应得置信区间很容易计算。
[例6.1] CJW公司每个月都要进行顾客满意度调查。
最近一次调查中调查了100名顾客,顾客的平均满意度为82分。
已知总体的标准差为20,试计算顾客满意度的95%的置信区间。
在Excel单元格中输入公式“=82-NORMINV(0.975,0,1)*20/10”,可知置信下限为78.08,用公式“=82+NORMINV(0.975,0,1)*20/10”可知置信上限为85.92。
如果把公式中的0.975改为0.995,可以求出顾客满意度99%的置信区间。
注意NORMINV的概率参数与显著性水平α的关系。
在Excel中也可以利用CONFIDENCE(alpha,standard_dev,size)函数来计算正态总体方差已知情况下的置信区间:
该函数的返回值等于
,相当于置信区间长度的一半,根据这一结果很容易计算相应的置信区间。
例如在这个例子中,“=CONFIDENCE(0.05,20,100)”的计算结果为3.919928。
2、利用t分布计算均值的置信区间。
正态总体、方差未知时均值的置信区间为
。
大样本时这一置信区间也成立,不过大样本时可以用正态分布的z值来代替t值。
如果是样本均值、样本标准差已知,可以直接在Excel中输入相应的公式来计算置信区间。
[例6.2] 出租汽车公司随机调查了40位乘客的乘车行驶里程,发现他们的平均行驶里程为7.7公里,样本标准差为2.93公里。
假设总体为正态分布,试计算出租汽车平均行驶里程95%的置信区间。
在Excel单元格中输入公式“=7.7-TINV(0.05,39)*2.93/40^0.5”,可知置信下限为6.76公里,用公式“=7.7+TINV(0.05,39)*2.93/40^0.5”可知置信上限为8.64公里。
由于样本容量较大,这个题目也可以用正态分布来做。
在Excel单元格中输入公式“=7.7-NORMINV(0.975,0,1)*2.93/40^0.5”,可知置信下限为6.79公里,用公式“=7.7+NORMINV(0.975,0,1)*2.93/40^0.5”可知置信上限为8.61公里。
top↑
[例6.3] 根据学生调查的身高数据计算总体平均身高的置信区间。
如果是根据原始数据对总体均值进行区间估计,则可利用Excel分析工具库中的描述统计模块来进行区间估计。
在描述统计的对话框中选中“平均数置信度”复选框,并输入要求的置信度(图6-1),输出结果中包含有表6-1所示的信息。
图6-1用描述统计模块计算置信区间
表6-1描述统计的输出结果
身高
平均
166.7714286
标准误差
1.080838232
标准差
6.394325215
观测数
35
置信度(95.0%)
2.196527551
在表6-1中,“标准误差”(即通常所说的抽样分布的标准误)计算的是
的值,“置信度(95.0%)”计算的是
的值。
因此学生平均身高95%的置信区间为166.77±2.20,即[164.57,169.97]。
在SPSS中根据原始数据计算置信区间十分方便,在DescriptiveStatistics→Explore过程的输出结果中包括了因变量95%的置信区间(可以在statistics对话框中设定不同的置信度)。
3、比例的区间估计。
当样本用量足够大(能够保证np≥5,nq≥5)时,样本比例的抽样分布用正态分布来近似。
这时总体比例的置信区间为:
。
top↑
因此,如果已经计算出了样本比例,则先用Excel函数计算
的值,代入置信区间的公式就可以了。
如果是根据原始数据对比例进行估计,则需要先计算样本比例,然后利用正态分布求解置信区间。
[例6.4] 对于学生调查的数据,假设样本是随机的,试根据样本估计全校学生中女生的比例99%的置信区间。
使用分析工具库的描述统计模块对性别变量进行分析可知
=0.542857。
因此总体比例的置信下限为“=0.542857-NORMINV(0.995,0,1)*(0.542857*0.457143/35)^0.5”,计算结果为0.3259609。
相应的置信上限为0.7597531。
样本容量的确定
在简单随机抽样的情况下,如果给定了最大允许误差E(maximumallowableerror)以及总体方差的估计值,可以推导出必要样本容量的计算公式。
在重复抽样的条件下,估计总体均值的必要样本容量为:
估计总体比例的必要样本容量为:
公式中的
可以用统计软件计算出来,其他的量都是已知的,因此必要样本容量很容易计算。
[例6.6] 一名学习公共管理的学生希望估计某城市公务员的平均工资。
在95%的置信水平下允许的最大抽样误差为100元。
此前有研究表明公务员工资的标准差为800元。
试求在简单重复抽样条件下的必要样本容量。
根据相应的公式,在单元格中输入公式“=NORMSINV(0.975)^2*800^2/100^2”,计算结果为245.8534,因此必要样本容量为246。
Excel的CEILING函数可以对小数向上取整。
公式中使用的函数NORMSINV是用来计算标准正态分布累计分布反函数的,比NORMINV要求的参数少一些,计算结果是相同的。