置信区间的影响因素分析.docx

资源描述

置信区间的影响因素分析.docx

《置信区间的影响因素分析.docx》由会员分享，可在线阅读，更多相关《置信区间的影响因素分析.docx（18页珍藏版）》请在冰豆网上搜索。

置信区间的影响因素分析.docx

置信区间的影响因素分析

山东财经大学

本科毕业论文（设计）

题目

影响置信区间宽窄因素的分析

学院数学与数量经济学院

专业数学与应用数学

班级00000000000000

学号0000000000

姓名000000

指导教师000000

山东财经大学教务处制

二O—二年五月

山东财经大学学士学位论文原创性声明

本人郑重声明：

所呈交的学位论文，是本人在导师的指导下进行研究工作所取得的成果。

除文中已经注明引用的内容外，本论文不含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出重要贡献的个人和集体，均已在论文中作了明确的说明并表示了谢意。

本声明的法律结果由本人承担。

学位论文作者签名：

00000

2013年_0^月_08_日

山东财经大学关于论文使用授权的说明

本人完全了解山东财经大学有关保留、使用学士学位论文的规定，即：

学校有权保留、送交论文的复印件，允许论文被查阅，学校可以公布论文的全部或部分内容，可以采用影印或其他复制手段保存论文。

2013年_04月08日

指导教师签名：

0000000论文作者签名：

0000000

2013年04月08日

影响置信区间宽窄因素的分析

摘要

在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。

置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度，置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一定

概率”，这个概率被称为置信水平。

置信水平一般用百分比表示，因此置信水平0.95上的置信区间也可以表达为：

95汕信区间。

置信区间的两端被称为置信极限。

影响置信区间宽度的因素：

样本平均数，要求的置信水平，样本标准差，样本容量。

对一个给定情形的估计来说，其他因素不变，置信水平越高，置信区间宽度越长；其他因素不变，样本量越多，置信区间宽度越短。

关键词：

置信区间；因素；；

Instatistics,aconfideneeinterval（Cl）isatypeofintervalestimateofapopulationparameterandisusedtoindicatethereliabilityofanestimate.Itisanobservedinterval（i.e.itiscalculatedfromtheobservations）,inprincipledifferentfromsampletosample,thatfrequentlyincludestheparameterofinterestiftheexperimentisrepeated.Howfrequentlytheobservedintervalcontainstheparameterisdeterminedbytheconfideneelevelorconfideneecoefficient.Morespecifically,themeaningoftheterm"confidencelevel"isthat,ifconfidenceintervalsareconstructedacrossmanyseparatedataanalysesofrepeated（andpossiblydifferent）experiments,theproportionofsuchintervalsthatcontainthetruevalueoftheparameterwillmatchtheconfidencelevel;thisisguaranteedbythereasoningunderlyingtheconstructionofconfidenceintervals.[1][2][3]Whereastwo-sidedconfidencelimitsformaconfidenceinterval,theirone-sidedcounterpartsarereferredtoaslowerorupperconfidencebounds.

Keywords:

、弓丨言错误！

未定义书签。

二、置信区间的定义1

（一）置信区间的定义来源1

（二）置信区间的概念2

（三）置信区间估计种类3

三、置信区间求法及应用错误！

未定义书签。

（一）置信区间计算方法错误！

未定义书签。

（二）关于置信区间的宽窄错误！

未定义书签。

1•征税范围过窄错误！

未定义书签。

2•计税依据不统一错误！

未定义书签。

3.税率不合理错误！

未定义书签。

4•纳税单位（个人）对房产税纳税意识淡薄，偷逃税手段花样多。

错误！

未定义书

签。

四、置信区间的影响因素错误！

未定义书签。

（一）置信水平错误！

未定义书签。

1•置信水平概念错误！

未定义书签。

2•置信水平意义错误！

未定义书签。

3•置信水平对置信区间的影响错误！

未定义书签。

（二）样本数量7

1•样本容量的确定7

2•样本量对置信区间的影响7

（三）样本量对置信水平的影响8

五、错误！

未定义书签。

（一）错误！

未定义书签。

（二）错误！

未定义书签。

（三）错误！

未定义书签。

（四）错误！

未定义书签。

1错误！

未定义书签。

2错误！

未定义书签。

3错误！

未定义书签。

4错误！

未定义书签。

参考文献9

、引言

置信区间是指由样本统计量所构造的总体参数的估计区间。

在统计学中，一个概率样本的置信区间

（Confideneeinterval）是对这个样本的某个总体参数的区间估计。

置信区间展现的是这个参数的真

实值有一定概率落在测量结果的周围的程度。

置信区间给出的是被测量参数的测量值的可信程度，即前

面所要求的“一定概率”。

这个概率被称为置信水平。

举例来说，如果在一次大选中某人的支持率为55%

而置信水平0.95上的置信区间是（50%,60%，那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间，因此他的真实支持率不足一半的可能性小于百分之五。

如例子中一样，置信

水平一般用百分比表示，因此置信水平0.95上的置信空间也可以表达为：

95%置信区间。

置信区间的两

端被称为置信极限。

对一个给定情形的估计来说，置信水平越高，所对应的置信区间就会越大。

置信区间一般指做参数估计时，参数以多大的概率落在某个区间之内，此概率称为置信度，此区间

称为置信区间。

给定置信度后，置信区间一般不唯一，常见的做法是要求置信区间长度最小。

一般置信度取得比较大，因此，参数值落在置信区间外面的概率很小，一般可以认为是小概率事件，

从而说明参数落在置信区间内的概率很大，因此是“可以有理由相信”的。

、置信区间的定义

（一）置信区间的定义来源

在分析和解决实际问题时，要取得分析对象的全部数据是非常困难的，很多时候也是根本不能实现的比较可行的方法是从总体中抽取一定数量的样本，取得样本的测量数据，现通过样本数据对总体数据进行估计与分析•区间估计方法就是在已知样本状况时，估计总体值的可能区间的方法•

此类例子在实际中非常多，如要估计全国人口的平均身高，可在已取得一定量样本的情况下可以估计

出全国人口的的身高范围•要估计消费者对某产品的满意程度，可采取抽样调查方式取得一部分样本，再

根据此样本值估计出全部消费者和满意程度范围，一般这种估计要求有比较高的“可信程度”，如95%的

可信度•（过高的可信程度需要更多的样本，导致抽样成本增高）

参数的点估计是用样本算出的一个具体的数值去估计未知参数，便于计算和使用，但点估计值仅仅

是未知参数的一个近似值，它没有给出这个近似值的误差范围，使用起来把握不大•其精度如何点估计

本身不能回答，需要由其分布来反映。

实际中，度量一个点估计的精度的最直观的方法就是给出未知参数的一个区间，让我们能较大把握地（其程度可用概率来度量之）相信未知参数的真值被含在这个区间内。

例如，在估计某湖泊中鱼的数量的问题中，若根据一个实际样本，利用最大似然估计法估计出鱼

的数量为50000条，这种估计结果使用起来把握不大•实际上，鱼的数量的真值可能大于50000条，也

可能小于50000条•且可能偏差较大•

若能给出一个估计区间，让我们能较大把握地相信鱼的数量的真值被含在这个区间内，这样的估

计显然更有实用价值•

于是需要引入另一类估计即为区间估计，在区间估计理论中，被广泛接受的一种观点是置信区间，

这是1934年，由统计学家J.奈曼（Neymann）所创立的一种严格的区间估计理论。

在点估计的基础上，给出总体参数估计的一个区间范围，该区间由样本统计量加减抽样误差而得到

的。

根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量，称为置信

概率，置信度或置信水平•

习惯上把置信水平记作1-a,，这里a是一个很小的正数，称为显著水平。

比如，某班级平均分数在75〜85之间，置信水平是95%。

统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间。

用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含

总体参数的真值。

我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含

参数真值的区间中的一个。

（二）置信区间的概念

定义2.1若由总体X的样本X1,X2^Xn确定的两个统计量

二1=二1X1,X2^,Xn,

S十2X「X2，,Xn,牛J

则称弓门21为随机区间。

随机区间与常数区间a,b不同，其长度与在数轴上的位置与样本X1,X2^Xn有关。

当一旦获得样本值X1,X2,…Xn那么3「3X[,X2，…,Xn,^2=^2X1,X2/,Xn

都是常数，£门2为常数区间。

定义2.2设二是总体X的一个未知参数，若存在随机区间£门2】，对于给定的0：

：

•：

：

1，若满足

P口"：

：

71":

岂J=1—■■3

则称随机区间£,^1是二的置信水平（置信度）为1-:

•的双侧置信区间，称1-：

为置信度，[为

显著水平.

又分别称十与二2为二的双侧置信下限与双侧置信上限

注：

1.置信度1-〉的含义：

在随机抽样中，若重复抽样多次，得到样本X1,X2/,Xn的多个样本值

（X1，X2，…，Xn）,对应每个样本值都确定了一个置信区间再门2,每个这样的区间要么包含了二的真值，

要么不包含d的真值.根据伯努利大数定理，当抽样次数充分大时，这些区间中包含d的真值的频率接近于置信度（即概率）1Y-,即在这些区间中包含二的真值的区间大约有100（17：

）%个，不包含二的真值的区间大约有100%个.例如，若令1-0.95,重复抽样100次，则其中大约有95个区间包含二的真

值，大约有5个区间不包含v的真值.

2.置信区间3门2也是对未知参数二的一种估计，区间的长度意味着误差，故区间估计与点估计是互补的两种参数估计.

3.置信度与估计精度是一对矛盾.置信度1越大，置信区间片户2包含二的真值的概率就越大，但区间3门2的长度就越大，对未知参数二的估计精度就越差.反之，对参数二的估计精度越高，置信区间弓户2长度就越小，齐户2包含二的真值的概率就越低，置信度1-:

•越小.一般准则是：

在保证

置信度的条件下尽可能提高估计精度•

例如，通常可取显著水平:

-=0.025,0.05,0.1，等•即取置信水平1_〉=0.975或0.95，0.9等•

根据一个实际样本，由给定的置信水平，我们求出一个尽可能小的区间，使直月2】满足

P口"：

：

V"：

：

V2，1-:

由于正态随机变量广泛存在，特别是很多产品的指标服从正态分布，我们重点研究一个正态总体情形数

学期望」和方差；「2的区间估计。

设X,,X2

对于任意给定的:

，我们的任务是通过样本寻找一个区间，它以1-：

的概率包含总体X的数学期

望」。

对已知的置信概率（置信度），根据样本观测值来确定未知参数X的置信区间，称为参数X的置信

区间估计。

在（1-<-）100%的置信度下，总体的均值会落在置信区间范围内。

由样本统计量所构造的总体参数的估计区间称为置信区间，置信区间又称估计区间，是用来估计参

数的取值范围的。

常见的52%—64%，或8-12,就是置信区间（估计区间）。

1、对于具有特定的发生概率的随机变量，其特定的价值区间：

一个确定的数值范围（一个区间”）。

2、在一定置信水平时，

以测量结果为中心，包括总体均值在内的可信范围。

3、该区间包含了参数瞋值的可信程度。

4、参

数的置信区间可以通过点估计量构造，也可以通过假设检验构造。

（三）置信区间估计种类

置信区间估计分为：

1、对正态总体均值J的区间估计。

即已知样本的平均值，用样本均值估计总体均值在特定置信度下的置信区间。

1）已知样本标准差等于总体标准差

2）未知总体标准差

2、对正态总体方差c2的区间估计。

即已知样本的标准差，用样本标准差估计总体标准差在一定置信度下的置信区间。

1）已知样本均值于总体均值

2）未知总体标准差

3、对两个正态总体均值差的区间估计

1）已知两个总体标准差

2）未知总体标准差，但假设匚1，其中匚1与二2分别为两个正态分布的总体标准差

4、对两个正态总体方差比的区间估计。

1）已知两个总体的均值

2）未知总体均值

置信区间为100%弋表什么？

置信区间值的范围，源自样本统计量，可能包含未知总体参数的值。

由

于它们的随机性，来自给定总体的两个样本一般不可能生成相同的置信区间。

但是如果将样本重复许多

次，则所获得的特定百分比的置信区间会包含未知的总体参数。

这些包含参数的置信区间的百分比是区

间的置信水平。

例如，假设您想知道汽车装配线完成一辆车所需的平均时间。

您抽取一个完工汽车的样本，记录它

们在装配线上所用的时间，然后使用单样本t过程获得一个所有汽车在装配线上所用平均时间量的95%

置信区间。

由于从所有可能的样本构造的置信区间中有95%的置信区间会包含总体参数，因而可以断

定所有汽车在装配线上所用平均时间量将落在区间端点之间，这些端点称为区间限。

创建置信区间类似于向一个具有未知但固定位置的目标撒网。

95%置信区间表明来自同一总体的20个样本中有19个（95%）会生成包含总体参数的置信区

间。

置信区间为100%表示所有点都落在该区间内。

三、置信区间求法及应用

（1）置信区间计算方法

寻求置信区间的基本思想：

在点估计的基础上，构造合适的函数，并针对给定的置信度导出置信

区间•

置信区间是按下列三步计算出来的：

第一步：

求一个样本的均值。

第二步：

计算出抽样误差。

人们经过实践，通常认为调查：

100个样本的抽样误差为土10%

500个样本的抽样误差为土5%

1,200个样本时的抽样误差为土3%

第三步：

用第一步求出的“样本均值”加、减第二步计算的“抽样误差”，得出置信区间的两个端

点。

对于给定的置信水平，根据Z的分布，确定一个区间，使得Z取值于该区间的概率为置信水平•

对给定的置信水平1-:

•，查正态分布表得Z-显，使

；X-卩[

jo-/Vn

从中解得：

P叹一害Z述兰卩兰

.In7nJ

于是所求」的置信区间为

求置信区间的一般步骤

（1）选取未知参数v的某个较优估计量彳；

（2）围绕?

构造一个依赖于样本与参数二的函数

U=U（X「X2，…，XnP）；

⑶对给定的置信水平1-<-，确定、与'2,使

P{!

_U_'2}=1八,

这可由分位数表查得

通常可选取满足P{u_、}=P{u_.；.2}的，勺与'2，在常用分布情况下

（4）对不等式作恒等变形后化为

pR"：

：

八：

七―—:

•，

则K,R就是二的置信度为1-：

的双侧置信区间。

此时可用c2

设总体X~N（.1,；「2）,其中」，；「2未知，X1,X2，…，Xn是取自总体X的一个样本•的无偏估计S2代替匚2,构造统计量

X—4

"S/n，

从定理知

=X」~t（n-1）.

S/.n

对给定的置信水平

X-

-t./2（n-1）t一./2（n-1）

、°S'n

P』X-Sn—1）

石＜卩拦％2

（2）真因此，均值」的1一〉置信区间为

X—也（n—1）孚,X%2（n-1）弓）

和5In丿

（二）关于置信区间的宽窄

窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息。

假设全班考试的平均分数为65分，则：

置信区间

间隔

宽窄度

表达的意思

0-100分

100

宽

等于什么也没告诉你

30-80分

较窄

你能估出大概的平均分了（55分）

60-70分

窄

你几乎能判定全班的平均分了（65分）

四、置信区间的影响因素

（一）置信水平a

1•置信水平的概念

置信系数是区间估计理论中最为基本的概念。

奈曼以概率的频率解释为出发点，认为被估计的二是一未知但确定的量，而样本X是随机的。

区间

A（X）,B（X）是否真包含待估计的二，取决于所抽得的样本X。

因此，区间l-A（X）,B（X）1只能以一定

的概率包含未知的二。

对于不同的二，二

（二）之值可以不同，二

（二）对不同的二取的最小值1-:

（0：

：

「：

：

1）称为区间A（X）,B（X）的置信系数。

与此相应，区间〔A（X）,B（X）1称为二的一个置信区间。

这个名词在直观上可以理解为：

对于区间A（X）,B（X）包含二”这个推断，可以给予一定程度的

相信，其程度则由置信系数表示。

对二的上、下限估计有类似的概念，以下限为例，称A（X）为二的一个置信下限，若一旦有了样本

X，就认为二不小于A（X），或者说，把二估计在无穷区间内。

”二不小于A（X）"这论断正

确的概率为八二（刃对不同的二取的最小值1_:

（0：

：

〉：

：

1）称为置信下限A（X）的置信系数。

在数理统计中，常称不超过置信系数的任何非负数为置信水平。

置信水平Confideneelevel

置信水平表示样本统计值的精确度，它是指总体参数值落在样本统计值某一区内的概率；而置信区

间是指在某一置信水平下，样本统计值与总体参数值间误差范围。

置信区间越大，置信水平越高。

比如置信区间为[a,b]

位置参数落在该区间的概率就是置信度1-a

而显著性水平就是落在区间外面的概率。

置信区间越大，落在区间内的概率越大，置信水平就越高。

通常，当我们要想利用一组样本获得某个趋势时（为简单起见假设是线性趋势），斜率和截距是未

知参数，我们只能得到未知参数的点估计值，即斜率和截距的近似值，没有给出这个近似值的误差范围，

而置信区间就是要得到参数以某个置信度1-a（就是可能性）落入的区间。

置信区间的中心是点估计值。

置信水平讲的是落在置信区间可能性。

需要指出的是，对同一个参数，给定样本，给定置信水平，置信区间也不是唯一的。

一个置信水

平对应（即可找到）多个（无数）置信区间，一个置信区间只有一个置信水平。

关键是对一个置信水平找最窄置信区间。

置信水平的大小是根据实际需要选定的。

真实数据往往是实际上不能获知的，我们只能进行估计，估计的结果是给出一对数据，比如从1

到1.5，真实的值落在1到1.5之间的可能性是95%（也有5%勺可能性在这区间之外的）。

区间是由抽样的数据根据大样定律结合查表得来的。

区间越小精度越高，区间越大置信度越高。

比如猜这个女孩的

年龄，你给出区间是20-25，这个区间很小置信度很低但精度就很高，你说在8岁到80岁之间，那是

百分百的置信度了不过精度太低毫无意义。

95%勺置信度是一般通用的。

2•置信水平的意义

在置信区间为99%，阿尔法取1.5的情况下是什么意思？

首先应该明确的是“置信区间”是一个区间，一个范围。

某件随机变量的值落在这个取值范围内的概率（可能性）是“置信水平”。

而置信水平=1-「显著

性水平。

其中，显著性水平=“阿尔法”（通常是一个微大于0的百分比，女口5%10%）。

通常，人们预先给自己一个心理承受能力，最先人为地设定比如“阿尔法”=5%那么接下来人们

想寻找某随机变量落在哪个范围内的可能性是1-5%=95%换句话说，一旦置信区间确定，那么我们可

以认为某随机变量有95%勺会取值于该置信区间。

置信水平是指总体参数值落在样本统计值某一区内的概率，置信区间越大，置信水平不就越高吗？

通俗点讲的话，置信水平即是指可靠度，也就是表征一个结论的正确程度，置信水平越高，结论越可靠。

放在置信区间上来讲，置信水平表征实际值落在置信区间的概率，显然置信区间越大，落在置信

区间的概率越大，则置信水平越高。

注意置信度和置信水平的不同点，先有置信度才有置信区间，也就是先要给出置信度，我们才能求

置信区间，因为不同的置信度，置信区间是一定不同的；而先有置信区间，才能有置信水平，只有先要求出或给出置信区间，我们才能求对应的置信水平。

置信度不就是置信水平的别名么？

这个怎么理解呢？

置信度不是置信水平，由于做区间估计时，我们估计的是一个区间，而实际情况真值肯定是个常数，

不可能是一个区间，所以为了说明我们估计的准确程度，需要提供一个评定标准，这样就引出了置信度。

假如我们说置信度是0.05，即是说，真值落在我们估计区间之外的概率是0.05，显然，置信度越高，

真值落在我们估计区间之内的概率就应该越大，这时只有把置信区间取大，才能保证真值落在估计区间

之内的概率增大。

即置信度越高，置信区间越大。

此时置信水平就指真值落在我们估计区间之内的概率，正好是1减去置信度。

注意置信度和置信水平都是表征估计准确程度的参数，所以置信度越高指置信度数值越小，置信水

平越大，置信水平数值越大。

3•置信水平对置信区间的影响

置信水平对置信区间的影响：

在样本量相同的情况下，置信水平越高，置信区间越宽。

举例说明：

美国做了一项对总统工作满意度的调查。

在调查抽取的1,200人中，有60%的人赞扬

了总统的工作，抽样误差为土3%，置信水平为95%;如果将抽样误差减少为土2.3%，置信水平降到为90%。

则两组数字的情况比较如下：

抽样误差置信水平

±3%95%60

±2.3%90%60

由上表得出：

置信区间间隔宽窄度

%±3%=57%-63%6

展开阅读全文