置信区间的影响因素分析.docx-资源下载

置信区间的影响因素分析.docx

1、置信区间的影响因素分析山东财经大学本科毕业论文（设计）题目影响置信区间宽窄因素的分析学院数学与数量经济学院专业数学与应用数学班级 00000000000000 学号 0000000000 姓名 000000 指导教师 000000 山东财经大学教务处制二O二年五月山东财经大学学士学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体，均已在论文中作了明确的说明并表示了谢意。本声明的法律结果由本人承担。学位论文作

2、者签名： 00000 2013 年_0月 _08_ 日山东财经大学关于论文使用授权的说明本人完全了解山东财经大学有关保留、使用学士学位论文的规定，即：学校有权保留、送交论文的复印件，允许论文被查阅，学校可以公布论文的全部或部分内容，可以采用影印或其他复制手段保存论文。2013年_04月08日指导教师签名： 0000000 论文作者签名： 00000002013年04月08日影响置信区间宽窄因素的分析摘要在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度，置信区间给出的是被测量参数的测量值的可信程度，

3、即前面所要求的“一定概率”，这个概率被称为置信水平。置信水平一般用百分比表示，因此置信水平 0.95上的置信区间也可以表达为：95汕信区间。置信区间的两端被称为置信极限。影响置信区间宽度的因素：样本平均数，要求的置信水平，样本标准差，样本容量。对一个给定情形的估计来说，其他因素不变，置信水平越高，置信区间宽度越长；其他因素不变，样本量越多，置信区间宽度越短。关键词：置信区间；因素；In statistics, a con fide nee in terval (Cl) is a type of in terval estimate of a population parameter a

4、nd is used to indicate the reliability of an estimate. It is an observed interval (i.e. it is calculated from the observations), in principle differe nt from sample to sample, that freque ntly in cludes the parameter of in terest if the experime nt is repeated. How freque ntly the observed in terval

5、 contains the parameter is determ ined by the con fide nee level or con fide nee coefficient. More specifically, the meaning of the term confidence level is that, if con fide nce in tervals are con structed across many separate data an alyses of repeated (and possibly differe nt) experime nts, the p

6、roporti on of such in tervals that contain the true value of the parameter will match the con fide nce level; this is guara nteed by the reas oning un derly ing the con structi on of con fide nce in tervals.123 Whereas two-sided con fide nce limits form a con fide nce in terval, their on e-sided cou

7、n terparts are referred to as lower or upper con fide nce boun ds.Keywords:、弓丨言错误！未定义书签。二、置信区间的定义 1（一）置信区间的定义来源 1（二）置信区间的概念 2（三）置信区间估计种类 3三、置信区间求法及应用错误！未定义书签。（一）置信区间计算方法错误！未定义书签。（二）关于置信区间的宽窄错误！未定义书签。1征税范围过窄错误！未定义书签。2计税依据不统一错误！未定义书签。3.税率不合理错误！未定义书签。4纳税单位（个人）对房产税纳税意识淡薄，偷逃税手段花样多。错误！未定义

8、书签。四、置信区间的影响因素错误！未定义书签。（一）置信水平错误！未定义书签。1置信水平概念错误！未定义书签。2置信水平意义错误！未定义书签。3置信水平对置信区间的影响错误！未定义书签。（二）样本数量 71 样本容量的确定 72样本量对置信区间的影响 7（三）样本量对置信水平的影响 8五、错误！未定义书签。（一）错误！未定义书签。（二）错误！未定义书签。（三）错误！未定义书签。（四）错误！未定义书签。1 错误！未定义书签。2 错误！未定义书签。3 错误！未定义书签。4 错误！未定义书签。参考文献 9、引言置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学

9、中，一个概率样本的置信区间（Con fide nee in terval ）是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说，如果在一次大选中某人的支持率为 55%而置信水平0.95上的置信区间是（50%,60%，那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间，因此他的真实支持率不足一半的可能性小于百分之五。如例子中一样，置信水平一般用百分比表示，因此置信水平0.95上的置信空间也可以表达为： 95%

10、置信区间。置信区间的两端被称为置信极限。对一个给定情形的估计来说，置信水平越高，所对应的置信区间就会越大。置信区间一般指做参数估计时，参数以多大的概率落在某个区间之内，此概率称为置信度，此区间称为置信区间。给定置信度后，置信区间一般不唯一，常见的做法是要求置信区间长度最小。一般置信度取得比较大，因此，参数值落在置信区间外面的概率很小，一般可以认为是小概率事件，从而说明参数落在置信区间内的概率很大，因此是“可以有理由相信”的。、置信区间的定义（一）置信区间的定义来源在分析和解决实际问题时，要取得分析对象的全部数据是非常困难的，很多时候也是根本不能实现的比较可行的方法是从总体中抽取一

11、定数量的样本，取得样本的测量数据，现通过样本数据对总体数据进行估计与分析区间估计方法就是在已知样本状况时，估计总体值的可能区间的方法此类例子在实际中非常多，如要估计全国人口的平均身高，可在已取得一定量样本的情况下可以估计出全国人口的的身高范围要估计消费者对某产品的满意程度，可采取抽样调查方式取得一部分样本，再根据此样本值估计出全部消费者和满意程度范围，一般这种估计要求有比较高的“可信程度” ，如95%的可信度（过高的可信程度需要更多的样本，导致抽样成本增高）参数的点估计是用样本算出的一个具体的数值去估计未知参数，便于计算和使用，但点估计值仅仅是未知参数的一个近似值，它没有给出这个

12、近似值的误差范围，使用起来把握不大其精度如何点估计本身不能回答，需要由其分布来反映。实际中，度量一个点估计的精度的最直观的方法就是给出未知参数的一个区间，让我们能较大把握地（其程度可用概率来度量之）相信未知参数的真值被含在这个区间内。例如，在估计某湖泊中鱼的数量的问题中，若根据一个实际样本，利用最大似然估计法估计出鱼的数量为50000条，这种估计结果使用起来把握不大实际上，鱼的数量的真值可能大于 50000条，也可能小于50000条且可能偏差较大若能给出一个估计区间，让我们能较大把握地相信鱼的数量的真值被含在这个区间内，这样的估计显然更有实用价值于是需要引入另一类估计即为区间估计

13、，在区间估计理论中，被广泛接受的一种观点是置信区间，这是1934年，由统计学家J.奈曼（Neymann）所创立的一种严格的区间估计理论。在点估计的基础上，给出总体参数估计的一个区间范围，该区间由样本统计量加减抽样误差而得到的。根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量，称为置信概率，置信度或置信水平习惯上把置信水平记作1-a ,，这里a是一个很小的正数，称为显著水平。比如，某班级平均分数在 7585之间，置信水平是95%。统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间。用一个具体的样本所构造的区间是一个特定的区间，我们无法

14、知道这个样本所产生的区间是否包含总体参数的真值。我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个。（二）置信区间的概念定义2.1若由总体X的样本X1,X2 Xn确定的两个统计量二1 =二 1 X1, X2 , Xn ,S 十2 XX2，,Xn ,牛 J则称弓门2 1为随机区间。随机区间与常数区间 a,b不同，其长度与在数轴上的位置与样本 X1,X2 Xn有关。当一旦获得样本值 X1,X2,Xn 那么 33 X,X2，,Xn , 2=2 X1, X2/ ,Xn都是常数，门2为常数区间。定义2.2设二是总体X的一个未知参数，若存在随机区

15、间门2】，对于给定的0 ：：： 1，若满足P 口： 71 :岂 J = 1 3则称随机区间 ,1是二的置信水平（置信度）为1 - :的双侧置信区间，称1 -：为置信度，为显著水平.又分别称十与二2为二的双侧置信下限与双侧置信上限注：1.置信度1 -的含义：在随机抽样中，若重复抽样多次，得到样本X1,X2/ ,Xn的多个样本值（X1，X2，Xn）,对应每个样本值都确定了一个置信区间再门2 ,每个这样的区间要么包含了二的真值，要么不包含d的真值.根据伯努利大数定理，当抽样次数充分大时，这些区间中包含d的真值的频率接近于置信度（即概率）1Y-,即在这些区间中包含二的真值的区间大约有

16、100（17：）%个，不包含二的真值的区间大约有100 %个.例如，若令1 -0.95,重复抽样100次，则其中大约有95个区间包含二的真值，大约有5个区间不包含v的真值.2.置信区间 3门2也是对未知参数二的一种估计，区间的长度意味着误差，故区间估计与点估计是互补的两种参数估计.3.置信度与估计精度是一对矛盾 .置信度1 越大，置信区间片户2包含二的真值的概率就越大，但区间3门2的长度就越大，对未知参数二的估计精度就越差.反之，对参数二的估计精度越高，置信区间弓户2长度就越小，齐户2包含二的真值的概率就越低，置信度1 -:越小.一般准则是：在保证置信度的条件下尽可能提高估计精度

17、例如，通常可取显著水平 :-=0.025,0.05,0.1，等即取置信水平1_= 0.975或0.95，0.9等根据一个实际样本，由给定的置信水平，我们求出一个尽可能小的区间，使直月2】满足P 口： V ： V2，1 -:-由于正态随机变量广泛存在，特别是很多产品的指标服从正态分布，我们重点研究一个正态总体情形数学期望和方差；2的区间估计。设X,X2 Xn为总体X N，匚2的样本，X、S2分别是样本均值和样本方差。对于任意给定的:，我们的任务是通过样本寻找一个区间，它以1-：的概率包含总体 X的数学期望。对已知的置信概率（置信度），根据样本观测值来确定未知参数 X的置信区

18、间，称为参数 X的置信区间估计。在（1 -）100 %的置信度下，总体的均值会落在置信区间范围内。由样本统计量所构造的总体参数的估计区间称为置信区间，置信区间又称估计区间，是用来估计参数的取值范围的。常见的 52% 64%，或8- 12,就是置信区间（估计区间）。1、对于具有特定的发生概率的随机变量，其特定的价值区间：一个确定的数值范围（一个区间”）。2、在一定置信水平时，以测量结果为中心，包括总体均值在内的可信范围。 3、该区间包含了参数瞋值的可信程度。 4、参数的置信区间可以通过点估计量构造，也可以通过假设检验构造。（三）置信区间估计种类置信区间估计分为：1、对正态总体均值 J

19、的区间估计。即已知样本的平均值，用样本均值估计总体均值在特定置信度下的置信区间。1）已知样本标准差等于总体标准差2）未知总体标准差2、对正态总体方差 c2的区间估计。即已知样本的标准差，用样本标准差估计总体标准差在一定置信度下的置信区间。1）已知样本均值于总体均值2）未知总体标准差3、对两个正态总体均值差的区间估计1）已知两个总体标准差2）未知总体标准差，但假设匚1 ，其中匚1与二2分别为两个正态分布的总体标准差4、对两个正态总体方差比的区间估计。1）已知两个总体的均值2）未知总体均值置信区间为100%弋表什么？置信区间值的范围，源自样本统计量，可能包含未知总体

20、参数的值。由于它们的随机性，来自给定总体的两个样本一般不可能生成相同的置信区间。但是如果将样本重复许多次，则所获得的特定百分比的置信区间会包含未知的总体参数。这些包含参数的置信区间的百分比是区间的置信水平。例如，假设您想知道汽车装配线完成一辆车所需的平均时间。您抽取一个完工汽车的样本，记录它们在装配线上所用的时间，然后使用单样本 t过程获得一个所有汽车在装配线上所用平均时间量的 95%置信区间。由于从所有可能的样本构造的置信区间中有 95%的置信区间会包含总体参数，因而可以断定所有汽车在装配线上所用平均时间量将落在区间端点之间，这些端点称为区间限。创建置信区间类似于向一个具有未知但固

21、定位置的目标撒网。95%置信区间表明来自同一总体的 20个样本中有19个(95%)会生成包含总体参数的置信区间。置信区间为100%表示所有点都落在该区间内。三、置信区间求法及应用(1)置信区间计算方法寻求置信区间的基本思想：在点估计的基础上，构造合适的函数，并针对给定的置信度导出置信区间置信区间是按下列三步计算出来的：第一步：求一个样本的均值。第二步：计算出抽样误差。人们经过实践，通常认为调查：100个样本的抽样误差为土 10%500个样本的抽样误差为土 5%1,200个样本时的抽样误差为土 3%第三步：用第一步求出的“样本均值”加、减第二步计算的“抽样误差” ，得出置信区间的两个端点。对

22、于给定的置信水平，根据Z的分布，确定一个区间，使得Z取值于该区间的概率为置信水平对给定的置信水平1 - :，查正态分布表得Z-显，使；X -卩 jo-/ V n从中解得：P叹一害Z述兰卩兰. In 7n J于是所求的置信区间为求置信区间的一般步骤(1)选取未知参数v的某个较优估计量彳；(2)围绕?构造一个依赖于样本与参数二的函数U =U(XX2，XnP)；对给定的置信水平1 -，确定、与2,使P ! _U _ 2 =1 八,这可由分位数表查得通常可选取满足 Pu _、 = P u _ .；.2 的，勺与2，在常用分布情况下2(4)对不等式作恒等变形后化为pR ：八：七:，则K,R就是二的置

23、信度为1-：的双侧置信区间。此时可用c2设总体XN(.1,；2),其中，；2未知，X1,X2，Xn是取自总体X的一个样本的无偏估计S2代替匚2,构造统计量X4S/ n，从定理知=Xt(n -1).S/ . n对给定的置信水平X -t ./2(n -1) t一./2(n -1)、 SnPX -Sn1)S S石卩拦2(2)真因此，均值的1 一置信区间为X也(n1)孚,X%2(n-1)弓)和5 In丿(二)关于置信区间的宽窄窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息。假设全班考试的平均分数为 65分，则：置信区间间隔宽窄度表达的意思0- 100 分100宽等于什么也没告诉你30

24、 - 80分50较窄你能估出大概的平均分了( 55分)60 - 70分10窄你几乎能判定全班的平均分了( 65分)四、置信区间的影响因素(一)置信水平a1置信水平的概念置信系数是区间估计理论中最为基本的概念。奈曼以概率的频率解释为出发点，认为被估计的二是一未知但确定的量，而样本 X是随机的。区间A(X),B(X)是否真包含待估计的二，取决于所抽得的样本X。因此，区间l-A(X),B(X) 1只能以一定的概率包含未知的二。对于不同的二，二(二)之值可以不同，二(二)对不同的二取的最小值1 -:(0：1 )称为区间 A(X), B(X) 的置信系数。与此相应，区间A(X), B(X)

25、1称为二的一个置信区间。这个名词在直观上可以理解为：对于区间A(X), B(X)包含二”这个推断，可以给予一定程度的相信，其程度则由置信系数表示。对二的上、下限估计有类似的概念，以下限为例，称 A(X )为二的一个置信下限，若一旦有了样本X，就认为二不小于A（X），或者说，把二估计在无穷区间内。”二不小于A（X）这论断正确的概率为八二（刃对不同的二取的最小值1 _ : （ 0：1 ）称为置信下限 A（X）的置信系数。在数理统计中，常称不超过置信系数的任何非负数为置信水平。置信水平 Con fide nee level置信水平表示样本统计值的精确度，它是指总体参数值落在样本统计值某一区

26、内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。比如置信区间为a,b位置参数落在该区间的概率就是置信度 1-a而显著性水平就是落在区间外面的概率。置信区间越大，落在区间内的概率越大，置信水平就越高。通常，当我们要想利用一组样本获得某个趋势时（为简单起见假设是线性趋势），斜率和截距是未知参数，我们只能得到未知参数的点估计值，即斜率和截距的近似值，没有给出这个近似值的误差范围，而置信区间就是要得到参数以某个置信度 1-a （就是可能性）落入的区间。置信区间的中心是点估计值。置信水平讲的是落在置信区间可能性。需要指出的是，对同一个参数，

27、给定样本，给定置信水平，置信区间也不是唯一的。一个置信水平对应（即可找到）多个（无数）置信区间，一个置信区间只有一个置信水平。关键是对一个置信水平找最窄置信区间。置信水平的大小是根据实际需要选定的。真实数据往往是实际上不能获知的，我们只能进行估计，估计的结果是给出一对数据，比如从 1到1.5，真实的值落在1到1.5之间的可能性是 95% （也有5%勺可能性在这区间之外的）。区间是由抽样的数据根据大样定律结合查表得来的。区间越小精度越高，区间越大置信度越高。比如猜这个女孩的年龄，你给出区间是 20-25，这个区间很小置信度很低但精度就很高，你说在 8岁到80岁之间，那是百分百的置信度了不过

28、精度太低毫无意义。 95%勺置信度是一般通用的。2置信水平的意义在置信区间为99%，阿尔法取1.5的情况下是什么意思？首先应该明确的是“置信区间”是一个区间，一个范围。某件随机变量的值落在这个取值范围内的概率（可能性）是“置信水平” 。而置信水平=1-显著性水平。其中，显著性水平 =“阿尔法”（通常是一个微大于 0的百分比，女口 5% 10%）。通常，人们预先给自己一个心理承受能力，最先人为地设定比如“阿尔法” =5%那么接下来人们想寻找某随机变量落在哪个范围内的可能性是 1-5%=95%换句话说，一旦置信区间确定，那么我们可以认为某随机变量有 95%勺会取值于该置信区间。置信水平是指总体参数

29、值落在样本统计值某一区内的概率，置信区间越大，置信水平不就越高吗？通俗点讲的话，置信水平即是指可靠度，也就是表征一个结论的正确程度，置信水平越高，结论越可靠。放在置信区间上来讲，置信水平表征实际值落在置信区间的概率，显然置信区间越大，落在置信区间的概率越大，则置信水平越高。注意置信度和置信水平的不同点，先有置信度才有置信区间，也就是先要给出置信度，我们才能求置信区间，因为不同的置信度，置信区间是一定不同的；而先有置信区间，才能有置信水平，只有先要求出或给出置信区间，我们才能求对应的置信水平。置信度不就是置信水平的别名么？这个怎么理解呢？置信度不是置信水平，由于做区间估计时，我

30、们估计的是一个区间，而实际情况真值肯定是个常数，不可能是一个区间，所以为了说明我们估计的准确程度，需要提供一个评定标准，这样就引出了置信度。假如我们说置信度是 0.05，即是说，真值落在我们估计区间之外的概率是 0.05，显然，置信度越高，真值落在我们估计区间之内的概率就应该越大，这时只有把置信区间取大，才能保证真值落在估计区间之内的概率增大。即置信度越高，置信区间越大。此时置信水平就指真值落在我们估计区间之内的概率，正好是 1减去置信度。注意置信度和置信水平都是表征估计准确程度的参数，所以置信度越高指置信度数值越小，置信水平越大，置信水平数值越大。3置信水平对置信区间的影响置信水平对置信区间的影响：在样本量相同的情况下，置信水平越高，置信区间越宽。举例说明：美国做了一项对总统工作满意度的调查。在调查抽取的 1,200人中，有60%的人赞扬了总统的工作，抽样误差为土 3%，置信水平为 95%;如果将抽样误差减少为土 2.3 %，置信水平降到为90%。则两组数字的情况比较如下：抽样误差置信水平 3 % 95 % 60 2.3 % 90 % 60由上表得出：置信区间间隔宽窄度% 3%= 57%-63 % 6

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？