第2122课翻译统计1107杨凯翔精品文档14页.docx

资源描述

第2122课翻译统计1107杨凯翔精品文档14页.docx

《第2122课翻译统计1107杨凯翔精品文档14页.docx》由会员分享，可在线阅读，更多相关《第2122课翻译统计1107杨凯翔精品文档14页.docx（8页珍藏版）》请在冰豆网上搜索。

第2122课翻译统计1107杨凯翔精品文档14页.docx

第2122课翻译统计1107杨凯翔精品文档14页

STA333第21章

教师范读的是阅读教学中不可缺少的部分，我常采用范读，让幼儿学习、模仿。

如领读，我读一句，让幼儿读一句，边读边记；第二通读，我大声读，我大声读，幼儿小声读，边学边仿；第三赏读，我借用录好配朗读磁带，一边放录音，一边幼儿反复倾听，在反复倾听中体验、品味。

自助法求置信区间（第一部分）

教师范读的是阅读教学中不可缺少的部分，我常采用范读，让幼儿学习、模仿。

21.1准备阶段：

理论误差的概念

教师范读的是阅读教学中不可缺少的部分，我常采用范读，让幼儿学习、模仿。

自助法的基本用法之一是对总体参数寻求置信区间，在传统的统计学中需要作假设时，一般而言的方法是固定的，但是如果我们遇到通常的假设被违背的情况时，我们会去尝试估计一些非典型参数，自主化程序可以提供给我们一个对象于参数非参数化的构建置信区间的方法。

我在上一节提到过用自助法分布估计实际的样本分布是我们在统计学中正在使用的。

那么，打个比方说，我们可以使用自助分布检验正态性。

如果样本分布出现正态性并且以实际参数为中心，我们可以使用自助化标准误差计算t分布置信区间。

所以，得出结论我们用自助法检验样本分布中心化的表达式和拓展。

关于这个结论，自助法不能显示中心化方向，但可显示误差。

所谓误差。

一项估计参数是否有偏及样本分布能反映被估计的真实参数的指标，统计资料的误差表达式：

误差=样本分布均值—参数真实值

当然，我们不知道参数真实值，所以不能直接计算误差，但自助法提供允许我们检验误差的方法，观测自助化分布统计量是否中心化于原始随机样本的统计量，自助法估计误差如下：

自助法估计误差=自助化分布均值—原始数据统计量

◆正态分布使用样本均值的例子。

众所周知，样本均值⎺x总体均值μ来说是无偏估计，实际误差为0，举个例子，使用一些随机生成的正态分布数据检验自助法的使用。

具体步骤：

1.从一个均值，标准差分别为μ=22,σ=5的正态分布中随机生成一个n=50的样本。

2.计算样本均值

。

3.在这个样本中生成1000个自助法样本，计算每个自助法样本的均值。

4.从这个自助法分布中求

，使用前面讲的一般方法计算估计误差

运行下面程序：

运行R程序后，得到的估计误差是0.00497,。

重复多做几次，观察得到的结果，由于重复取样，你会得到不同的答案，但应该都接近于0，下图告诉你原因

不知其他的统计量是否符合？

让我们检验上章中西雅图房屋问题这一例子的中位数估计误差。

◆西雅图实际房屋价格。

我们对西雅图房屋拥有权感兴趣。

不巧的是，从市税务局得到的数据不能很好的区分房屋和商业使用权，由此，我们想知道房屋销售价格的中位数（记住数据在R工作区里的seattlerealestate2019中。

）下面估计使用样本中位数估计中位数真实值的误差。

我得到了估计误差为-3.9995。

多运行几次，你可以清楚地看到使用中位数的系统误差，样本分布低估实际总体中位数产生的误差，下图清楚地显示了，由此，一个合适的置信区间可以使用自助法来弥补估计产生的误差，不久我们就能看到。

21.2主要自助法置信区间

在传统的（参数）统计学中，一旦你找到样本分布统计量，那么均值的置信区间也会随之确定，一旦你找到了方法，通过找到合适的样本分布中2.5%，97.5%分位点，就可以确定95%置信区间上下限，右图可以说明这点：

然后可以计算出固定的置信区间，比如⎺x±t0.025*s/√n。

如何找到非参数置信区间呢？

当然，原理本质上相同，除非我们用自助法分布作为估计样本分布的统计量，一旦我们找到自助化分布2.5%和97.5%分位点，我们也就找到了参数95%置信区间，这个区间类型称作自助化百分比置信区间，容易用R中quantile（）功能得到。

过一小会儿，建立在R上常规自助法自动计算出自助法置信区间，通过R编码，我们也来实现。

◆使用均值正态分布的例子，找到一个使用模拟数据的总体均值95%置信区间，下面的事情已知：

1.从均值μ=22,标准差σ=5的正态总体中随机抽出50个观测值，找到实际均值为2，希望他在我们的置信区间中。

2.对于总体均值μ，⎺x是其无偏估计量，我们不需要担心误差影响置信区间的结果。

3.当正态假设出现而且我们使用的估计值无偏，就可以使用T统计量的置信区间发现自助化结果与一般参数估计结果是否一致、

以下是运行程序：

得到（19.95,22.44）作为μ的95%非参数自助法置信区间，将它与来自于固定的x±t0.025*s/√nT统计量置信区间作对比，容易得到t.text（）:

覆盖在R输出窗口的是95%参数置信区间的结果（19.92,22.57），可以看出参数与非参数结果是一致的。

◆西雅图实际房屋价格。

可以找到西雅图2019年房屋销售价格中位数的95%自助化百分比置信区间。

使用这种方法，可以得到95%置信度下西雅图2019年房屋所有权销售价格中位数，

小贴士：

1.在最后的例子中，尝试使用t统计量及自助法找到均值95%置信区间，比较结果并得出结论。

2.我们可以提高置信区间的结果，如何？

知道中位数是有偏的，我们的方法不能计算这些误差，下一章我们会了解到一种使用自助法估计误差的方法。

3.R加入了一个boot程序包可以操作许多类别的自助法问题以及自动计算自助法置信区间，下一节我会使用boot程序包重新解决西雅图房地产问题。

◆举例：

西雅图实际房屋价格。

在这一部分，我重做这个问题，与之前不同，我需要使用boot程序包，下面代码在课堂上讨论。

原始样本数据中位数为244.925，估计误差是-4.305，这一例子中自助法分布是16.27.

我们现在寻找95%自助法百分比置信区间的中位数，这一步的完成需要通过boot程序包中的boot.ci（）功能。

得到的95%的置信区间是（213.2,266.0）。

◆

我们将在下一章了解更多，伴随着不同的问题以及使用多种不同的统计学方法，同时，以下的内容仅供参考：

1.检索help页面，找到boot。

2.访问

3.访问http:

//www.mayin.org/ajayshah/KB/R/documents/boot.html网站，可以找到boot程序包一些详细资料。

本章练习：

记录一个300位顾客的随机样本工作日中午在市区ColubusChippotle餐厅等待时间，在R中的waittime.Rdata.

1.找到并说明工作日中午在市区ColubusChippotle餐厅等待时间实际均值95%自助法置信区间。

2.重复问题1，使用R软件boot程序包。

3.回顾第20章课后练习题，经过自助化处理的样本分布均值出现相对正态性，除了在尾部的一点不符，因为这样，找到工作日中午在市区ColubusChippotle餐厅等待时间的95%t分布置信区间，看看传统方法的结果与来自问题1的自助法置信区间有什么不同？

4.找到并说明对于工作日中午在市区ColubusChippotle餐厅等待时间的中位数95%的自助法置信区间，估计误差并讨论，这个置信区间如何不同于问题1得到的均值？

你能解释一下不同为什么存在吗？

STA333第22章

自助法求置信区间（第二部分）

22.1优良的自助法置信区间：

快速修正误差的区间

在练习中没有找到可以获得精确置信水平的置信区间的方法，当你估计该假设为什么时，会讲，一个90%置信区间，你所使用的方法能获得实际参数的概率是很低的，说成87%，或是5%，一个方法会在一些情况下错过3%的时间，7%用在其他地方，得到实际参数的有偏图像。

准确的说，在一个特定环境下，精确的得到90%置信区间的方法，当以90%的可信度产生了一个包含实际参数的区间，产生的区间不包含实际参数是以5%为浮动，在练习中，找不到完全精确的置信区间，因为所假设的情况并不能让我们完全满意，一个很小的失误也会导致置信区间不精确：

1.从高偏离度的总体中取样；或是，

2.使用一个一致总体参数的有偏统计量。

自助法的好处之一是让你能够检查样本的偏离程度，当偏离存在时，在偏离的引导下产生了置信区间误差，所以，一个自助法百分比置信区间是不精确的，即使这样：

1.统计量本身严重有偏，但被自助法离差估计找出，

2.样本分布的统计量有明显偏差，被自助分布找到，

3.高的精度存在高风险（比如大量货币，社会福利等）

BCa置信区间

BCa，又称误差修正和加速自助法置信区间，是一种自助法百分比置信区间的修正方法，BCa置信区间端点是分布中修正误差与离散程度的一种自助法百分比分布，打个比方，如果这个统计量向上有偏（趋于无限大），BCa误差修正向左移动端点，如果自助法分布向右偏离，BCa包含了将端点向右甚至更多移动的修正方法（这种做法也许会违反直觉，但其实是正确的），这些估计的细节是一种前进的动力，所以我们要用软件计算BCa区间，在R中，要使用boot程序包中boot.ci（）功能建立BCa区间，寻求method=”bca”而不是method=”perc”.

◆举例：

西雅图实际房屋问题。

我们之前看到（估计到）对于这些数据有向下的误差，记起来了吗？

估计误差为-4.305.正因为如此，中位数95%自助法百分比置信区间是不精确的，所以我们转而寻求BCa区间，轻而易举，从R中得到程序：

95%BCa自助法区间为（213.0265.5），自助法百分比置信区间和BCa置信区间的显著不同表明误差对结果无太大影响。

22.2自助法的部分解释

在下一节，看到一些使用自助法的例子之前，有一些必要的说明：

1.自助法及其结论以包含两个来源的随机变量为基础：

●从总体样本中随机抽取原始样本

●从原始样本中随机抽取自助法样本

2.对于大多数统计量，几乎所有自助法分布的变量来自原始样本的选择，并不是来自你选择的自助法样本，一个自助法重新取样的步骤使用1000或更多重新抽取的样本，得到非常少的其他变量。

3.当自助法允许我们像正态分布一样放宽假设，但必须遵守数据的结构，一些数据中值得依靠的表格也必须计算在内，更长远来说，如何用自助法样本的均值与独立样本作对比一定会与成对样本有所不同。

4.自助法不适用于小样本！

如果样本量很小，就没有足够的信息从一个形成一个精确和可用的总体中得到结论，这总是对的，不取决于是否用自助法，所以大样本可以得到更有用的结果。

5.自助法并不适用于所有统计量，特别的，我推荐使用自助法统计量，对于样本来说他们有很多功能。

比如，最大值，最小值，矩，等等，自助法的功能是挑选统计量，这包括均值，标准差，相关系数，回归数量，比如模型系数和预测等，它对中位数及其数量非常适用，即使大样本对于自助法这些统计量是两人满意的。

22.3举例

现在，我们来看一些使用在不同情境下的自助法样本。

◆例：

食物对比。

这些数据出现在第11章，两种食物A，B成长效果对比，将一部分小白鼠服用这两种食物，观察7周小白鼠的生长状况.

之前，我们做了原假设H0：

μA=μB及备择假设HA：

μA≠μB，适用独立参数样本t检验和非参数置换检验，现在，我们用自助法估计，90%置信度，两种食物之间成长均值的不同。

解决方案：

这样做，我们可以用两个分离R向量，对每个进行自助化，然后计算自助化样本均值的不同，我们使自助化样本独立因为每个样本都独立（见之前的说明3）

在成长上实际均值的不同是μA-μB，所以我们用⎺xA-⎺xB作为我们的统计量，具体步骤如下：

1.从A样本中收集一个自助化样本，计算⎺xA

2.从B样本中收集一个自助化样本，计算⎺xB

3.计算⎺xA-⎺xB，这是自助法均值的差异

4.重复步骤1~步骤3若干次（比如1000），产生了自助法分布⎺xA-⎺xB

5.由来自于自助化样本的μA-μB形成置信区间

这是做自助法的R程序，包含一个检验误差：

运行之后，得到一个非常接近于0的估计误差，下图反映误差不是重要因素：

现在，计算关于μA-μB90%的自助法百分比置信区间：

我们可以得到在90%置信度下服用食物A成长的实际均值为9.82~41.68并高于B。

◆举例：

儿童的呼吸速率，儿童的高呼吸速率可能导致呼吸感染，判断呼吸速率是否判定为高，内科医生必须持有正常呼吸率的分布图，为了这个目的，意大利研究专家测量年龄在15天到3岁（换算为月）的大约618名孩子的呼吸率，数据在R工作区的respiratory。

数据的分布图像如下：

找到年龄与呼吸率实际等级相关系数的95%自助法置信区间

解决问题，我们要通过对儿童重新取样来演示自助法，在这节中，我们需要自助法R数据结构的整个行，我们得保持每个孩子的年龄和他们的呼吸率之间存在关系。

在这个例子中，我要说明的是通过使用R中boot程序包，从R中打开数据源后，运行一下程序，代码将在课上讲解，但必要的说明包含在代码下面：

下面是代码运行窗口：

年龄与呼吸率的斯皮尔曼相关系数是-0.7445.相关估计的标准误是0.0173，误差可以忽略不计，我们使用boot程序包plot（）功能作出自助法分布图，命名为results:

t*是boot自助法统计量的一类统称，在这个问题里自助化分布出现合理正态性！

置信区间为：

可以得到年龄在15天到三岁的儿童年龄与呼吸率的实际相关系数的95%置信区间为（-0.77，-0.71）.因此，根据统计学原理证明年龄与呼吸速率为负相关，因为对称性和无偏差，自助法置信区间是适用的。

◆举例：

肌肉，一个人的肌肉被认为随着年龄在逐渐减少，从女性中寻找关系，一个营养学家从40~79岁的女性中每隔10岁抽取女性，随机抽取15位女性，数据在R工作区中musclemass。

在数据中变量为肌肉数量和年龄，做下面的工作：

1.画出散点图观察两个变量的关系

2.找到一个肌肉与年龄的样本回归模型

3.找到随时间变化的肌肉实际均值95%自助法置信区间。

（换句话说，找到相关变化率95%自助法置信区间）。

解决：

首先，散点图如下：

可以清楚地看到负向趋势，可以期望：

随着年龄增长，肌肉趋于减少你应该会发现按一个近似线性减少，所以合理的样本线性回归模型适用于这个数据，（然而，这一点是可以证明的…我们会在下一节说明）

现在我们在R中找到适合的模型，这样做，要使用lm（）功能，通过summary（）功能得到结果：

拟合的回归模型是：

mass=156.345-1.19（age）。

斜率估计值为b1=-1.19，这些数据表明对于40-79的女性随着年龄增长肌肉下降的均值为1.19.

现在我们想知道年龄影响肌肉变化的速率的95%置信区间，用参数的方法要使用t分布置信区间，但如果没有普通回归假设，就可以使用自助法置信区间，这种方法在下面会详细给出，R程序被建立在离散情况下，我会在课上详细说明，我会通过自助法斜率散点图向你展示自助法分布是个好东西（是不是很酷！

）

我们会在课上运行（而且独立完成），处于说明的目的，下面是50个自助法斜率散点图，他可以给你提供一个变量指示是否收集不同的随机女性样本（相同大小）

使用1000个自助法完全运行的程序：

显示了斜率估计分布的次要偏差（你能联想到散点图并且知道为什么吗？

）自助法百分比置信区间如下：

95%置信区间为（-1.37，-0.97）.可以知道随着年龄增长肌肉下降速率95%置信度下均值为（0.97,1.37），置信区间上下限都小于0，所以我们知道年龄在40-79女性中肌肉与年龄有负线性相关关系。

附加注释。

通过使用R中来自原始模型lm（）中的confint（）功能找到回归斜率的普通参数t分布置信区间：

自助法置信区间与参数置信区间十分接近，这就是为什么在本例中标准回归假设是合理的。

◆举例：

肌肉案例（续）相同的问题，不同的是，使用R中boot数据包：

运行结果，与之前的结果进行比较。

所有方法（参数t分布置信区间，自助法百分比置信区间，BCa置信区间）产生高度一致化，得到同一个结论。

本章练习：

这道练习题使用本章22.3节的数据。

1.使用食物对比数据计算并说明σ1/σ290%自助法置信区间，食物A与B总体标准差的比例，把样本标准差比例s1/s2作为自助法统计量。

2.使用肌肉数据计算并说明皮尔逊相关系数99%自助法置信区间，再用boot数据包再次处理本问题，误差估计是多少？

你能使用自助法百分比置信区间或BCa自助法置信区间吗？

3.附加题：

使用肌肉数据计算并说明60岁女性肌肉实际均值95%自助法置信区间。

（提示：

这个预测的回归表达式y=b0+b1（60），运用R中predict（）功能。

）

展开阅读全文