假设检验项目假设检验回归分析与方差分析.docx

资源描述

假设检验项目假设检验回归分析与方差分析.docx

《假设检验项目假设检验回归分析与方差分析.docx》由会员分享，可在线阅读，更多相关《假设检验项目假设检验回归分析与方差分析.docx（20页珍藏版）》请在冰豆网上搜索。

假设检验项目假设检验回归分析与方差分析.docx

假设检验项目假设检验回归分析与方差分析

项目八假设检验、回归分析与方差分析

实验1假设检验

实验目的掌握用Mathematica作单正态总体均值、方差的假设检验,双正态总体的均值差、方差比的假设检验方法,了解用Mathematica作分布拟合函数检验的方法.

基本命令

1.调用假设检验软件包的命令<

输入并执行命令

2.检验单正态总体均值的命令MeanTest

命令的基本格式为

MeanTest[样本观察值,

中均值

的值,TwoSided->False（或True）,

KnownVariance->None（或方差的已知值

）,

SignificanceLevel->检验的显著性水平

FullReport->True]

该命令无论对总体的均值是已知还是未知的情形均适用.

命令MeanTest有几个重要的选项.选项Twosided->False缺省时作单边检验.选项KnownVariance->None时为方差未知,所作的检验为t检验.选项KnownVariance->

时为方差已知（

是已知方差的值）,所作的检验为u检验.选项KnownVariance->None缺省时作方差未知的假设检验.选项SignificanceLevel->0.05表示选定检验的水平为0.05.选项FullReport->True表示全面报告检验结果.

3.检验双正态总体均值差的命令MeanDifferenceTest

命令的基本格式为

MeanDifferenceTest[样本1的观察值,样本2的观察值,

中的均值

选项1,选项2,…]

其中选项TwoSided->False（或True）,SignificanceLevel->检验的显著性水平

FullReport->True的用法同命令MeanTest中的用法.选项EqualVariances->False（或True）表示两个正态总体的方差不相等（或相等）.

4.检验单正态总体方差的命令VarianceTest

命令的基本格式为

VarianceTest[样本观察值,

中的方差

的值,选项1,选项2,…]

该命令的选项与命令MeanTest中的选项相同.

5.检验双正态总体方差比的命令VarianceRatioTest

命令的基本格式为

VarianceRatioTest[样本1的观察值,样本2的观察值,

中方差比

的值,选项1,选项2,…]

该命令的选项也与命令MeanTest中的选项相同.

注:

在使用上述几个假设检验命令的输出报告中会遇到像OneSidedPValue->

0.000217593这样的项,它报告了单边检验的P值为0.000217593.P值的定义是:

在原假设成立的条件下,检验统计量取其观察值及比观察值更极端的值（沿着对立假设方向）的概率.P值也称作“观察”到的显著性水平.P值越小,反对原假设的证据越强.通常若P低于5%,称此结果为统计显著;若P低于1%,称此结果为高度显著.

6.当数据为概括数据时的假设检验命令

当数据为概括数据时,要根据假设检验的理论,计算统计量的观察值,再查表作出结论.用以下命令可以代替查表与计算,直接计算得到检验结果.

（1）统计量服从正态分布时,求正态分布P值的命令NormalPValue.其格式为

NormalPValue[统计量观察值,显著性选项,单边或双边检验选项]

（2）统计量服从t分布时,求t分布P值的命令StudentTPValue.其格式为

StudentTPValue[统计量观察值,自由度,显著性选项,单边或双边检验选项]

（3）统计量服从

分布时,求

分布P值的命令ChiSquarePValue.其格式为

ChiSquarePValue[统计量观察值,自由度,显著性选项,单边或双边检验选项]

（4）统计量服从F分布时,求F分布P值的命令FratioPValue.其格式为

FratioPValue[统计量观察值,分子自由度,分母自由度,显著性选项,单边或双边检验选项]

（5）报告检验结果的命令ResultOfTest.其格式为

ResultOfTest[P值,显著性选项,单边或双边检验选项,FullReport->True]

注:

上述命令中,缺省默认的显著性水平都是0.05,默认的检验都是单边检验.

实验举例

单正态总体均值的假设检验（方差已知情形）

例1.1（教材例1.1）某车间生产钢丝,用

表示钢丝的折断力,由经验判断

其中

今换了一批材料,从性能上看,估计折断力的方差

不会有什么变化（即仍有

）,但不知折断力的均值

和原先有无差别.现抽得样本,测得其折断力为

578572570568572570570572596584

取

试检验折断力均值有无变化?

根据题意,要对均值作双侧假设检验

输入

执行后,再输入

data1={578,572,570,568,572,570,570,572,596,584};

MeanTest[data1,570,SignificanceLevel->0.05,

KnownVariance->64,TwoSided->True,FullReport->True]

（*检验均值,显著性水平

方差

已知*）

则输出结果

{FullReport->

MeanTestStatDistribution

575.22.05548NormalDistribution[]

TwoSidedPValue->0.0398326,

Rejectnullhypothesisatsignificancelevel->0.05}

即结果给出检验报告:

样本均值

所用的检验统计量为

统计量（正态分布）,检验统计量的观测值为2.05548,双侧检验的

值为0.0398326,在显著性水平

下,拒绝原假设,即认为折断力的均值发生了变化.

例1.2（教材例1.2）有一工厂生产一种灯管,已知灯管的寿命X服从正态分布

根据以往的生产经验,知道灯管的平均寿命不会超过1500小时.为了提高灯管的平均寿命,工厂采用了新的工艺.为了弄清楚新工艺是否真的能提高灯管的平均寿命,他们测试了采用新工艺生产的25只灯管的寿命.其平均值是1575小时,尽管样本的平均值大于1500小时,试问:

可否由此判定这恰是新工艺的效应,而非偶然的原因使得抽出的这25只灯管的平均寿命较长呢?

根据题意,需对均值的作单侧假设检验

检验的统计量为

输入

p1=NormalPValue[（1575-1500）/200*Sqrt[25]]

ResultOfTest[p1[[2]],SignificanceLevel->0.05,FullReport->True]

执行后的输出结果为

OneSidedPValue->0.0303964

{OneSidedPValue->0.0303964,

Failtorejectnullhypothesisatsignificancelevel->0.05}

即输出结果拒绝原假设

单正态总体均值的假设检验（方差未知情形）

例1.3（教材例1.3）水泥厂用自动包装机包装水泥,每袋额定重量是50kg,某日开工后随机抽查了9袋,称得重量如下:

49.649.350.150.049.249.949.851.050.2

设每袋重量服从正态分布,问包装机工作是否正常（

）?

根据题意,要对均值作双侧假设检验:

输入

data2={49.6,49.3,50.1,50.0,49.2,49.9,49.8,51.0,50.2};

MeanTest[data2,50.0,SignificanceLevel->0.05,FullReport->True]

（*单边检验且未知方差,故选项TwoSided,KnownVariance均采用缺省值*）

执行后的输出结果为

{FullReport->

MeanTestStatDistribution,

49.9-0.559503StudentTDistribution[8]

OneSidedPValue->0.295567,

Failtorejectnullhypothesisatsignificancelevel->0.05}

即结果给出检验报告:

样本均值

所用的检验统计量为自由度8的

分布（

检验）,检验统计量的观测值为-0.559503,双侧检验的

值为0.295567,在显著性水平

下,不拒绝原假设,即认为包装机工作正常.

例1.4（教材例1.4）从一批零件中任取100件,测其直径,得平均直径为5.2,标准差为1.6.在显著性水平

下,判定这批零件的直径是否符合5的标准.

根据题意,要对均值作假设检验:

检验的统计量为

它服从自由度为

的

分布.已知样本容量

样本均值

样本标准差

输入

StudentTPValue[（5.2-5）/1.6*Sqrt[100],100-1,

TwoSided->True]

则输出

TwoSidedPValue->0.214246

即

值等于0.214246,大于0.05,故不拒绝原假设,认为这批零件的直径符合5的标准.

单正态总体的方差的假设检验

例1.5（教材例1.5）某工厂生产金属丝,产品指标为折断力.折断力的方差被用作工厂生产精度的表征.方差越小,表明精度越高.以往工厂一直把该方差保持在64（kg

）与64以下.最近从一批产品中抽取10根作折断力试验,测得的结果（单位为千克）如下:

578572570568572570572596584570

由上述样本数据算得

为此,厂方怀疑金属丝折断力的方差是否变大了.如确实增大了,表明生产精度不如以前,就需对生产流程作一番检验,以发现生产环节中存在的问题.

根据题意,要对方差作双边假设检验:

输入

data3={578,572,570,568,572,570,572,596,584,570};

VarianceTest[data3,64,SignificanceLevel->0.05,FullReport->True]

（*方差检验,使用双边检验,

*）

则输出

{FullReport->

VarianceTestStatDistribution

75.733310.65ChiSquareDistribution[9]

OneSidedPValue->0.300464,

Failtorejectnullhypothesisatsignificancelevel->0.05}

即检验报告给出:

样本方差

所用检验统计量为自由度4的

分布统计量（

检验）,检验统计量的观测值为10.65,双边检验的

值为0.300464,在显著性水平

时,接受原假设,即认为样本方差的偏大系偶然因素,生产流程正常,故不需再作进一步的

检查.

例1.6（教材例1.6）某厂生产的某种型号的电池,其寿命（以小时计）长期以来服从方差

的正态分布,现有一批这种电池,从它的生产情况来看,寿命的波动性有所改变.现随机取26只电池,测出其寿命的样本方差

.问根据这一数据能否推断这批电池的寿命的波动性较以往的有显著的变化（取

）?

根据题意,要对方差作双边假设检验:

所用的检验统计量为

它服从自由度为

的

分布.已知样本容量

样本方差

输入

ChiSquarePValue[（26-1）*9200/5000,26-1,TwoSided->True]

则输出

TwoSidedPValue->0.0128357.

即

值小于0.05,故拒绝原假设.认为这批电池寿命的波动性较以往有显著的变化.

双正态总体均值差的检验（方差未知但相等）

例1.7（教材例1.7）某地某年高考后随机抽得15名男生、12名女生的物理考试成绩如下:

男生:

494847535143395756464244554440

女生:

464047514336433848544834

从这27名学生的成绩能说明这个地区男女生的物理考试成绩不相上下吗?

（显著性水平

）.

根据题意,要对均值差作单边假设检验:

输入

data4={49.0,48,47,53,51,43,39,57,56,46,42,44,55,44,40};

data5={46,40,47,51,43,36,43,38,48,54,48,34};

MeanDifferenceTest[data4,data5,0,SignificanceLevel->0.05,

TwoSided->True,FullReport->True,EqualVariances->True,FullReport->True]

（*指定显著性水平

且方差相等*）

则输出

{FullReport->

MeanDiffTestStatDistribution

3.61.56528tudentTDistribution[25],

OneSidedPValue->0.13009,

Failtorejectnullhypothesisatsignificancelevel->0.05}

即检验报告给出:

两个正态总体的均值差为3.6,检验统计量为自由度25的

分布（

检验）,检验统计量的观察值为1.56528,单边检验的

值为0.13009,从而没有充分理由否认原假

设,即认为这一地区男女生的物理考试成绩不相上下.

双正态总体方差比的假设检验

例1.8（教材例1.8）为比较甲、乙两种安眠药的疗效,将20名患者分成两组,每组10人,如服药后延长的睡眠时间分别服从正态分布,其数据为（单位:

小时）:

甲:

5.54.64.43.41.91.61.10.80.1-0.1

乙:

3.73.42.02.00.80.70-0.1-0.2-1.6

问在显著性水平

下两重要的疗效又无显著差别.

根据题意,先在

未知的条件下检验假设:

输入

list1={5.5,4.6,4.4,3.4,1.9,1.6,1.1,0.8,0.1,-0.1};

list2={3.7,3.4,2.0,2.0,0.8,0.7,0,-0.1,-0.2,-1.6};

VarianceRatioTest[list1,list2,1,SignificanceLevel->0.05,

TwoSided->True,FullReport->True]

（*方差比检验,使用双边检验,

*）

则输出

{FullReport->

RatioTestStatDistribution

1.412671.41267FratioDistribution[9,9],

TwoSidedPValue->0.615073,

Failtorejectnullhypothesisatsignificancelevel->0.05}

即检验报告给出:

两个正态总体的样本方差之比

为1.41267,检验统计量的分布为

分布（F检验）,检验统计量的观察值为1.41267,双侧检验的

值为0.615073.由检验报告知两总体方差相等的假设成立.

其次,要在方差相等的条件下作均值是否相等的假设检验:

输入

MeanDifferenceTest[list1,list2,0,EqualVariances->True,

SignificanceLevel->0.05,TwoSided->True,FullReport->True]

（*均值差是否为零的检验,已知方差相等,

双边检验*）

则输出

{FullReport->

MeanDiffTestStatDistribution

1.261.52273StudentTDistribution[18],

TwoSidedPValue->0.1452,

Failtorejectnullhypothesisatsignificancelevel->0.05}

根据输出的检验报告,应接受原假设

因此,在显著性水平

下可认为

综合上述讨论结果,可以认为两种安眠药疗效无显著差异.

例1.9（教材例1.9）甲、乙两厂生产同一种电阻,现从甲乙两厂的产品中分别随机抽取12个和10个样品,测得它们的电阻值后,计算出样本方差分别为

假设电阻值服从正态分布,在显著性水平

下,我们是否可以认为两厂生产的电阻值的方差相等.

根据题意,检验统计量为

它服从自由度（

）的

分布.已知样本容量

样本方差

该问题即检验假设:

输入

FRatioPValue[1.40/4.38,12-1,10-1,TwoSided->True,SignificanceLevel->0.1]

则输出

TwoSidedPValue->0.0785523,

Rejectnullhypothesisatsignificancelevel->0.1}

所以,我们拒绝原假设,即认为两厂生产的电阻阻值的方差不同

分布拟合检验——

检验法

例1.10（教材例1.10）下面列出84个伊特拉斯坎男子头颅的最大宽度（单位:

mm）:

141148132138154142150146155158150140147148144

150149145149158143141144144126140144142141140

145135147146141136140146142137148154137139143

140131143141149148135148152143144141143147146

150132142142143153149146149138142149142137134

144146147140142140137152145

试检验上述头颅的最大宽度数据是否来自正态总体（

）?

输入数据

data2={141,148,132,138,154,142,150,146,155,158,150,140,147,148,

144,150,149,145,149,158,143,141,144,144,126,140,144,142,141,140,

145,135,147,146,141,136,140,146,142,137,148,154,137,139,143,140,

131,143,141,149,148,135,148,152,143,144,141,143,147,146,150,132,

142,142,143,153,149,146,149,138,142,149,142,137,134,144,146,147,

140,142,140,137,152,145};

输入

Min[data2]|Max[data2]

则输出

126|158

即头颅宽度数据的最小值为126,最大值为158.考虑区间[124.5,159.5],它包括了所有的数据.以5为间隔,划分小区间.计算落入每个小区间的频数,输入

pshu=BinCounts[data2,{124.5,159.5,5}]

则输出

{1,4,10,33,24,9,3}

因为出现了两个区间内的频数小于5,所以要合并小区间.现在把频数为1,4的两个区间合并,再把频数为9,3的两个区间合并.这样只有5个小区间.这些区间为

（

）,

为了计算分布函数在端点的值,输入

zu=Table[129.5+j*5,{j,1,4}]

则输出

{134.5,139.5,144.5,149.5}

以这4个数为分点,把

分成5个区间后,落入5个小区间的频数分别为5,10,33,24,12.它们除以数据的总个数就得到频率.输入

plv={5,10,33,24,12}/Length[data2]

则输出

下面计算在

成立条件下,数据落入5个小区间的概率.输入

nor=NormalDistribution[Mean[data2],StandardDeviationMLE[data2]];

（*Mean[data2]是总体均值的极大似然估计,

StandardDeviationMLE[data2]是总体标准差的极大似然估计,

NormalDistribution是正态分布,

因此nor是由极大似然估计得到的正态分布*）

Fhat=CDF[nor,zu]（*CDF是分布函数的值*）

则输出

{0.0590736,0.235726,0.548693,0.832687}

此即

成立条件下分布函数在分点的值.再求相邻两个端点的分布函数值之差,输入

Fhat2=Join[{0},Fhat,{1}];

glv=Table[Fhat2[[j]]-Fhat2[[j-1]],{j,2,Length[Fhat2]}]

则输出

{0.0590736,0.176652,0.312967,0.283994,0.167313}

输入计算检验统计量

值的命令

chi=Apply[Plus,（plv-glv）^2/glv*Length[data2]]

则输出

3.59235

再输入求

分布的

值命令

ChiSquarePValue[chi,2]（*5-2-1=2为

分布的自由度*）

则输出

OneSidedPValue->0.165932

这个结果表明

成立条件下,统计量

取3.59235及比它更大的概率为0.165932,因此不拒绝

即头颅的最大宽度数据服从正态分布.

实验习题

1.设某种电子元件的寿命

（单位:

h）服从正态分布

均未知.现测得16只元件的寿命如下:

159280101212224379179264

222362168250149260485170

问是否有理由认为元件的平均寿命225h?

是否有理由认为这种元件寿命的方差

852?

2.某化肥厂采用自动流水生产线,装

展开阅读全文