MINITAB统计基础.docx

资源描述

MINITAB统计基础.docx

《MINITAB统计基础.docx》由会员分享，可在线阅读，更多相关《MINITAB统计基础.docx（33页珍藏版）》请在冰豆网上搜索。

MINITAB统计基础.docx

MINITAB统计基础

1.正态总体的抽样分布

1）样本均值X的分布——标准正态分布及T分布

样本标准差计算公式：

◆T分布的定义：

Studenttdistribution，如果X服从标准正态分布，S2服从个自由度的卡方分布，且它们相互独立，那么随机量

所服从的分布称为ν个自由度的t分布。

其分布密度函数为：

当ν∞时的极限分布即是标准正态分布，

当ν=1时就是Cauchy分布。

T分布只包含1个参数。

数学期望和方差分别为0，νν-2（ν≤1时期望不存在，ν≤2方差不存在）。

我们常常用tν表示υ个自由度的t分布。

MINITAB对于更一般的t分布还增加了一个“非中心参数”，当非中心参数为0时，就得到了我们现在所说的t分布。

在用MINITAB计算时，只要注意这一点就行了。

自由度：

可以简单理解为在研究问题中，可以自由独立取值的数据或变量的个数。

范例：

✧Z~N（0，1），求Z=1.98时的概率密度。

计算----->概率分布----->正态分布----->概率密度----->输入常数1.98----->确定

概率密度函数

正态分布，均值=0和标准差=1

xf（x）

1.980.0561831

✧Z~N0，1，求PZ<2.4。

计算----->概率分布----->正态分布----->累积概率----->输入常数2.4----->确定

累积分布函数

正态分布，均值=0和标准差=1

xP（X<=x）

2.40.991802

✧Z~N（0，1），求使得P（Z

计算----->概率分布----->正态分布----->逆累积概率----->输入常数0.95----->确定

逆累积分布函数

正态分布，均值=0和标准差=1

P（X<=x）x

0.951.64485

✧自由度=12，求使得PZ

计算----->概率分布----->t分布----->逆累积概率----->输入自由度12----->输入常数0.95----->确定

逆累积分布函数

学生t分布，12自由度

P（X<=x）x

0.951.7822

✧自由度=12，求使得Pt≤3。

计算----->概率分布----->t分布----->累积概率----->输入自由度12----->输入常数3----->确定

累积分布函数

学生t分布，12自由度

xP（X<=x）

30.994467

2）双样本均值差的分布

3）正态样本正态样本方差S2的分布——卡房卡方分布

若X1，X2，……,Xn是从正态总体Nμ，σ2中抽出的一组样本量为n的独立随机样本，记

则当μ已知时：

当未知时，用X替μ后可以得到

其概率密度函数在正半轴上呈正偏态分布。

◆卡方分布的定义：

把n个相互独立的标准正态随机变量的平方和称为自由度为n的卡方分布。

它的密度表达式为：

参数ν≥1称为自由度。

卡方分布有向右的偏斜，特别在较小自由度情况下（ν越小，分布越偏斜）。

我们常用χ2ν表达自由度为ν的卡方分布。

卡方分布有很多用途，其中一项就是用来分析单个正态总体样本方差的状况；还可以用来进行分布的拟合优度检验，即检验资料是否符合某种特定分布；对于离散数据构成的列联表，也可以用来分析两个离散型因子间是否独立等。

◆卡方分布的性质

a）卡方分布的加法性：

设X和Y彼此独立，且都服从卡方分布，其自由度分别为n1，n2。

若令Z=X+Y，则Z服从自由度为n1+n2的卡方分布。

b）若X∼χ2n，则EX=n，VX=2n。

计算下列各卡方分布的相关数值：

✧自由度=10，求使得Pχ2

计算----->概率分布----->卡方分布----->逆累积概率----->自由度=10----->常数=0.95----->确定

逆累积分布函数

卡方分布，10自由度

P（X<=x）x

0.9518.307

✧自由度=10，求Pχ2≤28。

计算----->概率分布----->卡方分布----->累积概率----->自由度=10----->常数=28----->确定

累积分布函数

卡方分布，10自由度

xP（X<=x）

280.998195

4）两个独立的正态样本方差之比的分布——F分布

两个独立的正态样本方差之比的分布是F分布。

设有两个独立的正态总体N（μ1，σ2）和N（μ2，σ2），它们的方差相等。

又设X1，X2，…，Xn是来自N（μ1，σ2）的一个样本Y1，Y2，…，Yn是来自N（μ2，σ2）的一个样本，这两样相互独立。

它们的样本方差之比是自由度为n-1和m-1的F分布：

n-1称为分子自由度；m-1为分母自由度；F分布的概率密度函数在正半轴上呈正偏态分布。

实际上，F统计量就是由两个卡方随机变量相除所构成的，如果Χ∼χ2ν1，Y∼χ2ν2，且二者相互独立，则称二者比值的分布为F分布，即

其密度函数是：

F分布的应用非常广泛，尤其是在判断两正态总体方差是否相等以及方差分析（ANOVA）等问题上面。

✧计算F0.95（8，,18）的数值。

计算----->概率分布----->F分布----->逆累积概率----->分子自由度=8----->分母自由度=18----->常数=0.95----->确定

逆累积分布函数

F分布，8分子自由度和18分母自由度

P（X<=x）x

0.952.51016

2.参数的点估计

1）点估计的概念

用单个数值对于总体参数给出估计的方法称为点估计。

设Ɵ是总体的一个未知参数，X1，X2，…，Xn是从总体中抽取的样本量为n的一个随机样本，那么用来估计未知参数Ɵ的统计量Θ（X1，X2，…Xn）称为Ɵ的估计量，或称为Ɵ的点估计。

我们总是在参数上方画一个帽子“∧”表示该参数的估计量。

在工程中经常出现的点估计问题之最好结果是：

Ø对于总体均值μ，μ=X；

Ø对于总体方差σ2，σ2=S2；

Ø对于比率p，p=Xn，X是样本量为n的随机样本中我们感兴趣的那类出现的次数；

Ø对于μ1-μ2，μ1 -μ2=X1-X2（两个独立随机样本均值之差）；

Ø对于p1-p2，估计为P1 -P2（两个独立随机样本比率之差）；

2）点估计的评选标准

3.参数的区间估计

设Ɵ是总体的一个待估参数，从总体中获得样本量为n的样本是X1，X2，…，Xn，对给定的显著性水平α（0﹤α﹤1），有统计量：

ƟL=ƟL（X1，X2，…，Xn）与ƟU=ƟU（X1，X2，…，Xn），若对于任意Ɵ有P（ƟL≤Ɵ≤ƟU）=1-α，则称随机区间[ƟL，ƟU]是Ɵ的置信水平为1-α的置信区间，ƟL与ƟU分别称为置信下限和置信上限。

置信区间的大小表达了区间估计的精确性，置信水平表达了区间估计的可靠性，1-α是区间估计的可靠程度，而α表达了区间估计的不可靠程度。

在进行区间估计时，必须同时考虑置信水平与置信区间两个方面。

对于置信区间的选取，一定要注意，决不能认为置信水平越大的置信区间就越好。

实际上，置信水平定的越大，则置信区间相应也一定越宽，当置信水平太大时，则置信区间会宽得没有实际意义了。

这两者要结合在一起考虑，才更为实际。

通常我们取置信水平为0.95，极个别情况下可取0.99或0.90，一般不取其他的置信水平。

1）单正态总体均值的置信区间

当X~N（μ，σ2）时，正态总体均值的置信区间有以下三种情况：

a）当总体方差σ2已知时，正态总体均值μ的1–α置信区间为：

式中，Z1-α2是标准正态分布的1-α2分位数，也就是双侧α分位数。

例如α=0.05时，Z0.975=1.96。

在MINITAB中，我们通过：

统计----->基本统计量----->单样本Z来实现的。

由于实际情况中，已知标准差的情况很少见，因此我们这里重点关注的是标准差位置时的情况。

b）当总体方差σ2未知时，σ用样本标准差S代替，此时正态总体均值μ的1–α置信区间为：

式中，t1-α2n-1表示自由度为n–1的t分布的1-α2分位数，也就是t分布的双侧α分位数。

例如α=0.05时，样本量n=16时，t0.97515=2.131，其值略大于Z0.975=1.96。

在MINITAB中，我们通过：

统计----->基本统计量----->单样本t来实现的。

✧某集团公司正推进节省运输费用活动，下表为20个月使用的运输费用调查结果数据：

1742

1827

1681

1742

1676

1680

1792

1735

1687

1852

1861

1778

1747

1678

1754

1799

1697

1664

1804

1707

假设运输费用是服从正态分布的，求运输费用均值的95%置信区间。

统计----->基本统计量----->单样本t----->样本所在列=运输费用----->选项----->置信水平=95----->确定。

单样本T:

运输费用

均值标

变量N均值标准差准误95%置信区间

运输费用201745.261.913.8（1716.2,1774.2）

c）前两种情况讨论的是当总体为正态分布时，μ的区间估计，然而当总体不是正态分布时，如果样本量n超过30，则可根据中心极限定理知道：

X仍近似服从正态分布，因而仍可用正态分布总提示的均值μ的区间估计方法，而且可以直接用样本标准差代替总体标准差，即采用公式：

在MINITAB中，通常直接采用：

统计----->基本统计量----->图形化汇总中得到总体均值的置信区间结果。

只不过要注意的是：

总体非正态时，在小样本情况下此结果并不可信，只有当样本量超过30后，由于中心极限定理的保证，此结果才是可信的。

2）单正态总体方差和标准差的置信区间

当X~N（μ，σ2）时，正态总体方差的置信区间是：

式中，χ1-α22n-1和χα22n-1分别是1-α2分位数与α2分位数。

当X~N（μ，σ2）时，正态总体标准差的置信区间是：

✧某集团公司正推进节省运输费用活动，下表为20个月使用的运输费用调查结果数据：

1742

1827

1681

1742

1676

1680

1792

1735

1687

1852

1861

1778

1747

1678

1754

1799

1697

1664

1804

1707

假设运输费用是服从正态分布的，求运输费用方差和标准差的95%置信区间。

统计----->基本统计量----->单方差----->样本所在列=运输费用----->选项----->置信水平=95----->确定。

单方差检验和置信区间:

运输费用

方法

卡方方法仅适用于正态分布。

Bonett方法适用于任何连续分布。

统计量

变量N标准差方差

运输费用2061.93830

展开阅读全文