多元统计分析第三章假设检验及方差分析文档格式.docx

上传人:b****5 文档编号:20325822 上传时间:2023-01-22 格式:DOCX 页数:42 大小:42.95KB
下载 相关 举报
多元统计分析第三章假设检验及方差分析文档格式.docx_第1页
第1页 / 共42页
多元统计分析第三章假设检验及方差分析文档格式.docx_第2页
第2页 / 共42页
多元统计分析第三章假设检验及方差分析文档格式.docx_第3页
第3页 / 共42页
多元统计分析第三章假设检验及方差分析文档格式.docx_第4页
第4页 / 共42页
多元统计分析第三章假设检验及方差分析文档格式.docx_第5页
第5页 / 共42页
点击查看更多>>
下载资源
资源描述

多元统计分析第三章假设检验及方差分析文档格式.docx

《多元统计分析第三章假设检验及方差分析文档格式.docx》由会员分享,可在线阅读,更多相关《多元统计分析第三章假设检验及方差分析文档格式.docx(42页珍藏版)》请在冰豆网上搜索。

多元统计分析第三章假设检验及方差分析文档格式.docx

为临界值,是N(0,1)的上分位点,不同的临界值代表不同的检验。

称拒绝原假

设H0的统计量z的范围为拒绝域,称接受H0的统计量z的范围为接受域,因此给出一个检验,就是给出一个拒绝域。

2、两类错误

由于样本具有随机性,因此在根据样本进行判断时,有可能犯两种类型的错误。

一类错误

是,原假设H0本来正确,但按检验规则却作出了拒绝

H0的判断,这类错误称为第一类错误(弃

真错误),其发生的概率Pz

z2

称为犯第一类错误的概率;

另一类错误时,原假设H0

本来不正确,但按检验规则却作出了接收

H0的判断,这类错误称为第二类错误(存伪错误),

其发生的概率称为犯第二类错误的概率,记为

同时控制这两类错误是困难的,当时在样本容量

n固定的条件下,要使

和同时减小,

通常是不可能的。

在假设检验的应用中

由奈曼(NEYMAN)与皮尔逊(PEARSON)提出了一个原则,

即在控制犯第一类错误的概率

条件下,尽量使犯第二类错误的概率

小,这种检验问题,称

为显著性检验问题。

根据这一原则,原假设受到保护,不至于被轻易拒绝,一旦检验结果拒绝

了原假设,则表明拒绝的理由是充分的,如果接受了原假设,则只是表明拒绝的理由还不充分,

未必意味着原假设就是正确的。

所以,在实际问题中,为了通过样本观测值对某一猜测取得强

有力的支持,通称我们把这一猜测的否定作为原假设,而把猜测本身作为备择假设。

3、关于检验的p值

下面,我们再介绍进行检验的另一种方式——p值,我们就以(,对于样本,我们通过统

计量,计算出z0

x

0,是一确定值,这里的x是样本观测值的均值,

再由统计量z服

从正态分布z~N(0,1),计算P{z

z0}为检验的p值。

由于zz

2等价于p=P{z

z0}Pzz2,所以检验规则可以表述为:

当p

时,拒绝H0

接受H0。

(3.3)

上述p值的检验规则与(,

p值越小,拒绝原假设的理由就充分。

通常

SAS等软件的计算

机输出一般只给出p值,由你自己给定的

值来判断检验结果

二、单一变量假设检验的回顾

1、单个正态总体均值的检验

考虑假设检验问题:

设X1,X2,,Xn来自总体N(,2)的样本,我们要检验假

(1)总体方差已知构造统计量

在原假设H0成立下,z服从正态分布z~N(0,1),可得这样一个检验规则:

时,拒绝

H0

时,接受

(2)总体方差未知构造统计量

在原假设H0成立下,t服从自由度为n1的t分布t~t(n1)可得这样一个检验规

则:

当tt

(n

1)

H0;

(n

H0。

2、两个正态总体均值的比较检验

考虑假设检验问题

H0:

1

2,H1:

设X1,X2,,Xn1是取自总体N(

1,1

2)的容量为n1的样本,Y1,Y2,

Yn2是取自

N(2,

2)的容量为n2的样本,给定显著性水平。

(1)

两个总体方差

12和22已知

3

构造检验统计量

X

Y

n1

n2

在原假设H0成立下,z服从正态分布z~N(0,1),检验规则为:

zzzzz

2时,拒绝H0;

2时,接受H0。

(2)

=

和2都未知,但

2=

用样本方差s代替

,构造检验统计量

在原假设H0成立下,t服从正态分布t~t(n1

n2

2),检验规则为:

当t

t

(n1

2)时,拒绝H0;

(n1

2)时,接受H0。

3、多个正态总体均值的比较检验(方差分析)

设k个正态总体分别为N(1,

2),N(

2),,

N(

k,

2)从k个总体取ni

个独立样本如下:

假设H0

成立条件下,

构造检验统计量为:

k

ni

这里SSA

ni(Xi

X)2

称为组间平方和;

SSE

(Xj(i)

Xi)2称为组内平方和;

i

i1

j1

SST

kni

X)2

称为总平方和。

其中

Xi

Xj(i),

1kn

Xj(i)

i1j1

ni1j1

nn1n2

nk

给定检验水平

,查F分布表,使PF

F

,可确定出临界值

再利用样本值计算出

F值,若F

,则拒绝H0,否则不能拒绝H0。

附注:

多元假设检验与

SAS过程

本章的主要内容是多元假设检验和方差分析,其中的计算一般都很复杂,可用国际上著名

的专业软件——SAS软件计算。

SAS中有GLM,ANOVA和NESTED等过程可用方差分析。

其中GLM过程最常用。

SAS的GLM过程采用了一般线性模型:

4

在方差分析问题中,变量

x1...xm是示性变量,即只取0或1的变量。

GLM过程对每一因子

的每一水平,通过CLASS语句产生1个示性变量,也称分类变量。

GLM过程主要有四个语句:

PROCGLM,CLASS,MODEL和LSMEANS

语句。

PROCGLM语句用以调用GLM过程,有许多选项,一般形式是:

Procglm[data=数据集名称][outstat=输出的统计量]

[order=formatted|freq|data|internal];

CLASS语句说明哪些变量是分类变量。

方差分析中的因素都是分类变量,如:

ClassV1V2V3;

此语句指示计算机把因子V1,V2,V3作为分类变量,可以是字符型变量或数字型变量。

如果是字符型变量,长度限于10个字符以内。

MODEL语句语句中等号前是响应变量,如:

ModelY=A;

单因子ANOVA

ModelY=ABC;

主效应模型

ModelY=ABA*B

含交互效应的因子模型

ModelY1Y2=AB;

多因子方差模型

MANOVA

LSMEANS

语句

用以求待估参数的最小二乘估计。

Lsmeans

AB

A*B;

MANOVA语句

用以说明是做多元方差分析。

3.2均值等于常数向量的检验

在经济生产、管理决策中的很多实际问题,

通常要选取多个指标进行考察,

根据历史数据,

将p项指标的历史平均水平记作

0,考虑新的

p项指标平均值是否与历史数据记载的平均值

有明显差异?

若有差异,进一步分析差异主要在哪些指标上,先看下面的实例:

例3.1测量20名健康女性排汗量x1、钠含量x2、钾含量x3得表3.1。

问健康女性x1、x2、

x3的均值是不是

4、50、10?

表3-1

20名健康女性排汗量x1、钠含量x2、钾含量x3数据

排汗量x1

钠含量x2

钾含量x3

3.7

48.5

9.3

5.7

65.1

8.0

3.8

47.2

10.9

3.2

53.2

12.0

3.1

55.5

9.7

4.6

36.1

7.9

2.4

24.8

14.0

7.2

33.1

7.6

6.7

47.4

8.5

5.4

54.1

11.3

3.9

36.9

12.7

4.5

58.8

12.3

3.5

27.8

9.8

40.2

8.4

5

1.5

13.5

10.1

56.4

7.1

71.6

8.2

6.5

52.8

4.1

44.1

11.2

5.5

40.9

9.4

例3.1

的数学模型就是:

x

(x1,x2,x3)'

服从N(

)要根据20个样品做复合检验:

一般的,我们考虑

p维正态分布均值等于常数的检验问题:

X1,X2,,Xn为取自p维正

态总体Np(

1,)的一个样本,要检验:

0;

H1:

0,

(3.4)

其中0为已知p维向量。

对于这样一个检验问题,分为以下两种情形:

一、协方差阵已知条件下,均值的检验

作出假设后,需要构造一个合适的统计量。

要检验的假设在形式上同一维情形是一样的。

在一维时构造的统计量为

n且在H0成立时,

U服从正态分布N(0,1)。

U

依照一维情形,由于

成立时X服从p维正态分布N(

0,

),

0。

若记

AAT,

A为非奇异对称阵,则有

nA1(X

0)服从N(0,I)但用N(0,I)来确定拒绝域不方便,因

此,改选用统计量,

n(X

0)T

1(X0)

(3.5)

当H0成立时,

2(p)-分布。

对给定的

,从P

2(p)

2(p)。

服从

,求出

2(p)时,要先求

1,这需要大量的计算。

实际计算

1,只

时,可以不必求出

要令

Y1(X0),

即Y(X0)(3.6)

求解方程组(,求出Y后,则

二.协方差阵未知条件下均值的检验

6

假设检验问题仍然是:

0;

H1:

回顾一元情况,在原假设

服从自由度为n

1的t分布,

成立下,t

s

在p维正态情况下,当协方差已知时,选用时统计量为

现用样本协方差S代替总体协方差阵,令

统计量T2的分布是一元统计中t分布的推广,最早由HOTELLING导出,在上一章中,我们

已经给出了这个定义,可以直接用它作为检验

H0的统计量,T2

分布已被仔细研究过,

1%及5%

的分位点已经列成专表,读者可在

[3]中找到这个表。

也可以利用

HOTELLINGT2分布的性质,

(n1)

p1T2~F(p,np)

(证明参见朱道元

P210)

1)p

当H0不成立时,F有变大的趋势,对给定的

,从P{F

F(p,np)}

求出F(p,n

p),当F

F(p,n

p)时,拒绝H0;

否则接受H0。

测量20名健康女性排汗量x1、钠含量x2

、钾含量x3

得表3.1。

x3的均值是不是4、50、10?

解:

建立H0:

2

50

H1:

10

用SAS,MATEMATICA,MATLAB等软件都可算出

4.64

2.8793684

10.0100000

-1.8090526

X45.4,S

199.7884211

-5.6400000

9.965

3.6276579

T2

20(X

0)'

S1(X

0)9.74。

所以否定原假设,即在

0.10显著水平下拒绝H0。

也可用下列

SAS程序计算

7

data

hanye;

inputx1-x3;

y1=x1-

4;

y2=x2-

50;

y3=x3-

10;

a=

1;

cards

;

proc

glm;

model

y1-y3=a/

noint;

manovah=a/

printe

printh

run

执行此程序后得到的输出中主要的是最后一个表

H=TypeIIISSCPMatrixfora

E=ErrorSSCPMatrix

S=1

M=0.5

N=7.5

Statistic

Value

FValue

NumDF

DenDF

Pr>

F

Wilks'

Lambda

0.

2.90

170.0649

Pillai'

sTrace

17

0.0649

Hotelling-LawleyTrace

Roy'

sGreatestRoot

可见P值为0.0649

,所以否定原假设,即在

在实际工作中,一元检验与多元检验可以联合使用,多元的检验具有概括和全面的优点,而一元的检验容易发现各指标之间的关系和差异,两者的结合能给统计人员提供更多的统计分析信息。

3.3两总体均值的比较检验

例3.2为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业

对中国的政治、经济、法律、文化等环境打分,得表3-2。

试分析日美两国在华企业对中国经

营环境的评价是否存在差异?

表3-2日美两国在华企业对中国经营环境的评价

美国企业号政治环境X1经济环境X2法律环境X3文化环境X4

8

美1

65

35

25

60

美2

75

20

55

美3

45

美4

40

70

美5

30

美6

美7

美8

美9

美10

日本企业号

政治环境Y1

经济环境Y2

法律环境Y3

文化环境Y4

日1

日2

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1