多元统计分析第三章假设检验及方差分析文档格式.docx-资源下载

多元统计分析第三章假设检验及方差分析文档格式.docx

1、为临界值，是 N （0 ,1）的上分位点，不同的临界值代表不同的检验。称拒绝原假设 H 0 的统计量 z 的范围为拒绝域，称接受 H 0 的统计量 z 的范围为接受域，因此给出一个检验，就是给出一个拒绝域。2、两类错误由于样本具有随机性，因此在根据样本进行判断时，有可能犯两种类型的错误。一类错误是，原假设 H 0 本来正确，但按检验规则却作出了拒绝H 0 的判断，这类错误称为第一类错误（弃真错误），其发生的概率 P zz 2称为犯第一类错误的概率；另一类错误时，原假设 H 0本来不正确，但按检验规则却作出了接收H 0 的判断，这类错误称为第二类错误（存伪错误），其发生的概率称为

2、犯第二类错误的概率，记为同时控制这两类错误是困难的，当时在样本容量n 固定的条件下，要使和同时减小，通常是不可能的。在假设检验的应用中, 由奈曼（NEYMAN）与皮尔逊（PEARSON）提出了一个原则，即在控制犯第一类错误的概率条件下，尽量使犯第二类错误的概率小 , 这种检验问题 , 称为显著性检验问题。根据这一原则，原假设受到保护，不至于被轻易拒绝，一旦检验结果拒绝了原假设，则表明拒绝的理由是充分的，如果接受了原假设，则只是表明拒绝的理由还不充分，未必意味着原假设就是正确的。所以，在实际问题中，为了通过样本观测值对某一猜测取得强有力的支持，通称我们把这一猜测的否定作为原假设，而把猜测

3、本身作为备择假设。3、关于检验的 p 值下面，我们再介绍进行检验的另一种方式 p 值，我们就以（，对于样本，我们通过统计量，计算出 z 0x0 ，是一确定值，这里的 x 是样本观测值的均值，再由统计量 z 服从正态分布 z N （0 ,1） , 计算 P zz0 为检验的 p 值。由于 z z2 等价于 p = P zz0 P z z 2，所以检验规则可以表述为：当 p时，拒绝 H 0接受 H0 。（3.3 ）上述 p 值的检验规则与（，p 值越小，拒绝原假设的理由就充分。通常SAS等软件的计算机输出一般只给出 p 值，由你自己给定的值来判断检验结果二、单一变量假设检验的回顾1、单个

4、正态总体均值的检验考虑假设检验问题：设 X 1 ， X 2 ， , X n 来自总体 N （ , 2 ）的样本，我们要检验假（1）总体方差已知构造统计量在原假设 H 0 成立下， z 服从正态分布 z N （0 ,1），可得这样一个检验规则：当时，拒绝H 0时，接受（2）总体方差未知构造统计量在原假设 H 0 成立下， t 服从自由度为 n 1 的 t 分布 t t （n 1）可得这样一个检验规则：当 t t（ n1）H 0 ；（nH 0 。（2、两个正态总体均值的比较检验考虑假设检验问题H0: 12,H1:设 X 1 , X 2 , , X n1 是取自总体 N （1 , 12

5、）的容量为 n1 的样本， Y1 ,Y2 ,Yn2 是取自N（ 2,2 ）的容量为 n2 的样本，给定显著性水平。（ 1）两个总体方差12和 22已知3构造检验统计量XYn 1n 2在原假设 H 0 成立下， z 服从正态分布 z N （0 ,1），检验规则为：zzz z z2时，拒绝 H0；2时，接受 H0。（ 2）=和 2 都未知，但2 =用样本方差 s 代替，构造检验统计量在原假设 H 0 成立下， t 服从正态分布 t t （n1n22），检验规则为：当 tt（n12）时，拒绝 H0；（ n12）时，接受 H0。3、多个正态总体均值的比较检验（方差分析）设 k 个正态总体分别

6、为 N （ 1 ,2），N（,2）， ,N （k ,2 ）从 k 个总体取 ni个独立样本如下 :假设 H0成立条件下 ,构造检验统计量为 :kni这里 SSAni （ X iX ） 2称为组间平方和； SSE（ X j（i ）X i ） 2 称为组内平方和；ii 1j 1SSTk niX ）2称为总平方和。其中X iX j（ i ） ,1 knX j（i ）i 1 j 1n i 1 j 1n n1 n2nk给定检验水平，查 F 分布表，使 P FF，可确定出临界值，再利用样本值计算出F值，若 F，则拒绝 H 0 ，否则不能拒绝 H 0 。附注：多元假设检验与SAS过程本章的主要内容是多

7、元假设检验和方差分析，其中的计算一般都很复杂，可用国际上著名的专业软件 SAS 软件计算。 SAS 中有 GLM ， ANOV A 和 NESTED 等过程可用方差分析。其中 GLM 过程最常用。SAS的 GLM过程采用了一般线性模型：4在方差分析问题中，变量x1 .xm 是示性变量，即只取 0 或 1 的变量。 GLM过程对每一因子的每一水平，通过 CLASS语句产生 1 个示性变量，也称分类变量。GLM 过程主要有四个语句：PROC GLM ，CLASS ， MODEL 和 LSMEANS语句。PROC GLM 语句用以调用 GLM 过程，有许多选项，一般形式是：Proc glm da

8、ta= 数据集名称 outstat= 输出的统计量 order=formatted|freq|data|internal ；CLASS 语句说明哪些变量是分类变量。方差分析中的因素都是分类变量，如：Class V1 V2 V3 ；此语句指示计算机把因子 V1 ，V2 ， V3 作为分类变量，可以是字符型变量或数字型变量。如果是字符型变量，长度限于 10 个字符以内。MODEL 语句语句中等号前是响应变量，如：Model Y=A ；单因子 ANOVAModel Y=A B C ；主效应模型Model Y=A B A*B含交互效应的因子模型Model Y1 Y2=A B ；多因子方差模型MAN

9、OV ALSMEANS语句用以求待估参数的最小二乘估计。LsmeansA BA*B ；MANOV A 语句用以说明是做多元方差分析。3.2 均值等于常数向量的检验在经济生产、管理决策中的很多实际问题，通常要选取多个指标进行考察，根据历史数据，将 p 项指标的历史平均水平记作0 ，考虑新的p 项指标平均值是否与历史数据记载的平均值有明显差异？若有差异，进一步分析差异主要在哪些指标上，先看下面的实例：例 3.1 测量 20 名健康女性排汗量 x1 、钠含量 x2 、钾含量 x3 得表 3.1 。问健康女性 x1 、x2 、x3 的均值是不是4、 50、 10？表 3-120 名健康女性排汗量 x

10、1 、钠含量 x2 、钾含量 x3 数据排汗量 x1钠含量 x2钾含量 x33.748.59.35.765.18.03.847.210.93.253.212.03.155.59.74.636.17.92.424.814.07.233.17.66.747.48.55.454.111.33.936.912.74.558.812.33.527.89.840.28.451.513.510.156.47.171.68.26.552.84.144.111.25.540.99.4例 3.1的数学模型就是： x（ x1, x2 , x3 ）服从 N （, ）要根据 20 个样品做复合检验：一般的，我们考虑

11、p 维正态分布均值等于常数的检验问题：X 1 , X 2 , , X n 为取自 p 维正态总体 N p （1 , ）的一个样本，要检验：0 ;H 1 :0 ，（3.4 ）其中 0 为已知 p 维向量。对于这样一个检验问题，分为以下两种情形：一、协方差阵已知条件下，均值的检验作出假设后，需要构造一个合适的统计量。要检验的假设在形式上同一维情形是一样的。在一维时构造的统计量为n 且在 H 0 成立时，U 服从正态分布 N （0,1）。U依照一维情形，由于成立时 X 服从 p 维正态分布 N （0 ,），0 。若记AAT ，A 为非奇异对称阵，则有nA 1 （ X0 ）服从 N （0

12、, I ）但用 N （0, I ）来确定拒绝域不方便，因此，改选用统计量，n（ X0 ） T1（X0）（3.5）当 H0成立时，2 （ p） - 分布。对给定的，从 P2 （ p）2 （ p）。服从，求出2 （ p）时，要先求1 ，这需要大量的计算。实际计算1 ，只时，可以不必求出要令Y 1（X 0），即 Y （X 0）（3.6 ）求解方程组（，求出 Y 后，则二协方差阵未知条件下均值的检验6假设检验问题仍然是：0;H1:在回顾一元情况，在原假设服从自由度为 n1 的 t 分布，成立下， ts在 p 维正态情况下，当协方差已知时，选用时统计量为现用样本协方差 S 代替总体协方差

13、阵，令统计量 T 2 的分布是一元统计中 t 分布的推广，最早由 HOTELLING导出，在上一章中，我们已经给出了这个定义，可以直接用它作为检验H0的统计量， T2分布已被仔细研究过，1%及 5%的分位点已经列成专表，读者可在3 中找到这个表。也可以利用HOTELLING T 2 分布的性质，（n 1）p 1T 2 F （ p, n p）（证明参见朱道元P210）1） p当 H 0 不成立时， F 有变大的趋势，对给定的，从 PFF （ p, n p）求出 F （ p,np），当 FF （ p, np）时，拒绝 H 0 ；否则接受 H 0 。测量 20 名健康女性排汗量 x1 、钠含量

14、x2、钾含量 x3得表 3.1 。x3 的均值是不是 4、 50、 10？解：建立 H0 : 250,H1 :10用 SAS,MATEMATICA,MATLAB等软件都可算出4.642.879368410.0100000- 1.8090526X45.4 ,S199.7884211- 5.64000009.9653.6276579T 220（ X0）S 1（X0） 9.74。所以否定原假设，即在0.10 显著水平下拒绝 H 0 。也可用下列SAS程序计算7datahanye;input x1-x3;y1=x1-4 ;y2=x2-50 ;y3=x3-10 ;a=1;cards;procglm ;m

15、odely1-y3=a/noint ;manova h =a/printeprinthrun执行此程序后得到的输出中主要的是最后一个表H = Type III SSCP Matrix for aE = Error SSCP MatrixS=1M=0.5N=7.5StatisticValueF ValueNum DFDen DFPr FWilks Lambda0.2.9017 0.0649Pillais Trace170.0649Hotelling-Lawley TraceRoys Greatest Root可见 P 值为 0.0649，所以否定原假设，即在在实际工作中，一元检验与多元检验可以联

16、合使用，多元的检验具有概括和全面的优点，而一元的检验容易发现各指标之间的关系和差异，两者的结合能给统计人员提供更多的统计分析信息。3.3 两总体均值的比较检验例 3.2 为了研究日美两国在华企业对中国经营环境的评价是否存在差异，从两国在华企业对中国的政治、经济、法律、文化等环境打分，得表 3-2 。试分析日美两国在华企业对中国经营环境的评价是否存在差异？表 3-2 日美两国在华企业对中国经营环境的评价美国企业号政治环境 X1 经济环境 X2 法律环境 X3 文化环境 X48美 165352560美 2752055美 345美 44070美 530美 6美 7美 8美 9美 10日本企业号政治环境 Y1经济环境 Y2法律环境 Y3文化环境 Y4日 1日 2

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？