整理线性计算方法.docx

上传人:b****7 文档编号:23939508 上传时间:2023-05-22 格式:DOCX 页数:12 大小:139.50KB
下载 相关 举报
整理线性计算方法.docx_第1页
第1页 / 共12页
整理线性计算方法.docx_第2页
第2页 / 共12页
整理线性计算方法.docx_第3页
第3页 / 共12页
整理线性计算方法.docx_第4页
第4页 / 共12页
整理线性计算方法.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

整理线性计算方法.docx

《整理线性计算方法.docx》由会员分享,可在线阅读,更多相关《整理线性计算方法.docx(12页珍藏版)》请在冰豆网上搜索。

整理线性计算方法.docx

整理线性计算方法

第八章线性相关

前面着重于描述某一变量的统计特征

或比较该变量的组间差别

两个随机变量之间的关系:

如体重与肺活量、

年龄与血压

是否存在线性联系?

正向还是负向?

联系的程度?

线性相关(linearcorrelation):

线性联系?

方向?

程度?

8.1线性相关概念

1.独立随机的双变量正态分布样本

讨论两个变量X和Y的相关性。

样本:

独立的、成对的观察值(x1,y1),(x2,y2),…,(xn,yn)

例8.1为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如表8.1所示。

表8.120对父子的身高(cm)数据

编号

12345678910

父高X

150153155158161164165167168169

子高Y

159157163166169170169167169170

编号

11121314151617181920

父高X

170171172174175177178181183185

子高Y

173170170176178174173178176180

问如何保证这是一份可供讨论线性相关的合格样本?

(1)随机抽取;

(2)互相独立?

2.散点图(scatterplot)

座标轴:

分别表示两个变量;n个点:

构成一幅散点图(图8.1)

图8.2典型散点图

图(a)和(c),正相关(positivecorrelation)

图(b)和(d),负相关(negativecorrelation)

图(e)、(f)、(g),Y和X无关联

图(h),可能存在曲线型联系。

通常所说的相关就是线性相关,(e)到(h)均属不相关

对于不相关的情形,宜进一步澄清是否为曲线关系

 

8.2相关系数

Pearson积矩相关系数(product-momentcorrelationcoefficient)

对双变量正态分布变量X和Y

(8.1)

总体相关系数,记为ρ

ρ=0,X和Y无线性相关或零相关(nullcorrelaton)

ρ>0,正相关

ρ<0,负相关

ρ=1或-1,完全相关(罕见!

)。

样本相关系数,记为r

对于n对随机样本,X和Y的样本协方差:

(8.2)

lxy:

X与Y的离均差乘积和

若所有离均差乘积平均后接近零,则表明部份个体的X和Y同方向,部份个体的X和Y反方向,总的说来,诸个体各循其道,杂乱无章

相反,若离均差乘积平均后为正,且距零较远,则表明多数个体的X和Y同方向,即正相关;

若离均差乘积平均后为负,且距零较远,则表明多数个体的X和Y反方向,即负相关。

协方差的大小与X,Y的取值单位有关,不同问题中的协方差不可比较。

相关系数:

X和Y分别标准化之后的协方差。

数值介于-1和+1之间,且没有单位

(8.3)

lxx:

X的离均差平方和lyy:

Y的离均差平方和

例8.2试计算例8.1中父高X和子高Y的样本相关系数(假定系独立随机双正态样本)。

=3376,

=3407,n=20

=571728,

=581081,

=576161

由(8.3)式得到,

8.3相关系数的统计推断

样本相关系数r只是总体相关系数ρ的一个估计值。

样本相关系数也存在变异性。

得到线性相关的描述统计量r之后,还有必要对其所来自的总体进行统计推断。

1.相关系数的假设检验

H0:

ρ=0

直接查r界值表

或t检验:

v=n-2(8.4)

(8.5)

Sr:

样本相关系数r的标准差(也称标准误)。

例8.3继例8.2中算得r=0.9296后,试检验相关是否具有统计学意义。

(1)直接查r界值表

可得到r0.001,18=0.679,|r|>r0.001,18,P<0.001,

(2)t检验

H0:

ρ=0,H1:

ρ≠0,α=0.05。

查t分布表,得到t0.001,18=3.922。

显然|tr|>3.922,P<0.001。

故拒绝H0,接受H1,可以认为父子身高之间存在正相关关系。

与查表结论相同。

2.相关系数的区间估计

(1)对样本相关系数r作变换

(8.6)

(tanh为双曲正切函数,tanh-1为反双曲正切函数)

(2)按正态近似原理,得到

的1-α置信区间

)(8.7a)

缩写为

(8.7b)

(3)上下限作反变换r=tanhz即可得到总体相关系数

的1-

置信区间。

例8.4例8.2中样本相关系数r=0.9296,求总体相关系数ρ的95%置信区间。

解z=tanh-10.9296=1.6554

的95%置信区间为

1.6554

(1.1800,2.1308)

将其上下限作反变换,得到总体相关系数

的95%置信区间为(0.8275,0.9722)

8.4等级相关

有时,原始数据并不服从正态分布或其总体分布未知;数据中有“超限值”存在;数据本身就是等级资料

此时采用等级相关(rankcorrelation)或秩相关—非参数统计方法。

1.Spearman等级相关

(1)将n对观察值Xi和Yi分别由小到大编秩(数值相同时取平均秩次),以pi表示Xi的秩次;qi表示Yi的秩次

(2)di=pi-qi

(3)

(8.8)

假设检验H0:

ρs=0,H1:

ρs≠0

●当样本例数n较小时,可用查表法(rs界值表)

●如n>20,也可将rs直接代替式(8.4)和(8.5)中的r作t检验或查r界值表。

例8.5肝癌病因研究,调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量(以最高含量为10),试作等级相关分析。

解表8.2等级相关系数计算表

编号

(1)

黄曲霉毒素

肺癌死亡率

X(相对含量)

(2)

秩次p

(3)

Y(1/10万)

(4)

秩次q

(5)

d

(6)=(3)-(5)

d2

(7)=(6)2

1

2

3

4

5

6

7

8

9

10

0.7

1.0

1.7

3.7

4.0

5.1

5.5

5.7

5.9

10.0

1

2

3

4

5

6

7

8

9

10

21.5

18.9

14.4

46.5

27.3

64.6

46.3

34.2

77.6

55.1

3

2

1

7

4

9

6

5

10

8

-2

0

2

-3

1

第五章 环境影响评价与安全预评价-3

1

为了有别于传统的忽视环境价值的理论和方法,环境经济学家把环境的价值称为总经济价值(TEV),包括环境的使用价值和非使用价值两个部分。

3

-1

3.划分评价单元2

2.辨识与分析危险、有害因素4

(三)安全评价的内容和分类0

(二)建设项目环境影响评价的工作等级4

9

1

1.准备阶段9

综合性规划

(1)土地利用的有关规划;1

(三)安全评价的内容和分类9

1

2.辨识与分析危险、有害因素4

合计

42

第⑶、⑸栏,若有观察值相同,则取平均秩次。

第⑹、⑺栏,求每对秩次的差值d、d2和Σd2

按式(8.8)计算统计量rs

本例n=10,查rs界值表,得0.02>P>0.01,按

=0.05水准拒绝Ho,可以认为黄曲霉毒素与肝癌死亡率间存在正相关。

2.相同秩次较多时rs的计算

中存在相同秩次时,(8.8)式不再适用,应利用秩次

直接计算积矩相关系数。

中不存在相同秩次以及

中也不存在相同秩次时,这样算得的

和利用(8.8)式计算的结果完全一致。

3.r与rs的区别与联系

区别:

积矩相关要求数据服从双变量正态分布,属于参数统计量;

等级相关并不要求正态分布,属于非参数统计量。

8.5线性相关分析的注意事项

1.散点图的重要性

并非任何有联系的两个变量都属线性联系。

如果从散点图可初步看出变量分布非正态,则应考虑作等级相关而不宜作积矩相关。

当散点图中出现异常点(outlier)时要慎重处理。

必要时可通过等级相关来减小异常点的不良影响

2.变量取值非随机时莫作相关

例如,为研究药物的剂量-反应关系,人们选定n种剂量,观察每种剂量下动物的反应;

又如,摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量。

此时得到的数据就不是随机样本,即使按样本相关系数的公式计算,所得结果并不接近总体相关系数,而可能因人为选定变量值的范围不同而不同。

3.对相关的解释

一定要结合专业背景,切不可把任意两个变量拉在一起盲目下结论。

例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义,难道两者真有内在联系?

统计学上的关联性,不一定是因果联系。

样本足够大时绝对值较小的样本相关系数也易于得到较小的P值,有统计学意义并不一定反映相关就很密切.

4.慎重合并分层资料

图8.3慎用相关的情形(a)异常值(b)、(c)、(d)分层资料

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1