线性回归与相关性分析.docx

上传人:b****6 文档编号:5380585 上传时间:2022-12-15 格式:DOCX 页数:13 大小:271.74KB
下载 相关 举报
线性回归与相关性分析.docx_第1页
第1页 / 共13页
线性回归与相关性分析.docx_第2页
第2页 / 共13页
线性回归与相关性分析.docx_第3页
第3页 / 共13页
线性回归与相关性分析.docx_第4页
第4页 / 共13页
线性回归与相关性分析.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

线性回归与相关性分析.docx

《线性回归与相关性分析.docx》由会员分享,可在线阅读,更多相关《线性回归与相关性分析.docx(13页珍藏版)》请在冰豆网上搜索。

线性回归与相关性分析.docx

线性回归与相关性分析

YUNNANNORMALUNIVERSITY

本科学生实验报告

学号:

##########姓名:

_¥¥¥¥¥¥

学院:

生命科学学院专业、班级:

11级应用生物教育A班实验课程名称:

生物统计学实验

教师:

孟丽华(教授)

开课学期:

2012至2013学年下学期

填报时间:

2013年5月22日

云南师范大学教务处编印

实验设计方案

实验序号及名称:

实验十:

线性回归与相关性分析

实验时间

2013-05-17

实验室

睿智楼3幢326

(一)、实验目的:

1能够熟练的使用SPSS软件对实验数据进行线性回归分析和相关性分析;

2、掌握线性回归与相关性分析的基本思想和具体操作,能够读懂分析结果,

并写出回归方程,对回归方程进行各种统计检验;

3、进一步熟悉SPSS软件的应用。

(二)、实验设备及材料:

微机、SPSSforWindowsV18.0统计软件包及相应的要统计的数据

(三)、实验原理:

1、统计学上采用相关分析(correlationanalysis)研究呈平行关系的相关变量之间的关系。

2、对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析;

3、相关性分析是考察两个变量之间线性关系的一种统计分析方法。

更精确地说,当一个变量发生变化时,另一个变量如何变化,此时就需要通过计算相关系数来做深入的定量考察。

P值是针对原假设H0:

假设两变量无线性相关而言的。

一般假设检验的显著性水平为0.05,你只需要拿p值和0.05进行比

较:

如果p值小于0.05,就拒绝原假设H0,说明两变量有线性相关的关系,他们无线性相关的可能性小于0.05;如果大于0.05,则一般认为无线性相关关系,至于相关的程度则要看相关系数R值,r越大,说明越相关。

越小,则相关程度越低。

而偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程,其检验过程与相关分析相似;

4、对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:

(x1,yl),(x2,y2),,(xn,yn);为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图;

5、从散点图可以看出:

①两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);散点图直观地、定性地表示了两个变量之间的关系。

为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来;

6、利用直线回归方程进行预测或控制时,一般只适用于原来研究的范

围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。

若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。

利用直线回归方程进行预测或控制,一

般只能内插,不要轻易外延;

7、进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r并进行显著性检验;

8、根据实际观测值计算得来的相关系数r是样本相关系数,它是双变

量正态总体中的总体相关系数P的估计值。

样本相关系数r是否来自pH0的总体,还须对样本相关系数r进行显著性检验。

此时无效假设、备择假设为:

H0:

p=O,HA:

pH0。

与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验;

9、直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求

它们之间的联系形式一直线回归方程;直线相关分析不区分自变量和依变量,

侧重于揭示它们之间的联系程度和性质一一计算出相关系数。

两种分析所进行

的显著性检验都是解决y与x间是否存在直线关系。

因而二者的检验是等价的。

即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著;

10、应用直线回归与相关的注意事项:

直线回归分析与相关分析在生物

科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出

错误的解释。

为了正确地应用直线回归分析和相关分析这一工具,必须注意以

下几点:

1)、变量间是否存在相关;2)、其余变量尽量保持一致;3)、观测值要尽可能的多;4)、外推要谨慎;5)、正确理解回归或相关显著与否的含义;

6)、一个显著的回归方程并不一定具有实践上的预测意义;

(四)、实验内容:

内容:

生物统计学(第四版)138页第七章习题7.4和习题7.6

实验方法步骤

(一)、习题7.4

1、启动spss软件:

开始—所有程序—SPS4spssforwindowLspss18.0for

windows,直接进入SPSS数据编辑窗口进行相关操作;

2、定义变量,输入数据。

点击“变量视图”定义变量工作表,用“name

命令定义变量“X”(小数点零位),标签:

“4月下旬平均气温/C”;变量“Y”

(小数点零位),标签:

“5月上旬50株棉蚜虫数/头”,点击“变量视图工作表”,一一对应将不同“X”气温与“Y'棉蚜虫数的数据依次输入到单元格中;

3、设置分析变量。

数据输入完后,点菜单栏:

“分析(A)”一“回归(旦)”-“线性(.)•••”,将“5月上旬50株棉蚜虫数(丫)”移到因变量列表(D)中,将“4月下旬平均气温(X)”移入自变量列表(I)中进行分析;

1)、点“统计量(S)”,回归系数:

在“估计(E)”、“置信区间水平(%)95”前打钩,“模型拟合性(M)、“描述性”前打钩,残差:

个案诊断(C)前打钩,点“所有个案”,点“继续”;

2)、点“绘制(T)•••”,将“DEPENDNP”移入“丫(丫)”列表中,将“ZPRED”移入“X2(X)中,标准化残差图:

在“直方图(H)”、“正太概率图(R)”前打钩,点“继续”;

3)、点“保存(S)…”,所有的默认,点“继续”;

4)、点“选项(0)…”,所有的都默认,点“继续”,然后点击“确定”便出结果;

统计量(S)

绘制(T)

保存(S)-(默认)

 

(二八习题7.6

1、启动spss软件:

开始—所有程序—SPS4spssforwindowLspss18.0for

windows,直接进入SPSS数据编辑窗口进行相关操作;

2、定义变量,输入数据。

点击“变量视图”定义变量工作表,用“name

命令定义变量“维生素C的含量”(小数点两位);变量“受冻情况”(小数点零位),“未受冻”赋值为“1”,“受冻”赋值为“2”,点击“变量视图工作表”,一一对应将不同“未受冻”与“受冻”的维生素C的含量数据依次输入到单元格中;

3、设置分析变量。

数据输入完后,点菜单栏:

“分析(A)”—“相关(C)”—“双变量(旦)•••”,将“维生素C含量”、“受冻情况”变量(V)列表中,相关系数:

“Pearson"前打钩,显著性检验:

双侧检验(T)前打钩,“标记显著性相关

(F)前打钩”,点“选项(0)…”,统计量:

在“均值和标准差(M)”前打钩,缺失值:

在“按对排除个案(P)”前打钩,点“继续”,然后点击“确定”便出结果。

选项(0

“图形(G)”—“旧对话框(L)”—“散点/点状(S

散点图/点图

简单散点图

4、表格绘制出来后,进行检查修改,将其复制到实验报告中,将虚框隐藏

1;

5、将所求的描述性统计指标数据表格保存,对其所求得的结果进行分析,书写实验报告。

(五)实验结果:

回归

表1

描述性统计量

均值

标准偏差

N

5月上旬棉蚜虫数

4月下旬平均气温

56.64

18.855

57.113

2.6819

11

11

相关性

5月上旬棉蚜虫

4月下旬平均气

Pearson相关性5月上旬棉蚜虫数

1.000

.858

4月下旬平均气温

.858

1.000

Sig.(单侧)5月上旬棉蚜虫数

.000

4月下旬平均气温

.000

N

5月上旬棉蚜虫数

11

11

4月下旬平均气温

11

11

Anova

输入/移去的变量b

模型

输入的变量

移去的变量

方法

1

4月下旬平均

气温

输入

a.已输入所有请求的变量。

b.因变量:

5月上旬棉蚜虫数

 

模型汇总b

模型

R

R方

调整R方

标准估计的误

1

a

.858

.737

.707

30.903

a.预测变量:

(常量),4月下旬平均气温。

b.因变量:

5月上旬棉蚜虫数

 

模型

平方和

df

均方

F

Sig.

1

回归

24023.684

1

24023.684

25.156

.001a

残差

8594.862

9

954.985

总计

32618.545

10

b

a.预测变量:

(常量),4月下旬平均气温。

b.因变量:

5月上旬棉蚜虫数

系数a

模型

非标准化系数

标准系数

t

Sig.

B的95.0%置信区间

B

标准误差

试用版

下限

上限

1(常量)

-287.943

69.331

-4.153

.002

-444.780

-131.106

4月下旬平均气温

18.276

3.644

.858

5.016

.001

10.033

26.518

a.因变量:

5月上旬棉蚜虫数

残差统计量

极小值

极大值

均值

标准偏差

N

预测值

20.92

198.19

56.64

49.014

11

残差

-49.122

52.705

.000

29.317

11

标准预测值

-.729

2.888

.000

1.000

11

标准残差

-1.590

1.706

.000

.949

11

a.因变量:

5月上旬棉蚜虫数

 

案例诊断

案例数目

标准残差

5月上旬棉蚜虫

预测值

残差

1

.687

86

64.78

21.223

2

-.038

197

198.19

-1.190

3

-1.128

8

42.85

-34.847

4

-.034

29

30.05

-1.054

5

-.126

28

31.88

-3.881

6

.067

23

20.92

2.084

7

-1.590

12

61.12

-49.122

8

-.815

14

39.19

-25.191

9

1.039

64

31.88

32.119

10

.231

50

42.85

7.153

11

1.706

112

59.29

52.705

a.因变量:

5月上旬棉蚜虫数

图表

因变朮5月上旬W*数

^13=6.11E叭书昨=0^49

N-11

回,I标准化疑差

回闩标准化残差的标准P-P图

O

O

期重的累积K率

 

敵点图

相关性

表9

描述性统计量

均值

标准差

N

维生素C含量

34.0553

4.94321

32

受冻情况

1.50

.508

32

表10

相关性

维生素c含量

受冻情况

维生素c含量

Pearson相关性

1

.192

显著性(双侧)

.293

N

32

32

受冻情况

Pearson相关性

.192

1

显著性(双侧)

.293

N

32

32

图表

2§,00^

20.0CT

IIIIII

101.21.41.6182.0

受廉情况

实验结果分析:

习题7.4:

由表4得出:

拟合优度系数为0.858,接近1,说明拟合好。

存在多重线性。

由表6得,回归方程的p值<0.05,说明显著线性。

回归系数p值<0.05,说明显著线性。

(1)、线性回归方程:

Y=-287.943+18.276X;

(2)、sy/x=29.4143,F=28.510**;(3)y/x的95%置信区间:

(22.1998,61.4500),单个y的95%置信区间:

(—26.5856,110.2354);

习题7.6:

从实验结果可以得出:

(1)、相关系数与决定系数分别为:

r仁0.5930,r2=0.3516,

(2)、r的95%置信区间:

(0.1378,0.8414)。

r=0.5930,r2=0.3516,r的95%置信区间:

(0.1378,0.8414)。

(六)、实验总结分析:

1、相关性分析是考察两个变量之间线性关系的一种统计分析方法,利用直

线回归方程进行预测或控制,一般只能内插,不要轻易外延;

2、直线回归相关分析的注意事项:

1)、相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。

要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。

因此,把两个毫无关系的事物放在一起作相关分析是毫无意义的。

同样,作回归分析也要有实际意义;

2)、在进行直线回归前应绘制散点图,有直线趋势时,才适宜作直线回归分析。

散点图还能提示资料有无异常点;

3)、直线回归方程的适用范围一般以自变量的取值范围为限;

4)、对同一组资料作回归和相关分析,其相关系数和回归系数的显著性检验结果完全相同。

由于相关系数的显著性检验结果可直接查表,比较方便;而回归系数的显著性检验计算复杂,故在实际应用中常用相关系数的显著性检验结果代替回归系数的显著性检验。

5)、在资料要求:

相关分析要求两个变量服从双变量正态分布。

回归分析要求因变量服从正态分布,自变量可以是精确测量和严格控制的变量。

如两个变量服从双变量正态分布,则可以作两个回归方程,用X推算丫,或用丫推算X;

3、相关分析中,不区分自变量和因变量。

相关分析只研究两个变量之间线

性相关的程度或一个变量与多个变量之间线性相关的程度,不能用一个或多个变量

去预测另一个变量的值,这是回归分析与相关分析的主要区别;

4、通过此次实验,更加熟悉了SPSS软件的应用,学习了线性回归与相关性分析,考察两变量之间线性关系,建立回归方程,并对回归系数作假设检验;计算

相关系数和决定系数,并对其检验等。

教师评语及评分:

签名:

年月日

 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 其它

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1