变量之间的相关关系.docx

上传人:b****1 文档编号:1760426 上传时间:2022-10-23 格式:DOCX 页数:12 大小:38.14KB
下载 相关 举报
变量之间的相关关系.docx_第1页
第1页 / 共12页
变量之间的相关关系.docx_第2页
第2页 / 共12页
变量之间的相关关系.docx_第3页
第3页 / 共12页
变量之间的相关关系.docx_第4页
第4页 / 共12页
变量之间的相关关系.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

变量之间的相关关系.docx

《变量之间的相关关系.docx》由会员分享,可在线阅读,更多相关《变量之间的相关关系.docx(12页珍藏版)》请在冰豆网上搜索。

变量之间的相关关系.docx

变量之间的相关关系

“变量间的相关关系”中的核心概念和思想方法解读及教学建议

河北师范大学数学与信息科学学院程海奎

《变量间的相关关系》的主要内容为采用定性和定量相结合的方法研究变量之间的相关关系,主要研究线性相关关系.主要概念有“相关关系”、“散点图”、“回归直线和回归直线方程”、“相关系数”等.研究方法为先绘制散点图,直观表示观测数据,定性描述变量间相关关系的类型、方向、相关程度.然后应用最小二乘法确定变量间相关关系的具体表达形式,描述变量间的数量规律,并由一个变量的取值去推测另一个变量的取值.

这部分内容涉及到一些重要的统计思想和方法,对学生的学习和教师的教学都有一定的难度.本文就研究对象、核心概念、研究方法、统计思想及相关应用进行简单的解读,提出一些教学建议,希望对教学能提供一些帮助.

一、相关概念及统计思想方法

1.相关关系——变量间的不确定关系

两个变量之间的数量关系有两种不同的类型:

一种是函数关系,一种是相关关系.当一个变量取一定的值时,另一个变量有确定的值与之对应,我们称这种关系为确定的函数关系.一般把作为影响因素的变量称为自变量,把与之对应变化的变量称为因变量.

当一个变量取一定的数值时,与之对应的另一个变量的值虽然不确定,但它按某种规律在一定的范围内变化,变量间的这种关系称为不确定性的相关关系.或者说两个变量之间确实存在某种关系,但不具备函数关系所要求的确定性.

函数关系和相关关系都是指两个变量之间的数量关系.函数关系是两个非随机变量之间的一种确定关系,是一种因果关系.而相关关系是两个变量之间的一种不确定的关系,这两个变量中至少有一个是随机变量.两个相关变量之间可能有内在联系(真实相关),也可能完全不存在内在联系(虚假相关).

之所以X和丫之间是相关关系,原因是变量X是影响变量Y的主要因素,但不是唯一因素,还有其他种种因素,而这些因素我们又不能完全把握.

研究函数关系,可以用数学分析的方法•例如,已知y和x之间具有线性关系,即1='-■,此

时只要知道变量的两组取值就可以确定函数表达式.

研究相关关系则必须对变量进行多次观测,借助统计的相关思想和方法•例如,有人认为人的体重y

和身高x之间具有近似的二次函数关系,由三个人的身高和体重数据,确定出y和x之间的表达式•这样

得到的结果很不可靠,难以使人信服.

2•散点图一描述相关关系的直观工具

由于相关关系的不确定性,寻找变量X和Y之间的相关关系时,首先要对变量进行观测•设n次观测

值为在直角坐标系中,横轴代表变量X,纵轴代表变量Y,将观测数据用坐标点的形式描绘岀来,得到的图形称为散点图•散点图是研究相关关系的直观工具,可以定性的判断相关的方向和程度.

如果散点大致分布在一条直线附近,又不完全在一条直线上,说明变量间具有线性相关关系;如果这

些点大致分布在一条曲线附近,说明变量间具有非线性相关关系;如果这些点的分布几乎没有什么规则,说明两个变量间没有相关关系•对于线性相关,如果散点从左下角到右上角沿直线分布,那么两个变量正相关,如果散点从左上角到右下角沿直线分布,两个变量负相关•如果散点在整体上和某一直线越接近,表明变量间相关关系越强.

3•数据分析方法一相关分析与回归分析

对变量间相关关系,在定性分析的基础上,需要进行定量分析•定量分析有相关分析和回归分析两种方法.相关分析是用一个指标(称为相关系数)来反映变量间相关关系的密切程度(见人教A版必修3P85,

阅读与思考)•回归分析就是根据相关关系的具体形态,选择一个合适的数学模型,来近似表达变量间的平均变化关系•相关分析和回归分析具有共同的研究对象,在具体应用时,需要互相补充•作相关分析需要依靠回归分析表明变量相关的具体形式,而进行回归分析需要通过相关分析表明变量间的相关程度,只有变量间存在高度相关时,由回归分析得到的变量间的具体形式才有意义.

相关分析研究变量间的相关的方向和相关程度,它不提供相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况•相关分析不必确定哪个变量是自变量,哪个是因变量,所涉及的两个变量可以都是随机变量•回归分析根据观测数据,确定一个数学方程式(回归方程),根据这个方程式可以由已知量推测未知量,为估算和预测提供一个重要方法•回归分析必须事先确定具有相关关系的变量中

哪个为自变量,哪个为因变量•一般地说,自变量是普通变量(人为可以控制其取值),因变量是随机变

量.

4•最小二乘思想一统计学基础的重要部分

当两个变量之间存在相关关系时,由于不确定性,如果只有很少几组变量观测值,很难估计误差的大

小•法国法数学家勒让德(LeGendre,1752—1833)在根据测量数据预测彗星轨道的问题时,发现了如何

有效利用全部测量数据的方法•即通过计算得岀一组数值,在使数据组的偏差达到最小的意义下,这些数

值是最优的•由勒让德的方法得岀的数值充分利用了所有数据信息,这个方法现在叫做最小二乘法.

人们立即认识到勒让德发现的价值,运用最小二乘法的数学并不难,所以绝大多数从事测量的科学家,

都能从这一方法中受益,他们可以充分利用数据•当时最小二乘思想在科学界迅速流传.

1809年,德国数学家高斯(Gauss,1777—1855年)在一篇论文中,分析了如何充分利用一系列测量

数据来预测天体轨道的问题,在文章中也叙述了最小二乘法,并声称自己发明了这一方法.

事实上,勒让德第一个发表了最小二乘法思想,并影响了统计学;高斯也使用了最小二乘法,并且考

虑了最小二乘法的误差分析问题,他还发现了最小二乘法理论中的重要结果,它从统计学的角度回答了最

小二乘法在缩小误差上的优势,使得在勒让德那里只是处理测量数据的代数方法逐渐渗透到统计数据分析

的领域,最小二乘法对统计学就象微积分对于数学中的影响一样深远,高斯的巨大声望使一些历史学家把最小二乘法归功于他.

下面通过一个简单问题,阐述最小二乘思想.

YY

一段公路,实际长度为a千米,a是未知的,对公路进行n次实际测量,假设测量值为•可

是每次测量都有一定的误差,这些误差或正或负,或大或小.应该如何估计a的值呢?

直观的想法是a的

值应该最接近这些测量数据,数学描述就是:

a的值应该使所有的误差平方和达到最小.

h«a

/⑷二£(召—说)适吗+乞彳

1-1i-1j-J

当J-时,

/W

达到最小•即用测量数据的平均值作为

a的估计值•这里估计参数a所采用的

就是最小二乘法的思想•用数理统计知识可以证明这样的估计也是最佳的.

最小二乘法的优点是:

有效利用了全部测量数据,使误差平方和达到最小,防止了某一极端误差对决定参数估计值取得支配性地位•在计算上只需对参数求偏导数求解线性方程组即可.

5.回归直线与回归方程

当两个变量之间具有线性相关关系时,散点图中的点大致分布在一条直线附近,这条直线叫做回归

直线,这条直线的方程叫做回归方程•

数学模型:

假设因变量y主要受自变量x的影响,它们之间的数量关系为,其中x

是非随机变量,二门是未知的常数•F是随机误差项,它反映了未列入方程的其它各种因素对y的影响•从

而y是随机变量,它可以用由x的值完全确定的部分和随机误差F部分来解释•当由观测数据

”估计岀」和b时,得到直线回归方程为/--':

,•

「弋入“二中,得

":

--^+^,或mm「,I,.......

其中J…:

!

为n次观测的误差•求*的估计值,使“从整体上看各点与直线•-=;;』■:

的距离最小”•应用最小二乘思想,就是求使误差平方和达到最小的-*的值•可

以用配方法或求偏导数的方针求岀-:

的估计值.

6•相关系数一变量间线性关系密切程度的度量

相关系数是用来衡量两个变量之间线性关系密切程度(强与弱)的一个数量指标•只有了解构造相

关系数的统计思想,才能对相关系数有较深刻的理解•下面对相关统计量的意义及构造相关系数的统计思想做一简述.

设回归方程为1—宀亠U,与J对应的回归值为门二•称「「为偏差,称

&二头仏—„

U为偏差方和•的值越小,反映各偏差普遍较小,数据点整体上比较接近回归直线,

说明变量间线性关系比较密切•但是一个绝对量,需要进行调整.

为方便引入以下记号:

・二£(咅可b二勿再-对(片-刃》二Q価-才i=-

:

衡量数据?

的波动大小,-衡量数据的波动大小.

恥斗(片乍)二营倚-厅&

反映主要由的变化引起的间的波动,

二反映除线性关系之外的各种随机因素引起的

:

间的波动.

 

宀1皂玉生

可以证明:

•令圧'丹—,显然0

就越接近0,说明x和y之间的线性关系越密切.

当匚〉〔时,x和y正相关,当R0时,x和y负相关•但由于只与直‘有关,所以不能反映

相关的方向•因此定义相关系数如下:

r=b

 

-l

需要注意的两点是:

(1)相关系数只衡量变量间线性关系的密切程度,即使变量间具有确定的非线

性函数关系,"也可能非常接近0.

(2)当n很小时,即使"非常接近1,也不表明变量间的线性关系

强•例如,无论x和y之间是何种关系,当n=2时,总有.

二、教学建议

1•“相关关系”的有关概念及定性描述

相关关系的概念是描述性的,不必追求形式化上的严格•建议采用案例教学法•对比函数关系,重点突岀相关关系的两个本质特征:

关联性和不确定性•关联性是指当一个变量变化时,伴随另一个变量有一定的变化趋势;不确定性是指当一个变量取定值时,与之相关的变量的取值仍具有随机性•因为有关联性,才有研究的必要性•因为其不确定性,从少量的变量观测值,很难估计误差的大小,因此必须对变量作大量的观测•但每个观测值都有一定误差,为了消除误差的影响,揭示变量间的本质联系,就必须要用统计分析方法.

判断两个变量间是否具有相关关系,一是凭经验及学科专业知识,二是借助散点图•下面是一些可供选择的例子,教学时可先逐一分析其关联性和不确定性,然后结合散点图,进一步判断相关关系的类型和方向.

实例

变量X和Y

关联性

不确定性

相关类型

家庭收入

X,

收入高的家庭消费支岀相应

收入相同的家庭,消费支出

例1

消费支岀

Y

也较高.

未必相同.

正线性相关

人的身高

X,

一般身材较高者,脚的尺寸

同样身高的人,脚的尺寸不

例2

脚的长度

Y

也较大

一定相同.

正线性相关

数学成绩

X,

数学成绩高者,一般英语成

存在数学成绩高(低)而英

正线性相关

例3

英语成绩

Y

绩也较高,反之也对.

语成绩低(高)的学生.

(虚假相关)

气温X,

随着气温的升高,热饮的销

温度相同的日期内,热饮的

例4

热饮销量

Y

量相应会减少.

销量也未必相同.

负线性相关

例5(非线性相关和不相关的例子)对0到18岁之间的未成年人来说,年龄和身高之间具有非线性的相

关关系•对成年人来说,年龄和身高之间没有相关关系(散点图略)

例6吸烟和患肺部疾病之间不具有因果关系,但具有相关关系•我们引入两值变量X和Y:

吸烟

不吸烟

fl患肺部疾病r=

o,不患肺部蘇

如果调查了700人,其中400个不吸烟者中有40人患肺部疾病(10%,300个吸烟者中有60个人

患肺部疾病(20%,说明吸烟对患肺部疾病有一定的影响•但不吸烟者也可能患肺部疾病,吸烟者也可能

不患肺部疾病,因此X和Y之间具有相关关系.

例7有人曾经观察过某一国家历年的国内生产总值与精神病患

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 生物学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1