第3节 相关性最小二乘估计与统计案例.docx

上传人:b****2 文档编号:2022652 上传时间:2022-10-26 格式:DOCX 页数:24 大小:251.22KB
下载 相关 举报
第3节 相关性最小二乘估计与统计案例.docx_第1页
第1页 / 共24页
第3节 相关性最小二乘估计与统计案例.docx_第2页
第2页 / 共24页
第3节 相关性最小二乘估计与统计案例.docx_第3页
第3页 / 共24页
第3节 相关性最小二乘估计与统计案例.docx_第4页
第4页 / 共24页
第3节 相关性最小二乘估计与统计案例.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

第3节 相关性最小二乘估计与统计案例.docx

《第3节 相关性最小二乘估计与统计案例.docx》由会员分享,可在线阅读,更多相关《第3节 相关性最小二乘估计与统计案例.docx(24页珍藏版)》请在冰豆网上搜索。

第3节 相关性最小二乘估计与统计案例.docx

第3节相关性最小二乘估计与统计案例

第3节 相关性、最小二乘估计与统计案例

考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.

                   

知识梳理

1.变量间的相关关系

(1)常见的两变量之间的关系有两类:

一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.

(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.

2.回归分析

对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:

(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.

(1)回归直线:

如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.

(2)回归直线方程的求法——最小二乘法.

设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y=a+bx的系数为:

其中=i,y=i,(x,y)称为样本点的中心.

(3)相关系数

当r>0时,表明两个变量正相关;

当r<0时,表明两个变量负相关.

r的绝对值越接近于1,表明两个变量的线性相关性越强.

r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.

3.独立性检验

(1)设A,B为两个变量,每一个变量都可以取两个值,变量A:

A1,A2=;变量B:

B1,B2=.

2×2列联表

 B

A 

B1

B2

总计

A1

a

b

a+b

A2

c

d

c+d

总计

a+c

b+d

a+b+c+d

构造一个随机变量χ2=,其中n=a+b+c+d为样本容量.

(2)独立性检验

利用随机变量来判断“两个变量有关联”的方法称为独立性检验.

(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断

①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;

②当χ2>2.706时,有90%的把握判定变量A,B有关联;

③当χ2>3.841时,有95%的把握判定变量A,B有关联;

④当χ2>6.635时,有99%的把握判定变量A,B有关联.

[常用结论与微点提醒]

1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本点的中心(,).

2.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.

3.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.

诊断自测

1.判断下列结论正误(在括号内打“√”或“×”)

(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(  )

(2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.(  )

(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.(  )

(4)事件X,Y关系越密切,则由观测数据计算得到的χ2值越大.(  )

答案 

(1)√ 

(2)√ (3)√ (4)√

2.(老教材选修1-2P21问题提出改编)为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力(  )

A.回归分析B.均值与方差

C.独立性检验D.概率

解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.

答案 C

3.(老教材选修1-2P7讲解改编)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r如下,其中拟合效果最好的模型是(  )

A.模型1的相关系数r为0.98

B.模型2的相关系数r为0.80

C.模型3的相关系数r为0.50

D.模型4的相关系数r为0.25

解析 在两个变量y与x的回归模型中,它们的相关系数r越近于1,模拟效果越好,在四个选项中A的相关系数最大,所以拟合效果最好的是模型1.

答案 A

4.(2019·濮阳一模)根据下表中的数据,得到的回归方程为=x+9,则=(  )

x

4

5

6

7

8

y

5

4

3

2

1

A.2B.1C.0D.-1

解析 由题意可得=×(4+5+6+7+8)=6,=×(5+4+3+2+1)=3,∵回归方程为=x+9且回归直线过点(6,3),∴3=6+9,解得=-1.

答案 D

5.(2020·陕西联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.

 

非一线

一线

总计

愿生

45

20

65

不愿生

13

22

35

总计

58

42

100

由χ2=,

得χ2=≈9.616.

则正确的结论是(  )

A.有95%的把握认为“生育意愿与城市级别有关”

B.有95%的把握认为“生育意愿与城市级别无关”

C.有99%的把握认为“生育意愿与城市级别有关”

D.有99%的把握认为“生育意愿与城市级别无关”

解析 ∵χ2≈9.616>6.635.∴有99%的把握认为“生育意愿与城市级别有关”.

答案 C

6.(2020·昆明一中联考)x和y的散点图如图所示,在相关关系中,若用y=c1ec2x拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R,R中较大的是______.

解析 由散点图知,用y=c1ec2x拟合的效果比=x+拟合的效果要好,所以R>R,故较大者为R.

答案 R

                   

考点一 相关关系的判断

【例1】

(1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是(  )

(2)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为(  )

A.-1B.0C.-D.1

解析 

(1)观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.故选D.

(2)完全的线性关系,且为负相关,故其相关系数为-1,故选A.

答案 

(1)D 

(2)A

规律方法 判断相关关系的两种方法:

(1)散点图法:

如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.

(2)相关系数法:

利用相关系数判定,|r|越趋近于1,相关性越强.

【训练1】在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).

①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%;

②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;

③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%;

④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%.

解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.

答案 ②

考点二 回归分析 多维探究

角度1 线性回归方程及应用

【例2-1】(2020·南昌统考)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:

万元)和收益y(单位:

万元)的数据如下表:

月份

1

2

3

4

5

6

广告投入量/万元

2

4

6

8

10

12

收益/万元

14.21

20.31

31.8

31.18

37.83

44.67

他们用两种模型①=x+,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:

xiyi

x

7

30

1464.24

364

(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?

并说明理由.

(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:

(ⅰ)剔除异常数据后,求出

(1)中所选模型的回归方程;

(ⅱ)广告投入量x=18时,

(1)中所选模型收益的预报值是多少?

附:

对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:

==,=-.

解 

(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.

(2)(ⅰ)剔除异常数据,即3月份的数据后,得

=×(7×6-6)=7.2,

=×(30×6-31.8)=29.64.

xiyi=1464.24-6×31.8=1273.44,

x=364-62=328.

====3,

=-=29.64-3×7.2=8.04.

所以y关于x的回归方程为=3x+8.04.

(ⅱ)把x=18代入(ⅰ)中所求回归方程得=3×18+8.04=62.04,

故预报值为62.04万元.

角度2 非线性回归方程及应用

【例2-2】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:

千元)对年销售量y(单位:

t)和年利润z(单位:

千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.

(xi-)2

(wi-)2

(xi-)·(yi-)

(wi-)·(yi-)

46.6

563

6.8

289.8

1.6

1469

108.8

表中wi=,=wi.

(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?

(2)根据

(1)的判断结果及表中数据,建立y关于x的回归方程;

(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据

(2)的结果回答下列问题:

①年宣传费x=49时,年销售量及年利润的预报值是多少?

②年宣传费x为何值时,年利润的预报值最大?

附:

对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:

=,=- .

解 

(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.

(2)令w=,先建立y关于w的线性回归方程,由于

===68,

=-=563-68×6.8=100.6,

所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.

(3)①由

(2)知,当x=49时,年销售量y的预报值

=100.6+68=576.6,

年利润z的预报值=576.6×0.2-49=66.32.

②根据

(2)的结果知,年利润z的预报值

=0.2(100.6+68)-x=-x+13.6+20.12.

所以当==6.8,即x=46.24

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1