第3讲 变量间的相关关系与统计案例.docx
《第3讲 变量间的相关关系与统计案例.docx》由会员分享,可在线阅读,更多相关《第3讲 变量间的相关关系与统计案例.docx(17页珍藏版)》请在冰豆网上搜索。
第3讲变量间的相关关系与统计案例
第3讲 变量间的相关关系与统计案例
【2013年高考会这样考】
以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用.
【复习指导】
由于该部分内容的特殊性,高考对该部分的考查一直非常慎重.高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.因此,复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式.此部分内容也可能结合概率统计的其他内容命制综合解答题.另外,复习时要把独立性检验作为重点.
基础梳理
1.相关关系的分类
从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.
2.线性相关
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.
3.回归方程
(1)最小二乘法:
使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.
(2)回归方程:
两个具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn),其回归方程为
=
x+
,则
其中,b是回归方程的斜率,a是在y轴上的截距.
4.样本相关系数
r=
,用它来衡量两个变量间的线性相关关系.
(1)当r>0时,表明两个变量正相关;
(2)当r<0时,表明两个变量负相关;
(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
5.线性回归模型
(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.
(2)相关指数
用相关指数R2来刻画回归的效果,其计算公式是:
R2=1-
,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.
6.独立性检验
(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:
是否吸烟,宗教信仰,国籍等.
(2)列出的两个分类变量的频数表,称为列联表.
(3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=
(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“x与y的关系”.
这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
两个规律
(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.
(2)当K2≥3.841时,则有95%的把握说事A与B有关;
当K2≥6.635时,则有99%的把握说事件A与B有关;
当K2≤2.706时,则认为事件A与B无关.
三个注意
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.
(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.
双基自测
1.(人教A版教材习题改编)下面哪些变量是相关关系( ).
A.出租车车费与行驶的里程B.房屋面积与房屋价格
C.身高与体重D.铁块的大小与质量
解析 A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.
答案 C
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图
(1);对变量u,v有观测数据(ui、vi)(i=1,2,…,10),得散点图
(2).由这两个散点图可以判断
( ).
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析 由题图
(1)可知,各点整体呈递减趋势,x与y负相关;由题图
(2)可知,各点整体呈递增趋势,u与v正相关.
答案 C
3.(2012·南昌模拟)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( ).
A.
=-10x+200B.
=10x+200
C.
=-10x-200D.
=10x-200
解析 因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.
答案 A
4.下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( ).
A.94,72B.52,50
C.52,74D.74,52
解析 ∵a+21=73,∴a=52,又a+22=b,∴b=74.
答案 C
5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).
解析 由观测值k=27.63与临界值比较,我们有99%的把握说打鼾与患心脏病有关.
答案 有关
考向一 相关关系的判断
【例1】►山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:
kg):
施化肥量x
15
20
25
30
35
40
45
棉花产量y
330
345
365
405
445
450
455
(1)画出散点图;
(2)判断是否具有相关关系.
[审题视点]
(1)用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.
(2)根据散点图,分析两个变量是否存在相关关系.
解
(1)散点图如图所示
(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.
利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
【训练1】根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).
解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.
答案 否
考向二 线性回归方程
【例2】►下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程
=
x+
;
(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据
(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:
3×2.5+4×3+5×4+6×4.5=66.5)
[审题视点]
(2)问利用公式求
、
,即可求出线性回归方程.
(3)问将x=100代入回归直线方程即可.
解:
(1)由题设所给数据,可得散点图如图所示.
(2)由对照数据,计算得:
=86,
=
=4.5(吨),
=
=3.5(吨).
已知
iyi=66.5,
所以,由最小二乘法确定的回归方程的系数为:
=
=
=0.7,
=
-
=3.5-0.7×4.5=0.35.
因此,所求的线性回归方程为
=0.7x+0.35.
(3)由
(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:
90-(0.7×100+0.35)=19.65(吨标准煤).
在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.
【训练2】(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x/cm
174
176
176
176
178
儿子身高y/cm
175
175
176
177
177
则y对x的线性回归方程为( ).
A.y=x-1B.y=x+1
C.y=88+
xD.y=176
解析 由题意得
=
=176(cm),
=
=176(cm),由于(
,
)一定满足线性回归方程,经验证知选C.
答案 C
考向三 独立性检验
【例3】►(2010·新课标全国)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区老年人是否需要志愿者提供帮助与性别有关?
(3)根据
(2)的结论,能否提出更好的调查方法来估计该地区老年人中,需要志愿者提供帮助的老年人的比例?
说明理由.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=
[审题视点]第
(2)问由a=40,b=30,c=160,d=270,代入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样方法说明.
解
(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为
=14%.
(2)K2=
≈9.967.
由于9.967>6.635,所以有99%的把握认为该地区老年人是否需要帮助与性别有关.
(3)由
(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,采用分层抽样方法,这要比采用简单随机抽样方法更好.
独立性检验的步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=
计算K2的观测值;
(3)比较K2与临界值的大小关系作统计推断.
【训练3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:
mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
12
63
86
182
92
61
4
乙厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲 厂
乙 厂
合 计
优质品
非优质品
合 计
附 K2=
,
P(K2≥k)
0.05
0.01
k
3.841
6.635
解
(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为
×100%=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为
×100%=64%.
(2)
甲 厂
乙 厂
合 计
优质品
360
320
680
非优质品
140
180
320
合 计
500
500
1000
K2=
≈7.35>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
阅卷报告14——数据处理不当导致计算错误而失分
【问题诊断】由于大多数省市高考要求不准使用计算器,而线性回归问题和独立性检验问题仍是近几年新课标高考的常考点,并且大多是考查考生的计算能力,就计算方面常有不少考生因计算出错而失分.
【防范措施】平时训练时首先养成勤于动手的习惯,亲自动手计算,再者考场上要保持心态放松,做题时细心认真,最终可减少错误的发生.
【示例】►(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2002
2004
2006
2008
2010
需求量(万吨)
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程
=bx+a;
(2)利用
(1)中所求出的直线方程预测该地2012年的粮食需求量.
实录
(1)
=2006,
=
=260.2.
b=
+
=6.2,
错因 求b时计算出错,b值不准确.a=
-b
=260.2-6.2×2006=-12177.
∴
=6.2x-12177.
(2)
=6.2×2012-12177=297.4.
正解
(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:
年份-2006
-4
-2
0
2
4
需求量-257
-21
-11
0
19
29
对预处理后的数据,容易算得,
=0,
=3.2,
b=
=
=6.5,a=
-b
=3.2.
由上述计算结果,知所求回归直线方程为
-257=b(x-2006)+a=6.5(x-2006)+3.2,
即
=6.5(x-2006)+260.2.①
(2)利用直线方程①,可预测2012年的粮食需求量为
6.5(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).
【试一试】某高中采取分层抽样的方法从应届高二学生中按照性别抽出20名学生作为样本,其选报文科、理科的情况如下表所示:
性别
科目
男
女
文科
2
5
理科
10
3
(1)若在该样本中从报考文科的男生和报考理科的女生中随机地选出3人召开座谈会,试求3人中既有男生又有女生的概率;
(2)用假设检验的方法分析有多大的把握认为该中学的高二学生选报文理科与性别有关?
参考数据和公式:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.07
2.71
3.84
5.02
6.64
7.88
10.83
K2=
.
[尝试解答]
(1)设报考文科的2名男生为A1,A2,报考理科的3名女生为B1,B2,B3.
从中任取3人,一共有以下10种可能:
(A1,A2,B1),(A1,A2,B2)(A1,A2,B3),(A1,B1,B2),(A1,B1,B3),(A1,B2,B3),(A2,B1,B2),(A2,B1,B3),(A2,B2,B3),(B1,B2,B3),
其中全是女生的情况只有1种:
(B1,B2,B3),且不可能全是男生,因此3人中既有男生又有女生的概率P=1-
=
.
(2)因为K2=
=
≈
4.43>3.84,
所以我们可以有95%的把握说“该中学的高二学生选报文理科与性别有关”.