统计回归分析.docx
《统计回归分析.docx》由会员分享,可在线阅读,更多相关《统计回归分析.docx(15页珍藏版)》请在冰豆网上搜索。
统计回归分析
板块六•回归分析
知识内容
一.随机抽样
1.随机抽样:
满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:
⑴简单随机抽样:
从元素个数为N的总体中不放回地抽取容量为“的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.
抽出办法:
①抽签法:
用纸片或小球分别标号后抽签的方法.
2随机数表法:
随机数表是使用汁算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同.
随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.
简单随机抽样是最简单、最基本的抽样方法.
⑵系统抽样:
将总体分成均衡的若干部分,然后按照预先制泄的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.
抽岀办法:
从元素个数为N的总体中抽取容疑为”的样本,如果总体容量能被样本容量整N
除,设心一,先对总体进行编号,号码从1到N,再从数字1到£中随机抽取一个数$作n
为起始数,然后顺次抽取第s+k,s+2k,^,s+(n-\)k个数,这样就得到容量为”的样本.如果总体容疑不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.
系统抽样适用于大规模的抽样调査,由于抽样间隔相等,又被称为等距抽样.
⑶分层抽样:
当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.
分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.
2.简单随机抽样必须具备下列特点:
⑴简单随机抽样要求被抽取的样本的总体个数N是有限的.
⑵简单随机样本数”小于等于样本总体的个数N.
⑶简单随机样本是从总体中逐个抽取的.
⑷简单随机抽样是一种不放回的抽样.
⑸简单随机抽样的每个个体入样的可能性均为帶.
N
N
3・系统抽样时,当总体个数N恰好是样本容量〃的整数倍时,取k=—;
n
若上不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容
n
量"整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍
N
然相等,为一.
n
频率直方图
列出样本数据的频率分布表和频率分布直方图的步骤:
1
汁算极差:
找出数拯的最大值与最小值,计算它们的差;
3决定分点:
决定起点,进行分组:
4列频率分布直方图:
对落入各小组的数据累汁,算出各小数的频数,除以样本容咼,得
5
到各小组的频率.
频率分布折线图:
将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
总体密度曲线:
样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线y=fM来描绘,这条光滑曲线就叫做总体密度曲线•总体密度曲线精确地反映了一个总体在各个区域内取值的规律.
3.茎叶图
制作茎叶图的步骤:
1将数据分为“茎F忙两部分:
2将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线;
3将各个数据的“叶"在分界线的一侧对应茎处同行列出.
4.统计数据的数字特征
用样本平均数估计总体平均数:
用样本标准差估计总体标准差.
数据的离散程序可以用极差、方差或标准差来描述.
极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度:
样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.
一般地,设样本的元素为召,“,…,X”样本的平均数为元,
定义样本方差为£=(兀-…-比-",
n
样本标准差s=…+(兀一刃[
简化公式:
S2=丄[(彳+卅+・・・+€)-恋‘]・
n
5.独立性检验
1.两个变量之间的关系;
常见的有两类:
一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确泄性,它们的关系是带有一泄随机性的.当一个变量取值一定时,另一个变量的取值带有一泄随机性的两个变量之间的关系叫做相关关系.
2.散点图:
将样本中的"个数据点(兀,开)(「=1,2,•••,“)描在平而直角坐标系中,就得到了散点图.
散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.
3.如果当一个变量的值变大时,期一个变量的值也在变大,则这种相关称为正相关:
此时,散点图中的点在从左下角到右上角的区域.
反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.
散点图可以判断两个变量之间有没有相关关系.
4.统计假设:
如果事件A与B独立,这时应该有P(AB)=P(A)P(B)t用字母丹。
表示此式,即Ho:
P(AB)=P(A)P(B),称之为统计假设.
5./(读作“卡方”)统计量:
统计学中有一个非常有用的统计量,它的表达式为力2=川皿_"如,用它的大小可以
用来决迫是否拒绝原来的统il•假设乩).如果才的值较大,就拒绝即认为A与B是有关的.
F统汁量的两个临界值:
3.841、6.635:
当才>3.841时,有95%的把握说事件A与B有关:
当才>6.635时,有99%的把握说事件4与B有关;当才W3.841时,认为事件A与B是无关的.
独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小槪率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.
1.独立性检验的步骤:
统计假设:
比;列出2x2联表:
计算*统计疑;査对临界值表,作出判断.
2.几个临界值:
P(才$2.706)=0.10,P(才23.841)=0.05,尺才26.635)=0.01.
2x2联表的独立性检验:
如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张2x2的表,如
下:
如果有调查得来的四个数据®,力,心,心,并希望根据这样的4个数据来检验上述的两种状态A与B是否有关,就称之为2x2联表的独立性检验.
6.回归分析
1.回归分析:
对于具有相关关系的两个变量进行统汁分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性.
回归直线:
如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.最小二乘法:
记回归直线方程为:
y=a+bx,称为变虽:
丫对变量X的回归直线方程,英中",b叫做回归系数.
亍是为了区分丫的实际值)',当x取值兀时,变量Y的相应观察值为〉;.,而直线上对应于兀的纵坐标是$="+地.
设兀,丫的一组观察值为(兀,升),心1,2,…,”,且回归直线方程为y=a+bxt
当x取值兀时,Y的相应观察值为”,差y,-R(i=l,2,•••,“)刻画了实际观察值牙与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.
我们希望这"个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.
记0二£(兀-"-処尸,回归直线就是所有直线中。
取最小值的那条.
这种使“离差平方和为最小"的方法,叫做最小二乘法.
用最小二乘法求回归系数""有如下的公式:
n
/;二>d=v-/;x,其中""上方加表示是由观察值按最小二乘法求得的
r-l
回归系数.
3.线性回归模型:
将用于估计值的线性函数ct+bx作为确定性函数:
$的实际值与估计值之间的误差记为称之为随机误差:
将y=a+bx+£称为线性回归模型.
产生随机误差的主要原因有:
1所用的确定性函数不恰当即模型近似引起的误差:
2忽略了某些因素的影响,通常这些影响都比较小:
3由于测量工具等原因,存在观测误差.
4.线性回归系数的最佳估计值:
利用最小二乘法可以得到〃,/;的讣算公式为
n__n
厂亍)2>』_応亍J_1”
=——=,a=y-bx9Jt中1=亍=
|-|/-I
由此得到的直线y=a+b.x就称为回归直线,此直线方程即为线性回归方程.英中〃,&分别为",b的估计•值,&称为回归截距,&称为回归系数,$称为回归值.
5.相关系数:
》(兀一兀)(〉;一y)艺兀另一心y
r=■i广—=,I
-?
)'£(>:
-y)2
V/-)/-iY/-ii-i
6.相关系数r的性质:
(1)1rKl;
(2)1门越接近于1,x,y的线性相关程度越强;
(3)|门越接近于0,x,y的线性相关程度越弱.
可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关.
7.转化思想:
根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.
8.一些备案
1回归(regression)一词的来历:
“回归"这个词英国统计学家FrancilsGallon提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高髙:
身材较恣的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高髙.Gallon把这种后代的身髙向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
2回归系数的推导过程:
0="(开-")-舛〕'-2"艺”+肿-”另旺片+2"艺兀+b迟X;
=加+加(吃兀-+b迄X;-2吃們,
把上式看成“的二次函数,/的系数”>0,
因此当“=_.2(/?
z-v-Z-r2=龙二炷时取最小值.
2nn
同理,把Q的展开式按b的降幕排列,看成b的二次函数,当"Of时取最小值.
其中y=-Sx>^=-Sxr是样本平均数・nn
9.对相关系数「进行相关性检验的步骤:
①提岀统计假设丹。
:
变量八y不具有线性相关关系;
2如果以95%的把握作出推断,那么可以根据1-0.95=0.05与“-2("是样本容量)在相关性检验的临界值表中查出一个『的临界值斤畑(英中1-0.95=0.05称为检验水平);
3计算样本相关系数『;
4作出统计推断:
若1川>仏,则否定凤,表明有95%的把握认为变量y与x之间具有线性相关关系:
若I/K^.05,则没有理由拒绝即就目前数据而言,没有充分理由认为变量)'与x之间具有线性相关关系.
说明:
⑴对相关系数r进行显箸性检验,一般取检验水平«=0.05,即可靠程度为95%.
⑵这里的,指的是线性相关系数,「的绝对值很小,只是说明线性相关程度低,不一泄不相关,可能是非线性相关的某种关系.
⑶这里的「是对抽样数据而言的.有时即使IH=1,两者也不一左是线性相关的.故在统汁分析时,不能就数据论数据,要结合实际情况进行合理解释.
典例分析
题型一线性相关及回归
【例1】已知变量y与X之间的相关系数是r=-0.872,查表得到相关系数临界值
-05=0.482,要使可靠性不低于95%,则变呈V与x之间()
A.不具有线性相关关系B.具有线性相关关系
C.线性相关关系还待进一步确定D.具有确定性关系
【例2】当相关系数r=0时,表明()
A现象之间完全无关B相关程度较小C现象之间完全相关D无直线相关关
系
【例3】下列结论中,能表示变呈八y具有线性相关关系的是()
A・|心|爲B.c.H>kos|D.H【例4】下列现象的相关密切程度最高的是()
A.某商店的职工人数与商品销售额之间的相关系数0.87
B.流通费用水平与利润率之间的相关关系为-0.94
C.商品销售额与利润率之间的相关系数为0.51
D.商品销售额与流通费用水平的相关系数为-0.81
【例5】在吸烟与患肺病这两个分类变呈的计算中,下列说法正确的是()
1若才的值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
2从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
3若从统计呈中求岀有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得判断出现错误;
4以上三种说法都不正确.
【例6】设两个变量x和y之间具有线性相关关系,它们的相关系数是尸,$关于*的回归直线的斜率是",纵截距是",那么必有()
A.b与「的符号相同B."与,•的符号相同
C.b与,•的相反D."与,•的符号相反
【例7】定义:
点(兀,儿)与直线y=hx+“的"纵向距离"为址-(处+")|.已知A(0,0),B(0,-1),C(1,1)三点,存在直线/,使A,B,C三点到直线/的“纵向距离的平方和"0最小.
⑴求直线/的方程和Q的最小值;
⑵判断点叫,0)与直线/的位置关系.
【例8】(2009宁夏海南卷理)
对变呈丫,y有观测数据W,yj(心1,2,…,10),得散点图1;对变呈“,V有观测数据(①八1)卩=1,2,…,10),得散点图2・由这两个散点图可以判断.
AA
30
-60
-
25
-50
-
20
」••10
-
15
••.30
■
10
・••20
••
••
b
■10
1111111
■
111
【例9】为了考查两个变呈x和y之间的线性关系,甲、乙两位同学各自独立做了io次和15次的试验,
并且利用线性回归方法求得回归直线分别为/「12,已知两人得到的试验数据中,变呈x和$的数据的平均值都对应相等,那么下列说法正确的是()
A.直线人和厶一定有交点B.直线厶一定平行于直线厶
【例10】某地高校教育经费(x)与高校学生人数(y)连续6年的统计资料如F
教育经费(万元)X
316
343
373
393
418
455
在校学生(万人)>'
11
16
18
20
22
25
试求回归直线方程,估计教育经费为500万元时的在校学生数.
【例11】一家庭问题研究机构想知道是否夫妻所受的教育越高越不愿生孩子,现随机抽样了
8对夫妻,计算夫妻所受教育的总年数x与孩子数得结果如下
A
19
17
21
18
15
12
14
20
y
1
3
1
1
2
3
2
1
试求y对%回归直线方程.
【例12】某种产品的广告费支岀x与销售额y(单位:
百万元)之间有如下对应数据:
X
2
4
5
6
8
y
30
40
60
50
70
⑴画出散点图;⑵求回归直线方程.
【例13】某五星级大饭店的住屋率(%)◎)与每天每间客房的成本(元)(刃如下:
X
100
75
65
55
50
y
2000
2500
2800
3200
4000
⑴试求y对工回归直线;
⑵若y的表示不变,X以小数表示(如75%表为0.75),求新的回归直线.
【例14】某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
日期
1月10日
2月10日
3月10日
4月10日
5月10日
6月10日
昼夜温差X(°C)
10
11
13
12
8
6
就诊人数y(个)
22
25
29
26
16
12
该兴趣小纟
目确定的研究方案是:
先从这六组数据中选取2纹
L,用剩下的4组数据求
线性回归方程,再用被选取的2组数据进行检验.
⑴若选取的1月与6月的两组数据,请根据2至5月份的数据,求出y关于X的线性回归方程;
⑵若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
【例15】某种产品的产呈与单位在成本的资料如下:
产呈(千件)X
2
3
4
3
4
5
单位成本(元/件)V
73
72
71
73
69
68
试求:
⑴计算相关系数,;
⑵y对*直线回归方程;
⑶指出产量每增加1000件时,单位成本平均下降了多少元?
【例16】求回归直线方程
以下是收集到的某城市的新房屋销售价格V与房屋的大小*的数据:
房屋大小丫(m2)
80
105
110
115
135
销售价格〉’(万元)
18.4
22
21.6
24.8
29.2
⑴画出数据的散点图;
⑵用最小二乘法求回归直线方程;
⑶估计该城市一个90平米的房屋销售价格大约为多少?
⑷写一个程序,计算出Q(a,b)和0(2,02)的值,再比较大小.
【例17】(07广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产呈x
(吨)与相应的生产能耗(吨标准煤)的几组对照数据
A
3
4
5
6
y
2.5
3
4
4.5
⑴请画岀上表数据的散点图;
⑵请根据上表提供的数据,用最小二乘法求出)'关于x的线性回归方程y=hx+a;⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据
(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:
3x2.5+4x3+5x4+6x4.5=66.5)
【例18】测定某肉鸡的生长过程,每两周记录一次鸡的重量,数据如下表:
A'(周)
2
4
6
8
10
12
14
yg
0.3
0.86
1.73
2.2
2.47
2.67
2.8
由经验知生长曲线为严E,试求)、和的回归曲线方程.
【例19】为了研究某种细菌随时间x变化的繁殖个数,收集数据如下:
天数X
1
2
3
4
5
6
繁殖个数>'
6
12
25
49
95
190
⑴作岀这些数据的散点图;
⑵求岀y对x的回归方程.