中国人民大学题库答案详解统计思想综述Word格式.docx
《中国人民大学题库答案详解统计思想综述Word格式.docx》由会员分享,可在线阅读,更多相关《中国人民大学题库答案详解统计思想综述Word格式.docx(61页珍藏版)》请在冰豆网上搜索。
![中国人民大学题库答案详解统计思想综述Word格式.docx](https://file1.bdocx.com/fileroot1/2022-12/12/62c023ac-d6e4-40bd-ae0a-b15ea1900713/62c023ac-d6e4-40bd-ae0a-b15ea19007131.gif)
三、(20分)某种食品每袋的标准重量是100克,从该批食品中抽取一个随机样本,检验假设H0:
µ
=100,H1:
µ
≠100。
(1)如果拒绝H0,你的结论是什么?
,如果不拒绝
,你的结论是什么?
(2)能否得到一个样本能够证明该食品的平均重量是100克?
请说明理由。
(3)如果由该样本得到的检验的P=0.03,你的结论是什么?
0.03这个值是犯第Ⅰ类错误的概率,是实际算出来的显著性水平,你怎样解释这个P值?
(1)拒绝H0:
该种食品每袋的平均重量不是100g
不拒绝H0:
提供的样本不能证明该种食品每袋的平均重量不是100g
(2)不能,样本得出的结论只能是拒绝或不拒绝原假设,并不能直接确定原假设为真
(3)结论:
若给定显著性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是100克;
但若给定显著性水平为0.01,则不能拒绝原假设
P值:
如果该种食品每袋的平均重量是100g,样本结果会像实际观测那样极端或更极端的概率仅为0.03
四、(20分)在建立多元线性回归模型时,通常需要对自变量进行筛选。
(1)请谈谈你对变量筛选的必要性的看法。
(2)列出变量筛选的方法,请简要说明这些方法的特点。
(1)若将所有的自变量都引入回归模型,往往会导致所建立的模型不能进行有效的解释,也可能会导致多重共线性,增加自变量还会导致判定系数
增大,从而高估模型拟合优度。
(2)变量筛选有向前选择、向后剔除、逐步回归等方法。
特点如下:
向前选择:
从没有自变量开始,不停向模型中增加自变量,直到增加不能导致SSE显著增加为止。
向后剔除:
从所有自变量开始,不停从模型中剔除自变量,直到剔除不能导致SSE显著减小为止。
逐步回归:
结合向前选择和向后剔除,从没有自变量开始,不停向模型中增加自变量,每增加一个自变量就对所有现有的自变量进行考察,若某个自变量对模型的贡献变得不显著就剔除。
如此反复,直到增加变量不能导致SSE显著减少为止。
五、(20分)如果一个时间序列包含趋势、季节成分、随机波动,适用的预测方法有哪些?
对这些方法做检验说明。
可以使用Winter指数平滑模型、引入季节哑变量的多元回归和分解法等进行预测。
(1)Winter指数平滑模型
包含三个平滑参数,即
(取值均在0~1),以及平滑值
、趋势项更新
、季节项更新
、未来第k期的预测值
。
L为季节周期的长度,对于季度数据,L=4,对于月份数据,L=12;
I为季节调节因子。
平滑值消除季节变动,趋势项更新是对趋势值得修正,季节项更新是t期的季节调整因子,
是用于预测的模型。
使用Winter模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季节周期(4年以上的数据)。
(2)引入季节哑变量的多元回归
对于以季度记录的数据,引入3个哑变量
,其中
=1(第1季度)或0(其他季度),以此类推,则季节性多元回归模型表示为:
其中b0是常数项,b1是趋势成分的系数,表示趋势给时间序列带来的影响,b2、b3、b4表示每一季度与参照的第1季度的平均差值。
(3)分解预测
第1步,确定并分离季节成分。
计算季节指数,然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。
第2步,建立预测模型并进行预测。
对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。
第3步,计算出最后的预测值。
用预测值乘以相应的季节指数,得到最终的预测值。
===============================================================================
2中国人民大学接受同等学历人员申请硕士学位考试试题
123201考题卷号:
2
一、(20分)在某小学随机抽取35名小学生,调查他们每周购买零食的花费情况,得到的数据如下(单位:
元):
24
17
26
29
38
6
28
44
39
8
30
32
40
10
20
27
43
33
15
4
35
47
25
45
16
36
37
5
列出描述上述数据所适用的统计量,并说明这些统计量的用途。
平均数:
用于度量对象的一般水平。
中位数(分位数):
用中间(某个)位置上的值代表数据水平,也用于度量对象的一般情况,且不受极值的影响具有稳定性。
方差(标准差):
用于描述一组数据的差异水平,越大说明数据的分布越分散不稳定。
偏态系数:
用于描述数据分布的不对称性,越接近0越对称。
峰度系数:
用于描述数据分布峰值高低,大于0为尖峰,小于0为扁平分布。
二、(20分)简要说明
分布和
分布在推断统计中应用。
t分布:
当正态总体标准差未知时,在小样本的条件下对总体均值的估计和检验要用到t分布。
描述样本均值分布,用于对两个样本均值差异进行显著性测试、估算置信区间等。
F分布:
通常用于比较不同总体的方差是否有显著差异。
应用于方差分析、协方差分析和回归分析等,还可用于似然比检验。
三、(20分)什么是
值?
要证明原假设不正确,如何确定合理的
P值:
犯第I类错误的真实概率,也称观察到的显著性水平。
是当原假设为真时,得到的样本结果会像实际观测结果这样极端或者更极端的概率。
若要证明原假设不正确,则由样本得到的P值应小于给定的显著性水平。
四、(20分)某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。
通过对每个工人生产的产品数进行方差分析得到下面的结果:
方差分析表
差异源
SS
df
MS
F
P-value
组间
210
0.245946
组内
3836
—
总计
(1)完成上面的方差分析表。
(2)组装方法与组装产品数量之间的关系强度如何?
(3)若显著性水平
,检验三种方法组装的产品数量之间是否有显著差异?
(1)
2*210=420
I-1=2
30-3=27
=142.07
420+3836=4256
(2)
从P值来看,组装方法与组装产品数量之间的关系强度较弱。
(3)
原假设:
三种方法每小时组装的产品数量没有差异
若显著性水平为0.05,则P>
0.05,因此不能拒绝原假设,即不能证明三种方法组装的产品数量之间有显著差异。
五、(20分)简要说明分解预测的基本步骤。
3中国人民大学接受同等学历人员申请硕士学位考试试题
3
一、(20分)在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表:
要对各名运动员进行综合评价,使用的统计量有哪些?
简要说明这些统计量的用途。
(1)集中趋势:
指一组数据向某一中心值靠拢的程度,它可以反映选手射击成绩中心点的位置
一组数据相加后除以数据的个数得到的结果。
若各组数据在组内是平均分布的,则计算的结果还是比较准确的,否则误差会比较大。
(如中国选手发挥很稳定,适合使用平均数判断其成绩)
中位数:
一组数据排序后处于中间位置上的变量值,但不受极端值的影响。
(如波兰选手大多数成绩比较平均,但有一枪打到8.1,会严重影响其平均值,但不会影响中位数)
(2)离散程度:
各变量值远离其中心值的程度,它可以反映选手发挥的稳定性
标准差:
方差的平方根,能够很好的反映出数据的离散程度,若选手的平均成绩差异不大,可以通过直接比较标准差的方式进行衡量
离散系数:
一组数据的标准差与其相应的平均数之比,离散系数越大则数据的离散程度也大,若选手的平均成绩差异很大,则需要计算离散系数比较稳定性
极差:
一组数据的最大值与最小值之差,它容易受极端值的影响,不能反映中间数据的分散情况,但可从另一方面选手是否存在发挥异常
(3)分布形状
峰态:
峰态是对数据分布平峰或尖峰程度的测度,当K>
0时为尖峰分布,数据的分布更集中;
当K<
0时为扁平分布,数据的分布越分散。
通过对选手的峰态分布情况分析,可看出成绩分布是否平均。
偏态:
偏态是对数据分布对称性的测量,若偏态系数明显不等于0,表明分布是非对称的,偏态系数的数值越大,表示偏斜的程度越大。
通过对选手的偏态分布情况情况分析,可看出选手成绩分布是否对称,是否受比赛时长影响。
二、(20分)为什么说假设检验不能证明原假设正确?
(1)假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设。
因为假设检验只提供不利于原假设的证据(证据的强弱取决于P值的大小)。
因此,当拒绝原假设时,表明样本提供的证据证明它是错误的;
当没有拒绝原假设时,我们也没法证明它是正确的,因为假设检验的程序没有提供它正确的证据。
(2)假设检验得出的结论都是根据原假设进行阐述的。
我们要么拒绝原假设,要么不拒绝原假设。
当不能拒绝原假设时,我们也不能说“接受原假设”,因为没有足够的证据拒绝原假设并不等于你已经证明了原假设时真的,它仅仅意味着目前我们还没有足够的证据证明原假设,只表示目前的样本提供的证据还不足以拒绝原假设。
(3)假设检验通常是先确定显著性水平α,这等于控制了第Ⅰ类错误的概率;
但犯第Ⅱ类错误的概率β却是不确定的。
在拒绝H0时,犯第Ⅰ类错误的概率不超过给定的显著性水平α;
当样本结果显示没有充分理由拒绝原假设时,也难以确定第Ⅱ类错误发生的概率。
因此,在假设检验中采用“不拒绝H0”而不采用“接受H0”的表述方法,这样在多数场合下便避免了第Ⅱ类错误发生的风险。
三、(20分)为估计公共汽车从起点到终点平均行驶的时间,一家公交公司随机抽取36班公共汽车,得到平均行驶的时间为26分钟,标准差为8分钟。
(1)说明样本均值服从什么分布?
依据是什么?
(2)计算平均行驶时间95%的置信区间。
(3)解释95%的置信水平的含义。
(z0.05=1.645,z0.025=1.96,t0.05=1.860,t0.025=2.306)
(1)样本均值服从正态分布。
通过中心极限定理:
设从均值为
,方差为
(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值
、方差
的正态分布。
一般统计学中的n
30为大样本,本题中抽取了36个样本,因此样本均值服从正态分布。
(2)已知n=36,
=26,s=8,置信区间95%所以
=
=1.96
平均行驶时间95%的置信区间为:
=26
1.96x
2.61即(23.39,28.61)
(3)一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平。
如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么用该方法构造的区间称为置信水平为95%的置信区间。
四、(20分)设单因素方差分析的数学模型为:
Yij=µ
+αi+εij。
解释这一模型的含义,并说明对这一模型的基本假定。
单因素方差分析指的是只有一种处理因素在影响结果,或者说只有一个自变量在影响因变量的情况。
(1)设任何一次实验结果都可以表示成如下形式:
Yi=μ+εi
其中Yi是第i次实验的实际结果,μ是该结果的最佳估计值,其实就是总体均值,εi是均值和实际结果的偏差也就是随机误差
(2)假定εi服从均值为0,标准差为某个定值的正态分布,把以上形式按照方差分析进行推广,假设我们要研究几种水平之间的差异,每种水平抽取一定样本并收集相关数据,那么模型公式可以表示为:
Yij=μi+εij
其中Yij是第i组水平的第j个样本的实际结果,μi是第i组的均值,εij是第i组第j个样本相对于实际结果的偏差。
同样假定εi服从均值为0,标准差为某个定值的正态分布,如果这i组水平没有差异,则Yij应等于总体均值加上随机误差项。
(3)为了方便统计推断,模型公式改为如下形式:
Yij=μ+αi+εij
其中μ表示不考虑分组时的总体均值,αi表示第i组的附加效应,即在第i组时的均值改变情况,例如αi=10,表示第i组的均值要比总体均值多10,如果这i组均值并无差异,那么α1=α2=α3=.....=αi,反之则不等,据此我们可以建立假设:
H0:
i取任意值时,αi=0
H1:
i取任意值时,至少有一个αi<
>
结合差异分解的方差分析思路,我们发现αi实际上就是处理因素导致的差异。
五、(20分)在多元回归中,判断共线性的统计量有哪些?
简要解释这些统计量。
(1)自变量间的相关系数矩阵:
如果相关系数超过0.9的变量在分析时将会存在共线性问题。
在0.8以上可能会有问题。
但这种方法只能对共线性作初步的判断,并不全面。
(2)容忍度(Tolerance):
以每个自变量作为应变量对其他自变量进、行回归分析时得到的残差比例,大小用1减决定系数来表示。
该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严重。
(3)方差膨胀因子(Varianceinflationfactor,VIF):
VIFj=1/(1-Rj2)j=1,2,…,m
其中Rj2为Xj与其余(m-1)个自变量线性回归的决定系数。
值越大,多元共线程度越严重。
4、特征根(Eigenvalue):
主要包括条件指数和方差比。
条件指数是最大特征根与每个特征根之比的平方根。
当对应的方差比大于0.5时,可认为多元共线性严重存在
4中国人民大学接受同等学历人员申请硕士学位考试试题
一、(20分)在2008年8月10日举行的第29届北京奥运会男子10米气手枪决赛中,最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示:
运动员
决赛成绩
庞伟
9.3
10.3
10.5
10.4
10.7
秦钟午
9.5
9.9
10.6
9.4
10.2
10.1
10.8
9.8
根据上表计算的韩国运动员秦钟午的平均环数是10.05环,标准差是0.445环。
比较分析哪个运动员的发挥更稳定。
(1)平均数、标准差:
庞伟的平均环数=10.22环,标准差是0.507;
秦钟午的平均环数=10.05环,标准差是0.445环,由于庞伟的平均环数明显大于秦钟午,因此只比较标准差不能说明二人的稳定性
(2)中位数:
庞伟的中位数=10.35,秦钟午的中位数=10,同样可以看出庞伟的成绩更优秀一些
(3)极差:
庞伟的极差=1.4,秦钟午的极差=1.4,两者极差相同
(4)离散系数:
庞伟的离散系数=0.0496,秦钟午的离散系数=0.0443
综上所述,选手庞伟的成绩更优秀,但秦钟午的发挥更稳定。
二、(20分)什么是统计意义上的显著性?
为什么说统计上显著不一定就有现实意义?
(1)在假设检验中,拒绝原假设称样本结果在“统计上是显著的”;
不拒绝原假设则称结果是“统计上不显著的”。
“显著的”在这里的意思是指非偶然的,它表示这样的样本结果不是偶然得到的,同样,结果是不显著的则表明这样的样本结果很可能是偶然得到的。
(2)在进行决策时,我们只能说P值越小,拒绝原假设的证据就越强,检验的结果也就越显著。
当P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义。
因为在假设检验中的“显著”仅仅是“统计意义上的显著”。
P值与样本的大小密切相关,样本量越大,检验统计量的值也就越大,P值就越小,就越可能拒绝原假设。
因此,当样本量很大时,解释假设检验的结果需要小心,因为在大样本情况下,总能把与假设值的任何细微差别查出来,即使这种差别几乎没有任何实际意义。
因此,在实际检验中,不能把“统计意义上的显著性”与“实际意义上的显著性”混同起来。
三、(20分)简要说明判断一组数据是否服从正态分布的统计方法。
(1)图示法
1.P-P图
以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,以样本值表现为直角坐标系的散点。
如果数据服从正态分布,则样本点应围绕第一象限的对角线分布。
2.Q-Q图
以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为直角坐标系的散点。
如果数据服从正太分布,则样本点应围绕第一象限的对角线分布。
3.直方图(频率直方图)
判断方法:
是否以钟型分布,同时可以选择输出正态性曲线。
4.箱线图
观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布。
5.茎叶图
观察图形的分布状态,是否是对称分布。
(2)偏度、峰度检验法
(3)非参数检验
非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro-Wilk(
W检验)。
当样本数N<
2000时,shapiro-wilk的W统计量检验正态性;
当样本数N>
2000时,Kolmogorov-Smirnov的D统计量检验正态性;
检验时,根据样本计算一个统计量即检验统计量D。
它把样本分布的形状和正态分布相比较,比较得出一个数值p(0<
p<
1,即实际的显著性水平)来描述对这个想法的怀疑程度。
如果p值小于给定的显著性水平,则拒绝原假设,认为数据不是来自正态分布,反之则认为数据来自正态分布。
正态分布的拟合优度检验
如Pearsonχ2检验、对数似然比检验
四、(20分)国家统计局目前对地区的划分中,将我国31个省市自治区划分为东部地区、中部地区、西部地区、东北地区。
(1)要分析四个地区的平均消费水平是否存在显著差异,所用的统计方法有哪些?
这些方法的区别是什么?
(2)你会选择什么方法进行分析?
你的假设是什么?
(1)可两两之间进行t检验或4组数据进行方差分析。
T检验:
两独立样本t检验(twoindependentsamplest-test),又称成组t检验。
适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。
完全随机设计是分别从不同总体中随机抽样进行研究,即本项目中从不同地区随机抽样进行研究相符合。
单因素方差分析:
研究一个分类型自变量对一个数值型因变量的影响,如本项目中就是研究四个不同地区对平均消费水平的影响。
区别:
T检验属于均值分析,它是用来检验两类母体均值是否相等。
均值分析是来考察不同样本之间是否存在差异,即两个不同地区之间消费水平是否存在显著差异;
而方差分析则是评估不同样本之间的差异是否由某个因素起主要作用,即消费水平的显著差异是否是由地区不同引起的。
并且通过单因素方差分析只能得出4组数据是否存在显著差异,并不能得出具体是哪几个地区之间有显著差异。
Kruskal-Wallis检验。
用于检验多个独立总体是否相同的一种非参数检验方法。
原假设:
四个地区平均消费水平相等,备择假设:
四个地区平均消费水平不全相等。
不需要方差分析的正态分布且方差相等的
假设。
该检验可用于顺序数据也可用于数值型数据
(2)我选择用单因素方差分析,因为本项目共分为4组数据,只要求分析他们之间是否存在显著差异,并不用确定具体差异如何存在的。
原假设为:
四个地区之间的平均消费水平没有显著差异。
若最终拒绝原假设,则说明四个地区之间的平均水平存在显著差异。
即证明了题目中的要求。
因为对四个地区的分布和方差未知,选择非参数方法。
五、(20分)一家房地产评估公司想对某城市的房地产销售价格y(元/m2)与地产的评估价值x1(万元)、房产的评估价值x2(万元)和使用面积x3(m2)建立一个模型,以便对销售价格作出合理预测。
为此,收集了20栋住宅的房地产评估数据,由统计软件给出的部分回归结果如下(显著性水平为95%):
方差分析
Sig.
回归
87803505.46
29267835.15
46.70
3.879E-08
残差
10028174.54
626760.91
19
97831680
Coefficients
标准误差
tStat
Intercept
148.7005
574.4213
0.2589
0.799
XVariable1