统计学30556统计思想综述题库答案重点讲义资料.docx

资源描述

统计学30556统计思想综述题库答案重点讲义资料.docx

《统计学30556统计思想综述题库答案重点讲义资料.docx》由会员分享，可在线阅读，更多相关《统计学30556统计思想综述题库答案重点讲义资料.docx（58页珍藏版）》请在冰豆网上搜索。

统计学30556统计思想综述题库答案重点讲义资料.docx

统计学30556统计思想综述题库答案重点讲义资料

感谢在校统招的同学帮忙把绝大多数都做了，但可能还是落下了少数题目。

如有高手能够补完，还请与其他同学分享。

卷1

一、

直方图：

直观的给出原始数据（电池寿命）的分布情况

箱线图：

直观的识别出原始数据（电池寿命）的异常值，并展示出分布的峰度和偏态。

二、

（1）方差分析中有三个基本的假定。

1、正态性：

每个总体都应服从正态分布，即对于因子的每一个水平，其观测值是来自正态分布总体的简单随机样本；

2、方差齐性：

各个总体的方差必须相同；

3、独立性：

每个样本数据是来自因子各水平的独立样本。

（2）在上述3个假定中，对独立性的要求比较严格，若该假设得不到满足时，方差分析的结果往往会受到较大影响。

而对正态性和方差齐性的要求相对比较宽松。

三、

（1）拒绝的结论是：

该食品每袋的平均重量不是100克；不拒绝的结论是：

样本提供的证据不能证明该食品每袋的平均重量不是100克。

（2）不能。

样本得出的结论只能用于拒绝原假设，而不能证明原假设为真。

（3）结论：

若该食品每袋的平均重量是100克，则得到的样本会像现在观测到的结果这样极端或者更极端的概率仅为0.03。

解释P值：

若给定显著性水平为0.05，则可以拒绝原假设，认为该食品每袋的平均重量不是100克；但若给定显著性水平为0.01，则不能拒绝原假设。

四、

（1）若将所有的自变量都引入回归模型，往往会导致所建立的模型不能进行有效的解释，也可能会导致多重共线性。

（2）变量筛选有向前选择、向后剔除、逐步回归等方法。

特点如下。

向前选择：

从没有自变量开始，不停向模型中增加自变量，直到增加不能导致SSE显著增加为止。

向后剔除：

从所有自变量开始，不停从模型中剔除自变量，直到剔除不能导致SSE显著减小为止。

逐步回归：

结合向前选择和向后剔除，从没有自变量开始，不停向模型中增加自变量，每增加一个自变量就对所有现有的自变量进行考察，若某个自变量对模型的贡献变得不显著就剔除之。

如此反复，直到增加变量不能导致SSE显著减少为止。

五、

有季节性多元回归模型、时间序列分解法等方法。

季节性多元回归模型引入虚拟变量来表示季节，对于以季度记录的数据，引入3个虚拟变量Q1、Q2、Q3，其中Q1=1（第1季度）或0（其他季度），Q2=1（第2季度）或0（其他季度），Q3=1（第3季度）或0（其他季度），则季节性多元回归模型表示为：

其中b0是时间序列平均值，b1是去市场分的洗漱，表示趋势给时间序列带来的影响，b2、b3、b4表示每一季度与参照的第4季度的平均差值。

时间序列分解法分3步：

第一步，确定并分离季节成分。

计算季节指数，确定时间序列中的季节成分。

然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数以消除季节性。

第二步，建立预测模型并进行预测。

对消除了集结成分的时间序列建立适当的预测模型，饼干局这一模型进行预测。

第三步，计算出最后的预测值。

用预测值乘以相应的季节之术，得到最终的预测值。

卷2

一、

平均数：

用于表示统计对象的一般水平，常为算术平均数。

中位数：

也可用于表示统计对象的一般情况，而且不受极值的影响。

方差：

用于描述数据的离散程度，越大说明数据的分布越分散。

偏态系数：

用于描述数据分布的不对称性。

峰度系数：

用于描述数据分布的尖峰或平峰程度。

二、

t分布：

描述样本均值分布，用于对两个样本均值差异进行显著性测试、估算置信区间等。

F分布：

应用于方差分析、协方差分析和回归分析等，还可用于似然比检验。

三、

P值是当原假设为真时，得到的样本会像现在观测到的结果这样极端或者更极端的概率。

若要证明原假设不正确，则由样本得到的P值应小于给定的显著性水平。

四、

（1）

差异源

P-value

组间

420

210

1.478

0.245946

组内

3836

142.074

—

总计

4256

—

（2）

从P值来看，组装方法与组装产品数量之间的关系强度较弱。

（3）

若显著性水平为0.05，则P>0.05，因此不能拒绝原假设，即不能证明三种方法组装的产品数量之间有显著差异。

五、

时间序列分解法分3步：

第一步，确定并分离季节成分。

计算季节指数，确定时间序列中的季节成分。

然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数以消除季节性。

第二步，建立预测模型并进行预测。

对消除了集结成分的时间序列建立适当的预测模型，饼干局这一模型进行预测。

第三步，计算出最后的预测值。

用预测值乘以相应的季节之术，得到最终的预测值。

考题卷号：

一、（20分）在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中，进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表：

要对各名运动员进行综合评价，使用的统计量有哪些？

简要说明这些统计量的用途。

有,平均数、众数和中位数、方差、离散系数、偏态和峰态

其中平均数、众数和中位数是评价数据的集中趋势的，可以座位数的平均水平或代表值，三者略有差异。

三者特点和差异如下

众数不受极端值影响

具有不惟一性

数据较多时有意义，且有明显峰值时应用

中位数

不受极端值影响

数据分布偏斜程度较大时应用

平均数

易受极端值影响

利用了全部数据信息，数学性质优良

数据对称分布或接近对称分布时应用较好

当要用样本信息对总体进行推断时，平均数就更显示出它的各种优良特性

方差、离散系数都是可以评价数据的离散程度的。

二、（20分）为什么说假设检验不能证明原假设正确？

1.假设检验的目的主要是收集证据拒绝原假设，而支持你所倾向的备择假设。

因为假设检验只提供不利于原假设的证据

2.假设检验得出的结论都是根据原假设进行阐述的。

当不能拒绝原假设时，我们也从来不说“接受原假设”，因为没有证明原假设是真的。

没有足够的证据拒绝原假设并不等于你已经“证明”了原假设是真的，它仅仅意为着目前还没有足够的证据拒绝原假设，只表示手头上这个样本提供的证据还不足以拒绝原假设。

“不拒绝”的表述方式实际上意味着没有得出明确的结论

3.假设检验中通常是先确定显著性水平，这就等于控制了第Ι类错误的概率，但犯第Ⅱ类错误的概率却是不确定的。

三、（20分）为估计公共汽车从起点到终点平均行驶的时间，一家公交公司随机抽取36班公共汽车，得到平均行驶的时间为26分钟，标准差为8分钟。

（1）说明样本均值服从什么分布？

依据是什么？

（2）计算平均行驶时间95%的置信区间。

（3）解释95%的置信水平的含义。

（

，

）

略

四、（20分）设单因素方差分析的数学模型为：

。

解释这一模型的含义，并说明对这一模型的基本假定。

模型表明，因变量手自变量的变动主要来自于两方面，一个自变量，另一个是随机扰动。

基本假定：

随机扰动服从正态分布

五、（20分）在多元回归中，判断共线性的统计量有哪些？

简要解释这些统计量。

答案见第五套题

考题卷号：

一、（20分）在2008年8月10日举行的第29届北京奥运会男子10米气手枪决赛中，最后获得金牌和银牌的两名运动员10枪的决赛成绩如下表所示：

运动员

决赛成绩

庞伟

9.3

10.3

10.5

10.3

10.4

10.3

10.7

10.4

10.7

9.3

秦钟午

9.5

9.9

10.6

10.3

9.4

10.2

10.1

10.8

9.9

9.8

根据上表计算的韩国运动员秦钟午的平均环数是10.05环，标准差是0.445环。

比较分析哪个运动员的发挥更稳定。

可以算出中国选手的平均数和方差，方差小的发挥更稳定

二、（20分）什么是统计意义上的显著性？

为什么说统计上显著不一定就有现实意义？

统计意义上的显著性是指规定一个最小的容错概率，如果犯错的概率小于这个容错概率则说是显著的，但在现实中各个行业各个领略同样的容错概率对应的意义不同，同样的容错概率在有的行业带来的损失要远大于其他行业，所以要根据实际情况来看。

具体的来说：

在假设检验中，拒绝原假设称样本结果在“统计上是显著的”；不拒绝原假设则称结果是“统计上不显著的”。

“显著的”在这里的意义是指“非偶然的”，它表示这样的样本结果不是偶然得到的，同样，结果是不显著的，则表明这样的样本结果很可能是偶然得到的。

在进行决策时，我们只能说P值越小，拒绝原假设的证据就越强，检验的结果也就越显著。

当P值很小而拒绝原假设时，并不一定意味着检验的结果就有实际意义，因为假设检验中所说的“显著”仅仅是“统计意义上的显著”。

也就是说，一个在统计上显著的结论在实际中却不见得就很重要，也不以为着就有实际意义

三、（20分）简要说明判断一组数据是否服从正态分布的统计方法。

方法有很多，即雅克贝拉检验还有其他一些分布检验如卡方检验，K-S检验、即雅克贝拉检验、PP图，或QQ图及偏态和直方图。

样量化判断数据是否服从正态分布？

数据是否服从正态分布，除了做数据分布直方图来判断，是不是还可用公式计算？

量化计算方法是什么？

j-b检验，即雅克贝拉检验还有其他一些分布检验如卡方检验，K-S检验，，都是用来检验分布的。

游程检验也可以用来检验分布。

你可以使用SPSS的explore，或PP图，或QQ图，具体的一般可以万采取下列几种做法1、K-S检测，在explore中会有这一选项，在非参数检验中也有，它会给出一个sig，你通过看这个数就可以判断数据是否服从正态分布2、通过P-P图目测，这样做的好处在于直观3、就是看峰度和偏度了，你要问偏度在什么范围内是服从正态分布，这个统计学上没有定论，如果偏度等于0就是完美的，一般接近这个值就可以了

（20分）国家统计局目前对地区的划分中，将我国31个省市自治区划分为东部地区、中部地区、西部地区、东北地区。

（1）要分析四个地区的平均消费水平是否存在显著差异，所用的统计方法有哪些？

这些方法的区别是什么？

（2）你会选择什么方法进行分析？

你的假设是什么？

（1）可以选用的方法有F检验，非参中的ridit方法。

假定不同

（2）我会选非参方法。

原假设为四个地区平均消相同费水平

四、（20分）一家房地产评估公司想对某城市的房地产销售价格

（元/m2）与地产的评估价值

（万元）、房产的评估价值

（万元）和使用面积

（m2）建立一个模型，以便对销售价格作出合理预测。

为此，收集了20栋住宅的房地产评估数据，由统计软件给出的部分回归结果如下（显著性水平为95%）：

方差分析

Sig.

回归

87803505.46

29267835.15

46.70

3.879E-08

残差

10028174.54

626760.91

总计

97831680

Coefficients

标准误差

tStat

P-value

Intercept

148.7005

574.4213

0.2589

0.799

XVariable1

0.8147

0.512

1.5913

0.1311

XVariable2

0.821

0.2112

3.8876

0.0013

XVariable3

0.135

0.0659

2.0503

0.0571

对所建立的回归模型进行综合评价。

从F检验来看，模型整体是很显著地。

具体来看XVariable2和XVariable3显著性更强，如果将各变量的交互项考虑进来会更好。

考题卷号：

一、（20分）为研究大学生的逃课情况。

随机抽取350名大学生进行调查，得到的男女学生逃课情况的汇总表如下。

是否逃课

男

女

合计

逃过课

172

未逃过课

100

178

合计

（1）这里涉及的变量有哪些？

这些变量属于什么类型？

（2）描述上述数据所适用的统计图形有哪些？

答：

（1）有分类变量和数量变量，分类变量有是否逃课，数量变量有逃过课的人数和为逃过课的人数。

（2）可以用条形图或者饼图。

二、（20分）现从一批零件中随机抽取16只，测得其长度（单位：

厘米）如下：

15.1

14.5

14.8

14.6

15.2

14.8

14.9

14.6

14.8

15.1

15.3

14.7

15.0

15.2

15.1

14.7

（1）如果要使用

分布构建零件平均长度的置信区间，基本的假定条件是什么？

（2）构建该批零件平均长度的95%的置信区间。

（3）能否确定该批零件的实际平均长度就在你所构建的区间内？

为什么？

（注：

）

略

三、（20分）在假设检验中，当不拒绝原假设时，为什么一般不采取“接受原假设”的表示方式？

因为不拒绝原假设不能证明原假设正确

1.假设检验的目的主要是收集证据拒绝原假设，而支持你所倾向的备择假设。

因为假设检验只提供不利于原假设的证据

2.假设检验得出的结论都是根据原假设进行阐述的。

当不能拒绝原假设时，我们也从来不说“接受原假设”，因为没有证明原假设是真的。

“不拒绝”的表述方式实际上意味着没有得出明确的结论

3.假设检验中通常是先确定显著性水平，这就等于控制了第Ι类错误的概率，但犯第Ⅱ类错误的概率却是不确定的

四、（20分）简要说明

分布在统计中的应用。

卡方分布应用很广，常用于假设检验和置信区间的计算，比如应用到独立性检验中，同质性检验、适合性检验等等

五、（20分）简要说明解决多元回归中共线性的方法。

有如下方法：

（1）方差膨胀因子（varianceinflationfactors，）

其中为与其余（m-1）个自变量线性回归的决定系数。

值越大，多元共线程度越严重

（2）特征根系统（systemofeigenvalues）主要包括条件指数和方差比。

条件指数是最大特征根与每个特征根之比的平方根。

当且对应的方差比大于0.5时，可认为多元共线性严重存在

考题卷号：

一、（20分）一家电视台为了解观众对某档娱乐节目的喜欢程度，对不同年龄段的男女观众进行了调查，得到喜欢该档娱乐节目的观众比例（单位：

%）如下：

年龄段

男性

女性

20岁以下

20—30岁

30—40岁

40—50岁

50岁以上

（1）这里涉及的变量有哪些？

这些变量属于什么类型？

（2）描述上述数据所适用的统计图形有哪些？

答：

（1）有分类变量和数量变量。

分类变量有性别，年龄段。

数量变量有各年龄段的男女人数。

（2）可以用条形图和饼图

二、（20分）假定总体共有1000个个体，均值

，标准差

。

从中抽取容量为100的所有简单随机样本。

样本均值

的期望值和标准差各是多少？

得出上述结论所依据的是统计中的哪一个定理？

请简要叙述这一定理。

计算略，是中心极限定理，定理如下

设从均值为μ、方差为σ^2;（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布

三、（20分）在假设检验中，利用

决策与利用统计量决策有什么不同？

P值：

如果能把犯第Ⅰ类错误的真实概率算出来，就可以直接用这个概率做出决策。

而不需要管什么事先给定的显著性水平α，这个犯第Ⅰ类错误的真实概率就是P值。

不同：

统计量检验是根据事先确定的显著性水平α围成的拒绝域作出决策，不论检验统计量的值是大是小，只要把它落入拒绝域就拒绝原假设H。

否则就不拒绝H。

这样，无论统计量落在拒绝域的什么位置，你也只能说犯第一错误的概率为α，而用P值检验则能把犯第Ⅰ类错误的真实概率算出来。

四、（20分）简要说明方差分析的基本原理。

方差分析被解释为检验多个总体均值是否相等的统计方法，这种解释侧重于方差分析的过程和形式。

本质上，方差分析研究的是分类自变量对数值因变量的影响

方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小，从而判断该因素对总体是否有统计意义

五、（20分）比较说明指数曲线和直线的异同。

略

考题卷号：

一、（20分）一项关于大学生体重状况的研究发现，男生的平均体重为60kg，标准差为5kg；女生的平均体重为50kg，标准差为5kg。

请回答下面的问题

（1）是男生的体重差异大还是女生的体重差异大？

为什么？

（2）粗略地估计一下，男生中有百分之几的人体重在55kg到65kg之间？

（3）粗略地估计一下，女生中有百分之几的人体重在40kg到60kg之间？

答：

（1）女生差异大，因为女生变异系数大。

计算略

2假设为正态分布，一个标准差之内概率约为68.3%

3同上，两个标准差之内约为94.5%

二、（20分）叙述评价估计量的标准。

评价估计量的标准有：

无偏性。

无偏性是指估计量抽样分布的期望值等于被估计的总体参数。

有效性。

有效性是指估计量的方差尽可能小。

一致性。

一致性是指随着样本量的增大，点估计量的值越来越接近被估计总体的参数

三、（20分）一家房地产开发公司准备购进一批灯泡，公司打算在两个供货商之间选择一家购买，两家供货商生产的灯泡使用寿命的方差大小基本相同，价格也很相近，房地产公司购进灯泡时考虑的主要因素就是使用寿命。

其中一家供货商声称其生产的灯泡平均使用寿命在1500小时以上。

如果在1500小时以上，在房地产公司就考虑购买。

由36只灯泡组成的随机样本表明，平均使用寿命为1510小时，标准差为193小时。

（1）如果是房地产开发公司进行检验，会提出怎样的假设？

请说明理由。

（2）如果是灯泡供应商进行检验，会提出怎样的假设，请说明理由。

四、（20分）什么是判定系数？

它在回归分析中的主要作用是什么？

判定系数（又称拟合优度或决定系数）是建立在回归分析基础之上的，用于研究一个随机变量对别一个随机变量的解释程度，该值的取值范围为0≤R2≤1，值越接近1，说明自变量对因变量的解释程度越高，自变量引起的因变量变动占总变动的百分比越高

计算公式

五、（20分）说明

分布的适用条件，如何判断某个过程产生的数据满足这一条件？

一个总体参数的估计：

t分布适用于小样本、正态总体、总体方差未知的情况。

置信区间为均值加减（自由度为n-1个自由度，右侧面积为α/2的t值乘以s/根号下n）

两个总体参数的估计：

t适用于均值差是独立小样本、正态分布、两个总体方差未知（不管等不等）的情况

判断方法：

可以做独立性和是否满足正态分布的检验，或者根据已知信息及相关图形来判断。

考题卷号：

一、（20分）在金融证券领域，一项投资的的预期收益率的变化通常用该项投资的风险来衡量。

预期收益率的变化越小，投资风险越低，预期收益率的变化越大，投资风险就越高。

下面的两个直方图，分别反映了200种商业类股票和200种高科技类股票的收益率分布。

在股票市场上，高收益率往往伴随着高风险。

但投资于哪类股票，往往与投资者的类型有一定关系。

（1）你认为该用什么样的统计量来反映投资的风险？

（2）如果选择风险小的股票进行投资，应该选择商业类股票还是高科技类股票？

（3）如果你进行股票投资，你会选择商业类股票还是高科技类股票？

答：

（1）可以用反应收益率变动的统计量，如方差，来衡量

2）商业类，从图上看集中趋势明显，方差小

3）我是风险偏好性，会选高科技类

二、（20分）某种感冒冲剂规定每包重量为12克，超重或过轻都是严重问题。

从过去的生产数据得知

克，质检员抽取25包冲剂称重检验，平均每包的重量为11.85克。

假定产品重量服从正态分布。

（1）根据上述检验计算出的

，感冒冲剂的每包重量是否符合标准要求（

）？

（2）说明上述检验中可能犯哪类错误？

该错误的实际含义是什么？

答：

1）可知（11.85-12）/（0.6/根号25）=-1.25<0.02对应的分位数（因为1.96是0.05对应的分位数，0.02的会更大），所以题目估计有错。

不管按0.05还是0.02，都是拒绝原假设

2）可能犯第一类错误（去真的错误），实际含义为原假设为真，但判断时拒绝了。

三、（20分）简述方差分析的基本假定。

有三大假定：

可加性。

方差分析的每一次观察值都包含了总体平均数、各因素主效应、各因素间的交互效应、随机误差等许多部分，这些组成部分必须以叠加的方式综合起来，即每一个观察值都可视为这些组成部分的累加和。

正态性

即随机误差 ε 必须为相互独立的正态随机变量。

这

方差同质性（齐性）。

即要求所有处理随机误差的方差都要相等，换句话说不同处理不能影响随机误差的方差。

由于随机误差的期望一定为 0

四、（20分）怎样自相关图和偏自相关图来识别ARIMA（

）模型中的参数？

五、（20分）什么是回归中的置信区间估计和预测区间估计？

两个区间的宽度是否一样？

取何值时两个区间宽度最窄？

置信区间估计（confidenceintervalestimate）：

利用估计的回归方程，对于自变量x的一个给定值x0，求出因变量y的平均值的估计区间。

预测区间估计（predictionintervalestimate）：

利用估计的回归方程，对于自变量x的一个给定值x0，求出因变量y的一个个别值的估计区间

取平均值的时候

考题卷号：

一、（20分）为研究少年儿童的成长发育状况，某研究所的一位调查人员在某城市抽取100名7～17岁的少年儿童作为样本，另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。

请回答下面的问题，并解释其原因。

（1）哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大？

或者这两组样本的平均身高相同？

（2）哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大？

或者这两组样本的标准差相同？

（3）哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者？

或者对两位调查研究人员来说，这种机会是相同的？

答：

1）如果抽样是随机的，抽样样本数目对样本平均值没有决定作用，答案是不确定的。

2）如果抽样是随机的，抽样样本数目对样本方差也没有决定作用，答案是不确定的

3）不确定。

都有可能

二、（20分）在参数统计分析中，应用

分布、

分布和

分布的假定条件是什么？

如何判断样本数据是否满足假定条件。

答：

t分布假定：

样本服从正态分布，方差未知，（用于估计平均值）

分布假定：

样本服从正太分布，n个样本平方和服从自由度n-1的

分布

F分布假定：

分子分母分别为服从

分布的统计量除以其相应的自由度，且互相独立；构成

分布的两总体自然服从正太分布。

分别作相应的假设检验即可。

三、（20分

展开阅读全文