应用统计硕士统计学专业硕士曾五一《统计学导论》考研真题.docx
《应用统计硕士统计学专业硕士曾五一《统计学导论》考研真题.docx》由会员分享,可在线阅读,更多相关《应用统计硕士统计学专业硕士曾五一《统计学导论》考研真题.docx(20页珍藏版)》请在冰豆网上搜索。
应用统计硕士统计学专业硕士曾五一《统计学导论》考研真题
应用统计硕士统计学专业硕士曾五一《统计学导论》考研真题
一、 名校考研真题
2014年中央财经大学432统计学考研真题及详解
一、单项选择题(每小题1.5分,共30分)
1据统计,2012年北京市共招收本、专科学生16.2万人,研究生8.7万人。
这里学生的“学历”(专科、本科、研究生)的计量尺度是( )。
A.定类尺度
B.定序尺度
C.定距尺度
D.定比尺度
【答案】B@@###
【解析】定序尺度又称顺序尺度,它是对事物之间等级差或顺序差别的一种测度。
该尺度不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。
或者说,它不仅可以测度类别差,还可以测度次序差。
例如,产品等级就是对产品质量好坏的一种次序测度。
很显然,定序尺度对事物的计量要比定类尺度精确一些,所以对学历的计量尺度应为定需尺度。
2以下北京市2012年的统计指标中属于时期数的是( )。
A.年末常住人口为2069.3万人
B.实现地区生产总值17801亿元
C.年末全市汽车保有量520万辆
D.年末实有城镇登记失业人员7.2万人
【答案】B@@###
【解析】时期数反映的是现象在一段时期内的总量。
ACD三项,年末为一时刻,其相应的统计指标属于时点数,为截面数据。
B项,北京市2012年实现地区生产总值17801亿元,为2012年这一年的指标的变化,体现了时期性。
3已知2012年全年证券市场各类证券成交额85412.9亿元,比上年增长8%。
则2011年证券成交额为( )亿元。
A.85412.9×8%
B.85412.9×92%
C.85412.9÷(100%+8%)
D.以上都不对
【答案】C@@###
【解析】
,则
。
由题意,
根据以下数据回答4—5问题:
两组工人加工同一种零件,第一组5人每天加工的零件数分别为:
36,25,29,28,26。
巧合的是,第二组5人每天加工的零件数分别比第一组的工人多3件:
39,28,32,31,29。
4.两组工人加工零件数的方差( )。
A.一组大于二组
B.二组大于一组
C.相同
D.无法比较
【答案】C@@###
【解析】方差是各变量值与其平均数离差平方的平均数,反映数据的绝对离散程度。
两组工人人数相同,且第二组工人每天加工的零件数分别比第一组的工人多3件,因此两组数据的绝对离散程度一样,方差相同。
5两组工人加工零件数的离散系数( )。
A.一组大于二组
B.二组大于一组
C.相同
D.无法比较
【答案】A@@###
【解析】离散系数是一组数据的标准差与其相应的平均数之比,测度数据的相对离散程度。
由于两组数据的标准差相同,而第二组数据均值较大,因此二组的离散系数较小。
6在抽样推断中,需要推断的总体参数是一个( )。
A.统计量
B.已知的量
C.随机变量
D.未知的量
【答案】D@@###
【解析】总体参数是对总体特征的某个概括性的度量。
总体参数一般是未知的,可以利用样本信息来推断。
7以下关于统计量的说法中错误的是( )。
A.总体参数的无偏估计量是唯一的
B.统计量是随机变量
C.统计量可以根据样本数据计算
D.可以使用不同的统计量来估计同一个总体参数
【答案】A@@###
【解析】统计量是直接从样本计算出的,代表样本的特征。
当估计量的均值等于被估计总体参数的真值,即为总体参数的无偏估计量。
A项,总体参数的无偏估计量不唯一。
8以下反映集中趋势的测度指标中,不受极端值影响的是( )。
A.均值
B.中位数
C.众数
D.中位数和众数
【答案】D@@###
【解析】中位数是一组数据中间位置上的代表值,众数是一组数据分布的峰值,二者均不受极端值的影响。
均值是所有数据的加和然后除以样本量,受极端值的影响。
9从0—1分布总体中进行不放回抽样,样本中取值为1的个体数服从( )。
A.两点分布
B.二项分布
C.超几何分布
D.泊松分布
【答案】C@@###
【解析】超几何分布的模型是不放回抽样,描述由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数。
10有一个样本容量为10的样本,其均值为1300小时,方差为8175.56。
若按放回抽样计算,则样本均值的标准误是( )。
A.28.35小时
B.28.59小时
C.29.61小时
D.以上都不对
【答案】B@@###
【解析】样本均值的标准误是描述均值抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映样本均数之间的变异。
其计算公式为:
。
11在一项化妆品市场调查中,考虑到男女性别对化妆品的要求有所不同,抽样时分别从男性和女性消费者中独立地随机抽取相同比例的人数作样本,这种抽样方式是( )。
A.简单随机抽样
B.分层抽样
C.系统抽样
D.整群抽样
【答案】B@@###
【解析】分层抽样是先将总体的单位按某种特征分为若干级次层,然后再从每一层内进行单纯随机抽样,组成一个样本。
调查中先将总体按性别分为两层,再从这两层内独立随机抽取,为分层抽样。
12在单样本t检验中,备择假设是总体均值>1000,则这属于( )。
A.左侧检验
B.右侧检验
C.双侧检验
D.双尾检验
【答案】B@@###
【解析】A项,若假设检验的拒绝区域在样本统计量分布的左端,则称这种单侧检验为左侧检验,它适用于担心样本统计量会显著低于假设的总体参数的情况。
B项,右侧检验的拒绝区域在样本统计量分布的右端,适用于如原假设
,而备择假设
的情况。
CD两项,双侧检验或双尾检验
,其目的是观察在规定的显著水平下所抽取的样本统计量是否显著地高于或低于假设的总体参数。
13某参数估计量的取值随着样本容量的无限增大越来越接近于参数的真值,则表明该估计量符合( )。
A.无偏性
B.一致性
C.有效性
D.充分性
【答案】B@@###
【解析】A项,无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。B项,一致性是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。
C项,有效性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。D项,充分性不属于评价估计量的标准。
14以下关于抽样误差的说法错误的是( )。
A.其它条件相同时,总体的差异程度越大,抽样误差就越大
B.其它条件相同时,样本容量越大,抽样误差越小
C.不重复抽样中的抽样误差要大于重复抽样
D.在非概率抽样中无法对抽样误差进行控制
【答案】C@@###
【解析】影响抽样误差大小的因素主要有:
①总体单位标志值的差异程度;②样本单位数的多少;③抽样方法;④抽样调查的组织形式。
C项,重复抽样比不重复抽样误差要大些。
15我国最近完成的经济普查属于( )。
A.抽样调查
B.经常性调查
C.统计报表制度
D.全面调查
【答案】D@@###
【解析】经济普查是国家为掌握国民经济第二产业、第三产业的发展规模、结构、效益等信息,按照统一的方法、统一标准、统一时间、统一组织对工业、建筑业、第三产业的所有单位和个体经营户进行的一次性全面调查。
16为了对总体均值进行估计,从总体中直接抽取一个随机样本,测得样本均值为100。
则以下说法错误的是( )。
A.样本均值是总体均值的无偏估计
B.样本均值是总体均值的估计量
C.“100”是总体均值的估计值
D.“100”是总体均值的估计量
【答案】D@@###
【解析】在参数估计中,用来估计总体参数的统计量的名称称为估计量,如样本均值、样本方差等;而根据一个具体的样本计算出来的估计量的数值称为估计值。
D项,根据样本计算的均值即样本均值是一个估计量,其具体数值100即为估计值。
17以下关于置信区间的说法正确的是( )。
A.置信区间一定包含待估总体参数的真值
B.置信区间只能以一定概率包含真值
C.置信区间越宽越好
D.以上都不对
【答案】B@@###
【解析】置信区间又称估计区间,用来估计参数的取值范围。
AB两项,在某种程度上,置信区间会包含真正的总体参数;C项,置信区间越宽,参数估计的精确性越低。
但是对于固定的置信区间,它包含真值的概率为0或者1,换句话说,要么包含真值,要么不包含真值。
18两个变量的样本相关系数等于0.3,对相关系数进行双侧检验的P值等于0.0375,则以下说法正确的是:
( )。
A.在5%的显著性水平下可以拒绝总体相关系数为O的零假设
B.在5%的显著性水平下可以拒绝总体相关系数不等于0的零假设
C.在1%的显著性水平下可以拒绝总体相关系数为0的零假设
D.在1%的显著性水平下可以拒绝总体相关系数不等于O的零假设
【答案】A@@###
【解析】P值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,可以拒绝原假设。
该题中P<5%,则可以在5%的显著性水平下拒绝原假设r=0。
19进行假设检验所依据的基本原理是( )。
A.小概率事件在一次试验中不可能发生原则
B.大数定律法则
C.零假设与备择假设二者必取其一原则
D.依据样本信息推断总体信息原则
【答案】A@@###
【解析】小概率事件在一次试验中发生的概率非常小,如果在一次试验中,小概率事件发生了,我们就拒绝原假设。
20某地区2006—2010年GDP连续5年的环比增长速度为3%,2%,4%,6%和7%,则以2005年为基期,2006—2010年5年的定基发展速度为( )。
【答案】B@@###
【解析】环比增长速度是逐期增长量与前一期发展水平之比的相对数。
环比发展速度是以报告期水平与前一时期水平之比计算的发展速度。
二者关系为:
环比增长速度=环比发展速度-1。
定基发展速度是指以报告期水平与某一固定时期水平之比计算的发展速度,它等于环比发展速度的连乘积。
因此2006-2010年5年的定基发展速度等于该5年(环比增长速度+1)的连乘积,即
。
二、多项选择题(在备选答案中有两个或更多选项是正确的。
多选、少选均不得分。
每小题2分,共10分。
)
1一组数据的直方图如右图。
根据这个图形,以下说法正确的有:
( )。
A.这种分布是右偏分布
B.这种分布是左偏分布
C.根据这组数据计算的偏态系数大于零
D.根据这组数据计算的偏态系数小于零
E.这组数据的中位数小于其平均数
【答案】ACE@@###
【解析】AB两项,从图中可以看出,数据分布右边的尾部比左边的尾部长,呈右偏分布。
CD两项,测度偏态的统计量是偏态系数,偏态是对数据分布对称性的测度。
当分布不对称时,若偏态系数为正,可判断为正偏或右偏;反之若为负,可判断为负偏或左偏。
图中数据分布呈右偏,因此偏态系数为正。
E项,如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则众数<中位数<平均数。
2在估计总体比例的抽样调查中,计算必要样本容量时哪些方法可以用来估计总体方差:
( )。
A.根据试点调查的结果估计
B.根据历史资料估计
C.将总体方差假设为0.25
D.将总体比例假设为0.5
E.将总体方差假设为0.5
【答案】ABCD@@###
【解析】在计算样本容量时,必须知道总体的方差。
而在实际抽样调查前,往往总体的方差是未知的。
在实际操作时,一般用如下办法解决:
①利用预调查或试调查的结果估计;②利用过去的资料估计;③若曾有若干个方差,应选择最大的,以保证抽样估计的精确度。
总体比例估计问题中常取
,
。
3随机变量概率分布的表示方式有( )。
A.概率分布图
B.概率分布函数式
C.回归函数式
D.概率分布表
E.方差分析表
【答案】ABD@@###
【解析】随机变量的概率分布的表示方式有概率分布表、概率分布图和概率分布函数式三种。
4在对单个样本均值的t检验(双侧检验)中,根据样本计算得到的t值等于3.57,己知在5%的显著性水平下临界值等于2.12,则以下说法正确的有:
( )。
A.根据t统计量的实际值和临界值应该拒绝零假设
B.根据t统计量的实际值和临界值不能拒绝零假设
C.在这一检验中如果计算相应的P值,则P值>0.05
D.在这一检验中如果计算相应的P值,则P值<0.05
E.根据现有数据无法得出结论
【答案】AD@@###
【解析】双侧检验的目的是观察在规定的显著性水平下所抽取样本统计量是否显著地高于或低于假设的总体参数。
高于或低于说明在一次观察中小概率事件发生了,而这几乎是不可能的,因此在这种情况下拒绝原假设。
AB两项,t统计量的实际值为3.57,大于其临界值2.12,拒绝原假设。
CD两项,显著性水平为5%,则在双侧检验中,P>0.05不能拒绝原假设;反之,P<0.05则拒绝原假设。
因此该题中P值应小于0.05。
5用普通最小平方法估计一元线性回归方程时,假设
则以下结论成立的有( )。
【答案】BDE@@###
【解析】普通最小平方法又称最小二乘法,即为选择一条直线,使其残差平方和达到最小值的方法。
D项,即选择
,使得
达到最小值。
B项,
,又
,因此
。
E项,
。
三、简答题(每小题8分,共32分)
1分别说明分层抽样和整群抽样方式的组织方式和特点。
答:
(1)组织方式:
分层抽样是先对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽选一定单位构成样本。
整群抽样是先将总体划分为若干群,再从中任意抽取几群,然后对抽中的群作全面调查。
(2)分层抽样特点:
①分层抽样除了可以对总体进行估计外,还可以对各层子总体进行估计;②在一定条件下为组织实施调查提供了方便;③分层抽样可以有效地提高估计的精度。
整群抽样特点:
①在大规模抽样调查中,整群抽样大大简化了编制抽样框的工作量;②在样本单元数相同的条件下可以节省调查费用,方便调查的实施。
2.什么是假设检验中的两类错误?
他们之间有什么关系?
答:
(1)假设检验中的两类错误是指在假设检验中,由于样本信息的局限性而产生的错误,包含以下两类:
①第一类错误(Ⅰ类错误)也称为α错误或弃真错误,是指当虚无假设(H0)正确时,而拒绝H0所犯的错误。
②第二类错误(Ⅱ类错误)也称为β错误或取伪错误,是指虚无假设错误时,反而接受虚无假设的情况。
(2)二者存在密切关系。
α+β不一定等于1,在样本容量确定的情况下,α与β不能同时增加或减少。
在假设检验中α和β存在此消彼长的关系。
使α和β同时变小的办法,就是增大样本量。
3试述使用普通最小二乘法估计线性回归模型时需要的基本假设。
答:
普通最小二乘法是使因变量的观察值
与估计值
之间的离差平方和达到最小来估计
和
的方法。
为了对回归估计进行有效地解释,必须对随机扰动项
和解释变量
进行科学的抽象即假定,这些假定称为线性回归模型的基本假定。
主要有以下几个方面:
(1)因变量y与自变量x之间具有线性关系。
(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。
(3)零均值假定:
随机扰动项
可正可负,发生的概率大致相同。
平均地看,这些随机扰动项有互相抵消的趋势。
(4)同方差假定:
这个假定表明,对每个
,随机扰动项
的方差等于一个常数
。
(5)误差项ε是一个服从正态分布的随机变量,且独立,即ε~N(0,σ2)
(6)解释变量与扰动项不相关假定:
(7)解释变量之间不是完全线性相关的,称无完全多重共线性。
4试述加法模型中季节成分的分析方法。
答:
季节变动是一种比较常见的经济和社会现象,在经济分析中需要进行季节调整来避免对其他因素的干扰。
加法模型是季节调整模型之一,其假定季节因素对一个时间序列影响的绝对值不变,即模型Y=T+C+I+S中,S对Y影响的绝对值不变。
其中,T为长期趋势要素,C为循环要素,I为不规则要素。
采用加法模型计算季节变动并预测的方法如下:
(1)计算长期趋势。
(2)剔除长期趋势得到季节要素。
(3)采用最小平方法或其他方法预测计算长期趋势,然后计算各时期实际值与趋势值之差,即残差,再计算各年同时期残差的算术平均数,即得各时期季节因素值。
四、计算与分析题(共78分)
1(13分)某企业2013年3月1日对15名员工的调查表明,他们从居住地到达工作地点花费的时间如下(分钟):
10,55,70,25,30,45,30,50,25,40,55,90,40,60,70。
(1)计算数据的均值、中位数和众数。
你认为哪一个结果最能反映这组数据的一般水平?
为什么?
(4分)
(2)根据以上数据给出数据的茎叶图。
(3分)
(3)绘制以上数据的简单箱线图。
(3分)
(4)根据以上计算和图形分析数据分布的特征。
(3分)
答:
(1)对数据进行排序:
10,25,25,30,30,40,40,45,50,55,55,60,70,70,90
均值
(分钟)
中位数
,因此为第8个数值,
(分钟)
众数
(分钟)
其中均值最能反映这组数据的一般水平,因为均值是集中趋势的最主要测度值,且该组数据中不存在明显极端值,均值能较准确地反映这组数据的中心值。
(2)茎叶图如下:
树茎
树叶
数据个数
1 2 3 4 5 6 7 9
0 55 00 005 055 0 00 0
1 2 2 3 3 1 2 1
(3)题目数据中,最大值=90,最小值=10,中位数=45
下四分位数QL的位置=15/4=3.75,因此QL=25+0.75×(30-25)=28.75
上四分位数QU的位置=15×(3/4)=11.25,因此QU=55+0.25×(60-55)=56.25
(4)从
(1)中计算可知,均值大于中位数;从
(2)中茎叶图可以看出数据分布不对称;从(3)中箱线图可以看出数据呈右偏分布,从箱子的长度可以看出,此样本的数据分布比较分散。
2.(15分)为研究儿童看电视的习惯,社会学家从10000名儿童中无放回地随机抽取n=50个儿童作为样本,得到每周看电视的平均时间为12.5小时,样本标准差为2.2小时;样本中男孩为27名。
(1)估计儿童每周平均看电视时间的95%的置信区间。
(4分)
(2)估计总体中男孩人数的95%的置信区间。
(4分)
(3)在
(1)中,若总体人数为500人,其他条件不变,相应的置信区间是多少?
(4分)
(4)在
(1)中,若每周平均看电视时间的允许误差(即抽样极限误差)缩小为原来的一半,应抽取多少儿童作为样本?
(3分)
已知:
Z0.025=1.96。
答:
(1)已知
,置信水平
,查标准正态分布表,得
。
由于总体方差未知,但为大样本,可用样本方差代替总体方差。
,则儿童每周平均看电视时间的95%的置信区间为:
,即12.5
0.61=(11.9,13.1),即11.9小时~13.1小时。
(2)已知
,
,根据抽样结果计算的样本比例为:
用样本比例
来代替总体比例
,则总体比例的置信区间可表示为:
,即54%
7.05%=(46.95%,61.05%),总体中男孩人数的95%的置信区间为(46.95%
10000,61.05%
10000),即4695名~6105名。
(3)其他条件不变,即仍从500名儿童中无放回随机抽取n=50个儿童作为样本。
大样本情况下,其样本均值的抽样分布依然服从正态分布,因此置信区间不变,为(11.9,13.1)。
(4)记允许误差为
,则样本量计算公式为:
,总体方差未知,用样本方差代替,即为:
。
若
缩小为原来的一半,则
扩大为原来的4倍,即为50×4=200个。
3(16分)某商场准备在商场内安装充电式应急照明灯,通过招标收到3家照明灯生产商的投标。
该商场对3个生产商产品中进行抽样检验,以最终确定供应商。
各个样品充电后可持续照明的时间长度(小时)数据和部分计算结果如下表。
厂商
观测值
均值
样本标准差
生产商A
9.709.609.4010.0010.30
9.80
0.35
生产商B
9.209.0010.009.209.10
9.30
0.40
生产商C
9.7010.5010.309.909.60
10.00
0.39
(1) 根据以上数据进行方差分析,写出方差分析的原假设、备择假设。
(2分)
(2)根据方差分析的原理计算F统计量的值。
计算过程和结果一律保留2位小数。
(5分)
(3)己知F检验中统计量的临界值为3.5,检验的结论如何?
(3分)
(4)分析人员认为根据初步的分析结果就可以淘汰厂商B,他的依据是什么?
(2分)
(5)如果只比较生产商A和C的均值是否相等,可以用什么检验方法?
说明这种方法的基本步骤。
(4分)
答:
(1)原假设
;备择假设
至少有
方差分析表
差异源
Df
SS
MS
F
组间
2
1.3
0.65
4.483
组内
12
1.74
0.145
总计
14
3.04
其中
为生产商个数,
为所有观测值个数。
(2)
(3)由于
,因此拒绝原假设,认为平均持续照明的时间是有差异的。
(4)由于厂商B抽样检验中的样品平均可持续照明的时间是最短的,且样本标准差最大,即样本的离散程度最高,因此结合这两个因素便可以淘汰厂商B。
(5)可以用两个总体均值之差的双侧检验方法。
基本步骤为:
①提出原假设和备择假设:
②确定检验统计量,并计算其数值。
本题两个生厂商总体方差未知,且样本量较小,因此使用
统计量。
,
的自由度为
。
③进行统计决策。
看计算出的
值是否落入拒绝域,若
,接受
;若
,拒绝
。
4(15分)某市居民的货币收入和购买消费品支出资料如下:
年份
货币收入(亿元)
消费支出(亿元)
2006 2007 2008 2009 2010 2012 2013
10 12 15 17 20 24 28
7 10 11 14 15 18 20
根据上述资料:
(1)计算货币收入与购买消费品支出的相关系数。
(3分)
(2)说明用普通最小二乘法估计回归系数的基本原理。
(3分)
(3)计算根据货币收入预测消费支出的线性回归方程,说明回归系数的含义。
(4分)
(4)计算回归方程的决定系数(判定系数)。
(2分)
(5)当货币收入达到30亿元时,预测消费品支出额的估计值。
(3分)
答:
(1)记货币收入为
(亿元),消费支出为
(亿元),
为年数,等于7。
二者相关系数
,其中
,
,
,
,
,则
(2)OLS基本原理:
用各个离差的平方和
最小来保证所拟合方程的总误差很小。
解方程组
,整理得
,解出回归系数估计量
。
(3)由
(2)
,则
,则货币收入对消费支出的预测方程为
。
回归系数
表示货币收入每增加1亿元,消费支出平均增加0.7亿元;
在数学意义上来说表示当货币收入为0时消费支出为0.97亿元,但经济意义上没有实际意义。
(4)回归方程的决定系数如下表:
year
货币收入
(亿元)
消费支出
(亿元)
预测消费支出
(亿元)
2006 2007 2008 2009 2010 2012 2013
10 12 15 17 20 24 28
7 10 11 14 15 18 20
7.97 9.37 11.47 12.87 14.97 17.77 20.57
判定系数
(5)当