中国人民大学805统计学历年真题.docx

上传人:b****7 文档编号:8767911 上传时间:2023-02-01 格式:DOCX 页数:27 大小:48.01KB
下载 相关 举报
中国人民大学805统计学历年真题.docx_第1页
第1页 / 共27页
中国人民大学805统计学历年真题.docx_第2页
第2页 / 共27页
中国人民大学805统计学历年真题.docx_第3页
第3页 / 共27页
中国人民大学805统计学历年真题.docx_第4页
第4页 / 共27页
中国人民大学805统计学历年真题.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

中国人民大学805统计学历年真题.docx

《中国人民大学805统计学历年真题.docx》由会员分享,可在线阅读,更多相关《中国人民大学805统计学历年真题.docx(27页珍藏版)》请在冰豆网上搜索。

中国人民大学805统计学历年真题.docx

中国人民大学805统计学历年真题

中国人民大学805统计学历年真题(2013-2000)

2013年人大805统计学真题

一、证明题:

(20分)每题10分

1.袋子里有两种颜色的球红球a个白球b个第一步从袋子里取出一个球观察其颜色然后丢掉第二步从袋子里再取出一个球,若和上一次取出的球颜色不同,则放回,回到第一步;若和上一次取出的球颜色相同,则丢掉,重复第二步。

证明取出的最后一个球是红球的概率是1/2。

2.证明n维正态随机向量的各分量相互独立的充要条件是互不相关。

二、简述:

(30分)每题10分

1.设昆虫在树叶上产卵数X服从参数为的泊松分布,而只有树叶上有卵时才能判断是否有昆虫。

在又设观察到的虫卵数Y,P(Y=i)=P(X+i|X>0),求P(Y为偶数)和E(Y)。

2.2n+1个独立同分布样本,分布函数是F(x)求中位数x(n+1)的分布

3.设走进某商店的顾客数是均值为50的随机变量。

又设这些顾客所花的钱数是相互独立、均值为100元的随机变量。

再设任一顾客所花的钱数和进入该商店的总人数相互独立。

试问该商店一天的平均营业额是多少?

三、已知Y1,⋯⋯,Yn是相互独立的随机变量,且均服从。

求的矩估计和最

大似然估计,并求他们的均方误差。

(25分)

四、X和Y是两个相关的随机变量:

求证var(Y)=E(var(Y|X))+var(E(Y|X))并谈谈你对它的理解和应用。

(25分)

五、谈谈你对双因素方差分析的理解和认识。

(25分)

六、一元线性回归中有三个检验:

线性相关检验,回归方程显著性检验以及X的回归系数

2012年人大805统计学真题

、为研究不同地区与购买汽车的消费价格之间的相关关系,调查得到如下的数据:

东部地区

西部地区

中部地区

10~20万

60

40

50

20~30万

20

30

30

30~40万

30

30

50

40~50万

10

20

40

对于以上的数据可以用什么统计图表分析,并说明这些图表的用途。

对于以上的数据可以用什么统计方法分析,并说明这些方法的用途。

二、为检验一厂家生产的产品,提出如下的假设检验:

H0:

u=500,H1:

u=!

500现在抽取

了部分的样品进行检验。

若检验结果拒绝H0,则意味着什么?

若检验结果没有拒绝H0,

则又意味着什么?

能否恰好取到一组样本证明H0:

u=500成立?

为什么?

若检验的P=0.03,

则意味着什么?

P值的真实含义是什么?

三、现研究某地区平均GDP与居民消费总额、固定投资、进出口额、年末总人口之间的关系,进行了多元回归分析。

题目分别给出了三个表:

表1:

整体拟合程度:

R,R方,调整的可绝系数。

表2:

整体线性关系的F检验

表3:

系数的显著性t检验,方差扩大因子VIF(存在多重共线性)请对上述回归模型进行综合评价。

四、题目中给出了从99年1月到2004年3月某地区各月的销售额的一个时间序列图,该序列图中包含哪些成分?

可以用什么方法来分析此模型,并简要叙述可种方法的基本原理。

五、说明距离判别法与贝叶斯判别法的联系。

六、说明大数定律与中心极限定理的内容和应用?

七、在敏感性问题的调查中,为了保证回答者尽量真实回答,

回答敏感性问题

采用如下方法:

以比例p的人

1-p的比例人回答问题

1):

你具有特征A吗?

回答结果为是或不是。

另外

假设总体具有特征A的人数比例为q,样本中回答是的比例为R。

1.试提出q的一个估计。

2.证明该估计是q的一个无偏估计。

求出q的方差的表达式。

2011年人大805统计学真题

一、简答题(50分)

1.简述加权最小二乘估计的基本思想。

2.进行主成分分析需是否要知道数据的具体分布,请说明原因。

3.k-均值聚类对比分层聚类,优点在哪里。

4.题目给出了一个回归分析残差的散点图,有点线性趋势的那种,问据图分析可能出现了什么问题。

5.简述方差分析和回归分析的异同。

二、已知X与W相互独立(30分)。

1.X与W都服从正态分布,且W的期望为零,Y=a+bX+W,求X与Y的联合分布。

2.W服从正态分布,其期望为零,方差为?

2(是表示平方),Y=b0+b1X+b2X2(是表示平方)+W,当X=x时求Y的条件期望。

三、CPI是衡量经济发展的重要指标,CPI的计算包括收集数据的四个阶段和确定权数的两个阶段,(他这里描述了这六个阶段的具体操作方法)。

(30分)

1.结合调查知识和统计理论说明CPI所属类别(这个有待考证,希望大家来修正~)。

2.指出CPI的调查过程中误差的可能来源。

3.指出这个过程中涉及的调查总体、随机变量及待估总体的特征。

4.如果每个阶段的调查都严格按照1—a的置信水平,那么总的置信水平是多少。

四、假设女性和男性读书的语速都服从正态分布。

研究者认为女性读书的语速比男性快,为证明这一点抽取了n1名女性和n2名男性,分别测得他们读书的语速,发现n1名女性的平均语速比n2名男性快,研究者由此得出女性读书的语速比男性快的结论。

请问研究者的方法对吗?

为什么?

应该怎样验证?

(20分)

五、题目给出了从2006年1月到2010年6月的商品销售额的时间序列图(有明显线性趋势的),现在想预测2010年下半年的商品销售额,请问用什么应该模型,写出模型的具体形式和模型的建立过程。

(20分)

 

2010年人大805统计学真题

一)五道问答题(50分)

1.两地区的什么比例,运用均值的t检验,得出这两个地区的均值相等,是否正确,为啥子呢?

2.卡方统计运用在哪方面

3.贝叶斯统计与经典统计的区别

4.时间序列的弱平稳的含义

5.评述多重共线性的解决方法

(二)给出三个运动员10次射击的数据,问用什么图可以表示这些数据?

用哪些统计量可以分析这些数据

(三)R型聚类与Q型聚类含义?

聚类分析与判别分析区别?

层次聚类的步骤?

(四)该题中的第一类错误是什么?

第二类错误是什么?

顾客认为哪类错误比较重要?

厂家认为哪类错误比较重要?

(五)给出x1,x2,...,x7个自变量,要求找出各县区经济发展的内在原因。

用什么模型?

这种模型对数据有什么要求?

模型有哪些假设?

如何得到参数估计值?

如何分析该模型?

(六)如何验证正态分布?

能不能说这个区间包含均值的真值?

p=一个很小的数,能不能

说银行的认识正确?

n=16的随机

2009年人大805统计学真题

1.有两个正态总体,均值和方差未知。

但已知方差相等,从第一个总体中抽取样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为

49.如何检验第一个总体的均值是否大于第二个总体的均值。

2.在何种情形下,回归系数的最小二乘估计不具有无偏性?

说出原因并指出解决办法。

3.周期过程Xt=Acos(ωt+ψ),其中频率ω和振幅A都是常数,而相位ψ是一个在区间[-π,π]上服从均匀分布的随机变量,问{Xt}是否平稳?

说明原因。

4.把一个总体分为三层,各层的权重和预估的比例见下表。

待估计的参数为总体比例,如采用内曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。

(假设各层总体单位数量Nh都充分大,忽略“有限总体校正系数”)

总体权重Wh=Nh/N

预估的层内总体比例

1

0.5

0.5

2

0.3

0.7

3

0.2

0.6

5.与人大出出版社的21世纪统计学系列教材的《统计学(第二版)》的第四章习题中的第十题是一样的。

6.若有线性回归模型yt=β1+β2Xt+εt,(t=1,2,⋯,n),其中E(εt)=0;E(εt2)=δ2Xt2,

E(εtεs)=0(t≠s),问:

(1)该模型是否违背古典线性回归模型的假定,请简要说明。

(2)如果对该模型进行估计,你会采用什么方法?

请说明理由。

7.测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为两组。

第一组

10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10对白鼠中每一对的两只关在同一个笼中喂养。

每对白鼠中随机抽取一只喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:

吃药后立即记录,药后一小时记录,药后两小时记录。

对于不吃药的白鼠,记录时间与统一对中另外一只白鼠的记录时间相同。

假定40只白鼠的初始活动状态相同。

请详细阐述你用何种方法分析安眠药的效果?

8.某大学从教师中抽取一个随机样本进行满意度调查。

1分表示非常不满意,100分表示非

常满意。

数据汇总如下表,欲分析教师职称和性别对满意度有无显著性影响。

(1)你会选择什么分析方法?

简述你的分析思路(可用公式说明,不需计算结果)。

(2)要采用改分析方法,数据必须满足哪些几本假定?

请加以说明。

调查人数

满意度

调查人数

满意度

教授

30

88

30

82

副教授

30

83

30

80

讲师

30

74

30

75

2008年人大805统计学真题

一、07年香港一则报道说:

“随着经济的增长,香港低收入家庭的比例在增长,其中低收入的家庭是指低于中位数的家庭。

”请你从统计的角度对该报道做简要评论。

(10分)

二、经常有人说方差分析是比较多个总体的均值是否相同,但为什么叫方差分析呢?

请谈谈你对方差分析的理解,并说明方差分析解决问题的基本思路。

(10分)

三、如果时间序列在随时间变化的过程中既有趋势又有季节变动,你认为可以建立什么样的预测模型。

请你写出模型形式并加以简要说明(10分)

四、食品厂家说:

净含量是每袋不低于250g。

但有消费者向消协反映不是250g,消协据此

要求厂家自检,同时消协也从中随机抽取20袋检验(30分)

(1)如果厂家自己检验,你认为提出什么样的原假设和备则假设?

并说明理由。

(2)如果从消费者利益出发,你认为应该提出什么样的原假设和备则假设?

并说明理由。

(3)消协抽取20袋,如下数据(略了没抄),得p值为0.4297,在0.5的显著水平下,

检验假设意味着什么?

p值的含义是什么?

(4)据样本数据得该食品每袋平均重量95%置信区间(241.1,257.5),你认为这种食品实际

平均重量是否在该区间?

为什么?

五、在经典的多元线性回归模型里,针对自变量事实上是有许多假设的。

(15分)

(1)请具体指明这些假设有哪些?

(2)说明这些假设所发挥的主要作用。

(3)请讨论这些假设最终产生的影响。

六、在有关统计知识方面内容的中学课本里编者认为基本的抽样方式只有三种,并不包括整群抽样,请说明你赞同与否并详列理由。

(15分)

七、叙述贝叶斯判别分析的原理(包括完整的假设)并说明:

(30分)

(1)与聚类分析相比,贝叶斯判别分析赖以进行的数据结构有何特点?

(2)与其他判别分析相比,贝叶斯判别分析结果的表现形式有何不同?

八、在诸如大坝、码头等工程设计中,坝高和码头高度的确定十分关键,要考虑许多因素,

(1)以大坝为例,概略说明需考虑的主要因素

(2)大坝高度通常利用长期洪水历史记录数据,依据几十年一遇的标准确定,请写出计算坝高详细的具体步骤(画出框图,并尽量避免过多使用文字)(30分)

2007年人大805统计学真题

一、(20分)下面是一种零件误差的数据(单位:

克):

6.1

4.7

6.5

6.2

7.7

6.4

5.5

7.1

6.1

5.3

5.7

6.1

5.3

4.0

4.8

3.2

3.9

1.9

4.9

3.8

5.3

2.6

5.3

5.5

5.8

2.7

6.8

7.4

5.6

3.3

(1)根据涉及t分布的计算,该数据所代表的总体均值的95%置信区间为(4.637785,

5.728882)。

请问,若使该置信区间有意义,需要对总体进行何等假定?

这种假定能不能用

数据证明?

是不是该区间以0.95的概率覆盖真实总体均值?

如果不是,说出理由及合适的

说法;

(2)对于该数据所代表的总体的均值进行检验:

零假设为总体均值等于4.8克,备选假

设为总体均值大于4.8克。

如果进行t检验,需要假定哪些条件?

t检验结果为p值等于0.0807。

能不能说“在显著性水平为0.05时,接受零假设”?

为什么?

你的结论是什么?

二、(20分)一家研究机构想估计在30个网络公司工作的员工每周加班的平均时间,为此进行抽样调查。

请回答以下问题:

(1)如果对这些员工进行随机电子邮件调查,由答复的邮件所得到的数据是不是简单随

机样本?

为什么?

(2)抽样调查中,说“响应误差总是人们不说实话导致的”对不对?

为什么?

随机误差

是不是可以避免的?

(3)这些员工的加班时间是否独立?

如果不是,原因可能是什么?

三、(20分)某城市交通管理部门的一项调查表明,该城市中驾车上班的人数超过30%。

一家研究机构则认为自驾车上班的人数比例达不到这一水平。

为证明自己的这一看法,该研究机构准备抽取一个简单的随机样本进行检验。

(1)请写出检验的原假设和备择假设;

(2)请对小样本情况写出计算p值的公式,并论述你所依赖的分布。

对大样本情况,写出检验统计量的公式以及使该统计量有意义所需要的假定的条件;

(3)对于一般检验来说,如果结果表明“统计上显著”,是不是实际上也显著?

四、(10分)在对某项产品的认可的抽样调查报告中,如果报告仅仅说,“对该产品认可的有90%”,那么该报告是否负责?

一个负责任的调查报告应该给什么有关信息?

五、(10分)对于主成分分析,有人在进行了主成分分析之后,对得到的主成分又进行了第二次主成分分析,以得到更加精确的结果。

请问,这样做是否有道理?

请加以说明。

什么样的数据不适宜于主成分分析?

选择那些主成分累计方差贡献率为70-80%之类的准则是不是

总是适用?

为什么?

六、(20分)回归模型y=β0+β1x1+β2x2+⋯+βpxp+ε中的ε一定是随机误差吗?

如果回答是否定的,讨论在何种情况下,答案是肯定的?

此外,最小二乘回归是不是需要对误差项作出假定?

如果不是,那么在什么情况下需要对误差项作出假定?

作什么假定?

七、(25分)对于聚类分析,请回答以下问题:

1)分层聚类前,需要对什么进行选择?

2)描述分层聚类分析的详细步骤;

3)描述K均值(快速)聚类分析的详细步骤。

八、(25分)应用多元线性回归模型y=β0+β1x1+β2x2+⋯+βpxp+ε,如果一个SPSS回归分析的结果如下表所示:

ANOVA

Model

SumofSquares

df

MeanSquare

F

Sig.

Regression

106831048750.124

1

106831048750.124

1

Residual

31085446686.216

472

65858997.217

1622.118

.000a

Total

137916495436.340

473

Regression

111136313278.118

2

55568156639.059

2

Residual

26780182158.221

471

56858136.217

997.312

.000b

Total

137916495436.340

473

a.Predictors:

(Constant),BeginningSalary

b.Predictors:

(Constant),BeginningSalary,EmploymentCategory

则:

(1)表中所用选择自变量的方法可能是什么?

(2)表中的最后一个Sig.如何求得?

意义是什么?

(3)请给出该表最后一个F所表示的统计量服从F分布所需要的假定条件,并对该统计量服从F分布予以证明。

2006年人大805统计学真题

一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:

一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。

为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:

分钟)如下:

5.56.66.76.87.17.37.47.87.8

(1)画出第二种排队方式等待时间的茎叶图;

(2)比较两种排队方式等待时间的离散程度;

(3)如果让你选择一种排队方式,你会选择哪一种?

试说明理由。

二、(20分)某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。

现从某天生产的一批产品中按重量重复抽样方式随机抽取50包进行检查,测得每包重量(单位:

克)如下:

每包重量/g

包数

96-98

2

98-100

3

100-102

34

102-104

7

104-106

4

合计

50

已知食品包重量服从正态分布,要求:

(1)确定该种食品平均重量95%的置信区间;

(2)如果厂家认为每袋食品重量不低于100克,请写出检验的原假设和备择假设;

(3)利用P值进行检验和利用统计量进行检验有什么不同?

(z0.05=1.645,z0.025=1.96,t0.05=1.69,t0.025=2.03)

三、(20分)一家汽车制造商准备购进一批轮胎,考虑的因素主要有轮胎供应商牌和耐磨程度。

为了对耐磨程度进行测试,分别在低速(40公里/小时),中速(80公里/小时),高速(120公里/小时)下进行测试。

根据对5家供应商抽取的轮胎随机样本对轮胎在行驶1000公里后磨损程度进行试验,在显著水平α=0.01下得到的有关结果如下:

差异源

SS

df

MS

F

P-value

Fcrit

1.55

4

0.39

21.72

0.000236

7.01

3.48

2

1.74

97.68

0.000002

8.65

误差

0.14

8

0.02

总计

5.17

14

1)不同的车速对磨损程度是否有显著影响?

2)不同供应商的轮胎之间磨损程度是否显著差异?

3)在上面的分析中,你都做了哪些假设?

四、(15分)说明什么条件下适合采取简单随机抽样?

五、(25分)说明回归模型的假设以及当这些假设不成立时的应对方法。

六、(20分)解释因子模型

X=AF+ε的意义并写出模型的假设。

七、(15分)以下是从《中国统计年鉴-2005》摘引的资料,要求:

单位:

元/人

2003年

2004年

人均国内生产总值

9111

10561

城镇居民人均可支配收入

8472

9422

农村居民人均纯收入

2622

2936

(1)根据国民经济收入分配核算原理,说明居民人均收入低于人均GDP水平的原因;

2)计算各指标的动态变动率(不考虑价格变化),对其结果予以简要分析。

八、(15分)下表是中国全部国有及规模以上非国有供企业统计的主要指标,要求:

(1)设计并计算反映企业经济效益的指标;

(2)对经济效益指标的动态变化状况做简要分析。

2003年

2004年

工业总产值(亿元)

142271

187221

工业增加值(亿元)

41990

54805

企业单位数(个)

196222

219463

资产总计(亿元)

168808

195262

流动资产年平均余额(亿元)

71488

86885

固定资产净值年平均余额(亿元)

66008

73849

负债合计(亿元)

73414

115529

产品销售收入(亿元)

143172

187815

产品销售成本(亿元)

118638

157071

产品销售税金及附加(亿元)

2049

2467

利润总额(亿元)

8337

11342

本年应缴增值税(亿元)

5488

6396

全部从业人员年平均人数(万人)

5749

6099

2005年人大805统计学真题

一、(15分)

数据如下:

一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄

 

15

19

22

24

30

16

19

22

24

31

17

20

23

25

34

18

20

23

27

38

19

21

23

29

41

(1)画出该组数据的茎叶图;

(2)画出该组数据的箱线图;

(3)根据茎叶图和箱线图说明上网者年龄分布的特征。

二、(15分)设有三个总体的均值分别为:

μ1,μ2,μ3。

要检验三个总体的均值是否相等(α=0.05),我们为什么不先将它们简单地配对,即H0:

μ1=μ2,H0:

μ1=μ3,H0:

μ2=μ3,,然后分别进行检验,而是采用方差分析的方法?

三、(20分)某城市的餐饮管理协会估计,餐馆的月平均用水量为100吨,一家研究机构认为实际用水量要高于这个数字,该研究机构随机抽取了36家餐馆,记录了每个餐馆的月用水量(单位:

吨),经过初步计算得到样本数据的部分描述统计量如下:

平均

107

标准误差

4.99

样本标准差

29.96

样本方差

897.77

(1)确定餐馆月平均用水量95%的置信区间;

(2)餐馆实际月平均用水量在你所建立的置信区间里吗?

请说明原因;

(3)如果要检验研究机构的看法是否正确,应该如何建立原假设和备择假设?

请谈谈拒

绝和不拒绝原假设的含义;

(4)在上面的估计和检验中,你使用了统计中的哪一个重要定理?

请简要解释这一定理。

(z0.05=1.645,z0.025=1.96,t0.05=1.69,t0.025=2.03)

1、(20分)一家房地产评估公司想对某城市的房地产销售价格(y)与地产评估价值(x1)、

房产评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格做合理预测。

为此,收集了15栋住宅的房地产评估数据,经回归得到下面的有关结果(α=0.05):

方差

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 农学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1