统计学第五版课后题答案.docx-资源下载

统计学第五版课后题答案.docx

1、统计学第五版课后题答案第一章导论1）数值型变量。2）分类变量。3）离散型变量。4）顺序变量。5）分类变量。（ 1）总体是该市所有职工家庭的集合；样本是抽中的 2000 个职工家庭的集合。（2）参数是该市所有职工家庭的年人均收入；统计量是抽中的 2000 个职工家庭的年人均收入。（ 1）总体是所有 IT 从业者的集合。（2）数值型变量。（ 3）分类变量。（4）截面数据。（1）总体是所有在网上购物的消费者的集合。（ 2）分类变量。（3）参数是所有在网上购物者的月平均花费。（4）参数（ 5）推断统计方法。第二章数据的搜集1.什么是二手资料？使用二手资料需要注意些什么？与研究内容有关的原始信息已经存

2、在，是由别人调查和实验得来的，并会被我们利用的资料称为“二手资料” 。使用二手资料时需要注意：资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间，要注意数据的定义、含义、计算口径和计算方法，避免错用、误用、滥用。在引用二手资料时，要注明数据来源。2.比较概率抽样和非概率抽样的特点，举例说明什么情况下适合采用概率抽样，什么情况下适合采用非概率抽样。概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算，当用样本对总体目标量进行估计时，要考虑到每个单位样本被抽中的概率，概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握

3、和研究总体的数量特征，得到总体参数的置信区间，就使用概率抽样。非概率抽样是指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低，而且对于抽样中的专业技术要求不是很高。它适合探索性的研究，调查结果用于发现问题，为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。3.调查中搜集数据的方法主要有自填式、面方式、电话式，除此之外，还有那些搜集数据的方法？实验式、观察式等。4.自填式、面方式、电话式调查个有什么利弊？自填式优点：调查组织者管理容易，成本低，可以进行较大规模

4、调查，对被调查者可以刻选择方便时间答卷，减少回答敏感问题的压力。缺点：返回率低，调查时间长，在数据搜集过程中遇到问题不能及时调整。面谈式优点：回答率高，数据质量高，在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点：成本比较高，对调查过程的质量控制有一定难度。对于敏感问题，被访者会有压力。电话式优点：速度快，对调查员比较安全，对访问过程的控制比较容易，缺点：实施地区有限，调查时间不宜过长，问卷要简单，被访者不愿回答时，不宜劝服。5.请举出（或设计）几个实验数据的例子。不同饲料对牲畜增重有无影响，新旧技术的机器对组装同一产品所需时间的影响。6.你认为应当如何控制调

5、查中的回答误差？对于理解误差，要注意表述中的措辞，学习一定的心里学知识。对于记忆误差，尽量缩短所涉及问题的时间范围。对于有意识误差，调查人员要想法打消被调查者得思想顾虑，调查人员要遵守职业道德，为被调查者保密，尽量避免敏感问题。7.怎样减少无回答？请通过一个例子，说明你所考虑到的减少无回答的具体措施。对于随机误差，可以通过增加样本容量来控制。对于系统误差，做好预防，在调查前做好各方面的准备工作，尽量把无回答率降到最低程度。无回答出现后，分析武回答产生的原因，采取补救措施。比如要收回一百份，就要做好一百二十份或一百三十份问卷的准备，当被调查者不愿意回答时，可以通

6、过一定的方法劝服被访者，还可以通过馈赠小礼品等的方式提高回收率。第三章数据的图表搜集一、思考题数据的预处理包括哪些内容？答：审核、筛选、排序等。分类数据和顺序数据的整理和显示方法各有哪些？答：分类数据在整理时候先列出所分的类别，计算各组的频数、频率，得到频数分布表，如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。对于顺序数据，可以计算各种的频数、频率，以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。数值型数据的分组方法有哪些？简述组距分组的步骤。答：单变量值分组和组距分组。其中组距

7、分组：第一步，确定组数，组数多少由数据的多少和特点等决定，一般 515组；第二步，确定各组组距，宜取 5或10的倍数；第三步，根据分组整理出频数分布表，注意遵循“不重不漏”和“上限不在内”的原则。直方图和条形图有何区别？答：1,条形图使用图形的长度表示各类别频数的多少，其宽度固定，直方图用面积表示各组频数，矩形的高度表示每一组的频数或频率，宽度表示组距，高度与宽度都有意义； 2直方图各矩形连续排列，条形图分开排列； 3条形图主要展示分类数据，直方图主要展示数值型数据。绘制线图应注意问题？答：时间在横轴，观测值绘在纵轴。一般是长宽比例 10： 7的长方形，纵轴下端一般从0开始，数据与0距离过

8、大的话用折断符号折断。饼图和环形图的不同？答:饼图只能显示一个样本或总体各部分所占比例，环形图可以同时绘制多个样本或总体的数据系列，其图形中间有个“空洞” ，每个样本或总体的数据系类为一个环。茎叶图比直方图的优势，他们各自的应用场合？答：茎叶图既能给出数据的分布情况，又能给出每一个原始数据，即保留了原始数据的信息。在应用方面，直方图通常适用于大批量数据，茎叶图适用于小批量数据。鉴别图标优劣的准则？答：P65明确有答案，我就不写了。制作统计表应注意的问题？答：1,合理安排统计表结构；2表头一般包括表号，总标题和表中数据的单位等内容； 3表中的上下两条横线一般用粗线，中间的其他用细线，两端开口

9、，数字右对齐，不要有空白格；4在使用统计表时，必要时可在下方加注释，注明数据来源。二、练习题答：（1）表中数据属于顺序数据。（2）用Excel制作一张频数分布表。服务等级家庭数目（个）好14较好21一般32较差18差15(3)绘制一张条形图，反映评价等级的分布。(4)绘制评价等级的帕累托图。3. 2某行业管理局所属 40个企业2002年的产品销售收入数据如下:1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126要

10、求：(1)根据上面的数据进行适当的分组，编制频数分布表，并计算出累积频数和累积频率。1、确定组数：K1 lg (n)4 g40 41 11.602066.32，取 k=6lg(2)lg20.301032、确定组距：组距=(最大值-最小值)十组数=(152-87 )6=,取103、分组频数表销售收入频数频率%向上累计频数向上累计频率%80 - 90252590 - 10035100- 11091435110 - 12012302665120 - 130733130 - 14041037140 - 150239150以上140100合计40一一（2）按规定，销售收入在 125万元以上为先进企业，

11、115125万元为良好企业，105115万元为一般企业，105万元以下为落后企业，按先进企业、良好企业、一般企业、落后企业进行分组。频数频率%向上累计频数向上累计频率%先进企业10251025良好企业12302255一般企业931落后企业940100合计40100一一3. 3某百货公司连续 40天的商品销售额如下:单位：万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求：根据上面的数据进行适当的分组，编制频数分布表，并绘制直方图。答：1、确定组数：lg( n) “lg 40,

12、1.60206K 11 6.32，取 k=6lg(2)lg 20.301032、确定组距：组距=（最大值-最小值）十组数-(49-25 )- 6=4,取53、分组频数表（根据实际资料，调整成分5个组）销售收入（万元）频数频率%向上累计频数向上累计频率%30以下41041030 - 35615102535 - 40152540 - 459348545以上61540100合计40一一4、直方图3. 4利用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220答：茎叶图Freque ncy Stem &

13、Leaf1. 8892.011332. 68889993. 133. 5694. 1234. 6675. 0125. 7箱线图答：频数分布表灯泡寿命频率向上累积频率（%660以下22%660-67057%670-680613%680-6901427%690-7002653%700-7101871%710-7201384%720-7301094%730-740397%740以上3100%合计100一直方图从直方图看，数据的分布呈左偏分布。答：频数分布表Ig 100lg 20.30103 6.64，取 k=7最小值）十组数=（61-40 ）- 7=3,取32、确定组距:食品重量（g）频数频率%向

14、上累计频数向上累计频率%43以下334343 - 4699121246 - 492424363649 - 521919555552 -552424797955 - 581414939358 以上77100100合计100一一组距=（最大值3、分组频数表（根据实际资料，调整成分 5个组）从直方图看，数据的分布呈双峰分布。频数分布表重量误差（g）频数频率%向上累计频数向上累计频率%19-2951051029-39714122439-49816204049-591326336659-69918428469-79612489679-892450100合计50100一一从直方图看，数据的分布呈左偏分布（

15、1）数值型数据（2）频数分布表1.77815lg(2)lg 20.301036.91，取 k=72、确定组距：组距=(最大值-最小值)十组数=(9+25)+ 7=,取5气温(C)频数频率%向上累计频数向上累计频率%(-25 , -20 )66(-20 , -15 )814(-15 , -10 )1024()1337()1249(0,5 )453(5,10 )760合计60100一一从直方图看，数据的分布呈左偏分布。自学考试人员年龄分布集中在20-24之间，分布图呈右偏(1)复式条形图(2)甲班成绩分布图近似正态分布，分布较均衡；乙班成绩分布图右偏。(3)根据雷达图，两班成绩分布不相似。第

16、四章习题答案数据排列：2,4,7,10,10,10,12,12,14,15(1)众数：10;中位数：10平均数：(2)四分位数：Ql位置=罟=.所以Q=4 7 =2QU 位置=30 =,所以 QU = 214 =13(3 )标准差：(4)峰度一，偏度一(1)众数：19； 23中位数：23平均数：24(2) 四分位数： Ql位置=25=.所以Ql=19+a0=19QU位置=学=，所以QU =25+2a=(3 )标准差:(4)峰度，偏度(1)茎叶图略(2)平均数：7,标准差(3 )第一种方式的离散系数Vs1.977.2X0.71sx所以，第二种排队方式等待时间更集中。(4)选择第二种，因为平均等待

17、的时间短，而且等待时间的集中程度高(1 )平均数：，中位数：第二种方式的离散系数Vs(2)Q 位置=30=.所以 Q=258+a3=QU位置=乎=，所以QU =284+7a=(3)日销售额的标准差：产品名称单位成本总成本/兀产量(元)甲企业乙企业甲企业乙企业A1521003255140217B203000150015075C30150015005050合计66006255340342kMifi甲企业总平均成本X J =輕=（元）n 340kMi fi乙企业总平均成本X 亠 =6255 18.29（元）342利润总额的平均数利润总额标准差Mi 1f i= 51200426.67(万元)n120I

18、 x2X *f614666JnV 120kX115.99(万元)X)4fi峰态系数K 口(Mi510874416484 ns120(115.99)4 3所以甲企业的总平均成本比乙企业的高，原因是甲企业高成本的产品B生产的产量比乙企业多，所以把总平均成本提高了。计算数据如表：按利润额分组（万元）组中值企业数（个）利润额 2(X X ) f2003002501947505930333004003503010500176349400500450421890022860500600550189900273785600以上650117150548639合计-1205120016146665(Mii

19、13120 (115.99)426.67)3 fi0.20572.352 3 0.6479k(Mi X)3fi偏态系数SK 2 ns(1)不同。1000名的平均身高较高；(2)不同。100名的样本容量的标准差更大；(3)不同，调查1000名的样本容量得到最高和最低者的机会较大。对于不同的总体的差异程度的比较采用标准差系数，计算如下:vs男 s 8.3% ； vs女 1 10%X 60 X 50(1)女生的体重差异大，因为离散系数大；(2)以磅为单位，男生的平均体重为 132.6磅，标准差为11.05磅；女生的平均体重为 110.5 磅，标准差为11.05s 11.05XVs男132.68.33

20、% vs女-H05 10%X 110.5(3)xi Xs65 6051,所以大约有68%勺人体重在55kg65kg之间;ZiZiXisXi Xs40 5052，所以大约有95%勺女生体重在40kg60kg之间。115型1;15xi X皆 0.5 ；由此可以判断第二项测试更理想。时间周一周二周三周四周五周六周日产量3850367036903720361035903700Z值30可以看出，周一和周六两天生产线失去了控制。(1)采用离散系数，因为如果比较身高差异，儿童和成年人属于不同的总体;(2) Vs成年s 4.20X 172.12.44% , *儿童250 3.5%71.3所以，儿童的身高差异更

21、大。(1)对集中程度和离散程度分别评价，选择集中趋势数值大的，而且离散程度数值小的方式(2)选择方法 A,因为A方法下，工人的平均组装数量为，而且该方法下，工人组装数量的离散系数只有，所以选择 A 方法。（1）用离散系数（2）商业类（3）高科技第六章统计量与抽样分布1设X, X2, , Xn是从总体X中抽取的容量为n的一个样本，如果由此样本构造一个函数 T X1， X 2，， X n ，不依赖于任何未知参数，则称函数T X,，X2，，Xn是一个统计量。由样本构建具体的统计量，实际上是对样本所含的总体信息按某种要求进行加工处理，把分散在样本中的信息集中到统计量的取值上，不同的统

22、计推断问题要求构造不同的统计量。构造统计量的主要目的就是对总体的未知参数进行推断，如果统计量中含有总体的未知参数就没办法再对参数进行统计推断。2、和T2是统计量，T3和T4在禾口未知的情况下不是统计量。3、设X,，X2，，Xn是从总体X中抽取的一个样本，X（i）称为第i个次序统计量，它是样本 X1，X2，Xn 满足如下条件的函数：每当样本得到一组观测值 x,x2,人时，其由小到大的排序x, x 2 Xi xn中第i个值Xi就作为次序统计量X（i）的观测值，而X,，X 2，X n称为次序统计量。4 、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来，这样的统

23、计量称充分统计量。5、统计学上的自由度指当以样本的统计量来估计总体的参数时，样本中独立或能自由变化的资料的个数。6 、 2分布和正态分布关系： n 时， 2分布的极限分布是正态分布。t分布和正态分布的关系：t分布的密度函数曲线与标准正态分布的密度函数曲线非常相似，但 t n 分布的密度函数在两侧的尾部都要比标准正态的两侧尾部粗一些，方差也比标准正态分布的方差大。随着自由度n的增加，t分布的密度函数越来越接近标准正态分布的密度函数。F分布和正态分布关系：若Xtn，贝iX2F,，n。并且随着自由度n的增加，X也越来越接近于标准正态分布，若把X看成近似服从标准正态分布的一个

24、随机变量，则2X2F,， n。7、在重复选取容量为 n 的样本时，由样本统计量的所有取值形成的相对频数分布为统计量的抽样分布。8、中心极限定理：设从均值为，方差为 2的任意一个总体中抽取的样本，当n充分大时,样本均值 X的抽样分布近似服从均值为，正态分布。中心极限定分布问题，为总体参数二、练习1、易知由这台机器灌装的理解决了在总体为非正态的情况下，样本平均的推断提供了理论基础。9个瓶子形成的样本,标准差为0.31，故0.9 P z又知2、0.3 0.95，贝U P3、易知1.960.3242.68,故 n 43。Zi2服从自由度为6的卡方分布，得样本量为n2方差为一的n数的抽样其平

25、均灌装量服从正态分布，均值为0.9 0.63190 3 0 30 _ 0.95 ,即1.96 ,n . n0.95 12.59 （左侧分位数）第七章参数估计2i 14、因为n；S服从2(n1）分布,我们已知 n10, 1 ,2 2故9S服从 (9)分布P b1 S2b2P 9b19S2 9b20.9我们若取P 9S29b20.05,P 9S29b0.05，则可以得到9b220.95 (9) 16.92 ,9b10.05 (9)3.33，故 b0.37, b2 1.88。（题中均为左侧分位数）55 0.79 40(2)由于1- a=95% a =5%Z 1.962所以估计误差Z 1.962 n55 1.5515(1)X -n 49 2.1415(2)因为 Z 1.96 所以 Z 一 1.96 4.202 2 * n . 49(3)卩的置信区间为 x Z 120 4.20Hn由于 Z 1.96 x 104560285414 n=100所以的95%置信区间为Z 十 1045602 、n1.9685414,10010456016741.14(1)的90%置信区间为811.64512811.97(2)的95%置信区间为Jn811.96(3)的99%置信区间为812.58(1)251.96 3.560250.89(2)119.62.32623.89119.6(3)

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？