统计学主观题答案.docx
《统计学主观题答案.docx》由会员分享,可在线阅读,更多相关《统计学主观题答案.docx(27页珍藏版)》请在冰豆网上搜索。
统计学主观题答案
1.数据采集遇到异常值?
统计上与均值差异在3倍标准差范围之外的值称为异常值(离群点).
一般用标准分数来判断一组数据是否是离群数据。
其公式为z。
例如:
若z=-1.5,就知道该数值低于平均数1.5倍标准差,该点不是离群点。
根据切比雪夫不等式,至少有1-1/k^2个数据落在+-k个标准差范围内。
对异常值要仔细鉴别,处理方法有:
如果异常值属于记录时的错误,在分析之前就应予以纠正或舍弃。
如果异常值是一个正确的值,应予以保留。
根据经验法则,若一组数据对称分布,一般有99%的数据落在+-3个标准差范围内。
95%的数据落在+-2个标准差范围内。
68%的数据+-1个标准差范围内。
2.抽样误差?
抽样误差是由抽样的随机性而引起的样本结果与总体真值之间的误差。
在概率抽样中,我们依据随机原则抽取样本,抽取的样本可能不同。
根据不同的样本,可以得到不同的观测结果。
抽样误差并不是针对某个具体样本检测结果与真实结果的差异而言,所以抽样误差是样本可能的结果与总体真值的平均差异。
抽样误差与多方面的因素有关,样本量越大,抽样误差就越小。
抽样误差还与总体的变异有关。
抽样平均误差的公式为。
抽样误差又分为组内误差和组间误差。
组内误差即为来自水平内部的数据误差,组间误差为不同水平之间的数据误差。
组内误差只含随机误差,组间误差是随机误差和系统误差的总和。
请举例说明统计学上所计算的抽样误差与我们平常说想象的抽样误差有什么不同?
抽样误差是由于样本随机性引起的样本结果与总体真值之间的误差。
我们平时想像的抽样误差可能是针对某个具体的样本的检测结果与总体真实结果的差异而言的。
然后统计学上的抽样误差描述的是所有样本可能的结果与总体真值之间的平均性差异。
3.例如:
95%的样本结果与真值之间的差异上下不超过2%的范围。
按照平常的理解,真值并不知道则无法得出这样的结论。
而在统计学上,我们发现对不同样本进行检测时其分布是有规律的,于是可以通过样本的信息计算出这个误差。
例如:
如果真实值为10%,则样本结果95%会落在8%-12%内。
那么以10%为中心,结果在2%的范围内波动,这是统计学上的抽样误差。
简述影响抽样误差大小的因素。
抽样误差:
指由于抽样的随机性引起的样本结果与总体真值之间的误差。
影响抽样误差的大小如下:
①抽样单位的数目。
在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;抽样单位数目越少,抽样误差越大。
这是因为随着样本数目的增多,样本结构越接近总体。
抽样调查也就越接近全面调查。
当样本扩大到总体时,则为全面调查,也就不存在抽样误差了
②总体被研究标志的变异程度。
在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小。
总体标志的变异程度越大,抽样误差越大。
抽样误差和总体标志的变异程度成正比变化。
这是因为总体的变异程度小,表示吝惜体各单位标志值之间的差异小。
则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差。
③抽样方法的选择。
重复抽样和不重复抽样的抽样误差的大小不同。
采用不重复抽样比采用重复抽样的抽样误差小。
④抽样组织方式不同。
采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同。
通常,我们不常利用不同的抽样误差,做出判断各种抽样组织方式的比较标准。
4.
5.离散系数?
方差和标准差是反映数据离散程度的绝对值,其数值大小一方面受平均数大小的影响,变量值绝对水平高的,离散程度的测度自然也就大;另一方面,他们与原变量值的计量单位相同,所用不同计量单位计量的变量值,其离散程度的测度值也就不同。
对于平均水平不同和计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的
离散系数,又称变异系数,是一组数据标准差与其平均数的比值
消除了变量值水平高低和计量单位不同对离散程度测量的影响
离散系数越大,说明数据的离散程度越大。
举例:
男生平均身高175cm,标准差10cm;女生平均身高165cm,标准差3cm。
由于男生女生身高的平均数不同,无法直接比较其标准差,所以可以采用离散系数,消除了平均数不同的影响,反映其数据离散程度大小。
通过计算,男生身高离散系数为0.057,女生身高离散系数为0.018,男生生身高离散系数高于女生,所以男生身高离散程度较大。
6.统计上的大样本和小样本?
统计上的大样本和小样本并不是以样本量大小来区分的。
在样本量固定的条件下进行的统计推断、问题分析,不管样本量有多大,都称为小样本问题。
而样本量n趋近无穷的样本条件下进行的统计推断、问题分析则称为大样本问题。
一般而言统计学中n>30,即为大样本,n<30,为小样本,这只是一种经验说法。
样本量不同,统计计算方法也不同。
假设检验,区间估计的值也会不同。
一般来说,大样本情况下,根据中心极限定理,可以认为样本统计量的分布服从或接近于正态分布,可以利用正态分布的性质去推断全及总体的参数。
小样本情况下,样本统计量的分布常常与正态分布有所不同.必须利用其他分布的特征推断总体的参数。
7.何为置信区间?
区间估计是在点估计的基础上,给出总体参数的一个区间范围,该区间通常由样本统计量加减估计误差得到的。
在区间估计中,由样本统计量构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。
由于统计学家在某个程度上确信这个区间包含真正的总体参数,所以给它取名置信区间.
一般而言,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的的次数所占的比例称为置信水平,也称置信度或置信系数。
当样本给定时,置信区间的宽度随着置信系数的增大而增大。
当区间比较宽时,才会使这一区间以更大的可能包含参数的真值。
当置信水平固定时,置信区间的宽度随着样本量的增大而减小。
如果用某种方法构造的区间中有95%的区间包含总体参数的真值,那么该方法构造的区间称为置信水平为95%的置信区间。
总体参数的真值是固定的、未知的,而样本构造的区间则是不固定的。
置信区间是一个随机区间,它会因样本的不同而不同,而不是所有的区间都包含总体参数的真值。
在实际问题中,进行估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平下的置信区间,而不再是随机区间,所以无法知道这个样本所产生的区间是否包含总体参数的真值。
一个特定的区间”总是包含”或“绝对不包含“参数的真值,不存在”以多大的概率包含参数“的问题。
8.一个完整的调查方案应该具备哪些要素?
一、调查目的和任务.统计调查总是为一定的研究任务服务的,制定调查方案的首要问题是明确调查的目的和任务。
二、调查对象和调查单位。
确定调查对象和调查单位,是为了回答向谁调查、由谁来具体地提供统计资料的问题。
三、调查项目,设计调查表式。
调查项目就是调查中所要登记的调查单位的特征,这些特征统计上又称标志。
确定调查项目所要解决的问题是:
向调查单位调查什么。
将反映调查单位特征的调查项目,按一定的顺序排列在一定的表格上,就构成了调查表。
四、调查的时间、空间和方法。
调查时间包括三个方面的含义:
首先是指调查资料所属的时间,如果所调查的是时期现象,就要明确规定反映的调查对象从何年何月何日起到何年何月何日止的资料;如果所要调查的是时点现象,就要明确规定统一的标准时点。
其次是指调查工作进行的时间,即指对调查单位的标志进行登记的时间。
最后是指调查期限,即整个调查工作的时限,包括搜集资料及报送资料的整个工作所需要的时间。
调查空间是指确定调查单位在什么地方接受调查。
调查方法,包括调查的组织形式和搜集资料的具体方法。
五、制订调查工作的组织实施计划。
为了保证整个统计调查工作顺利进行,在调查方案中还应该有一个周密考虑的组织实施计划。
其主要内容应包括:
调查工作的领导机构和办事机构;调查人员的组织;调查资料报送办法;调查前的准备工作,包括宣传教育、干部培训、调查文件的准备、调查经费的预算和开支办法、调查方案的传达布置、试点及其他工作等。
一份好的调查问卷可以有效的减少调查误差。
问卷中题目的类型、提问的方式、使用的词汇、问题的组合都可能引起非抽样误差。
9.同度量因素的主要作用?
同度量因素也成“同度量系数”或“指数权数”,是指使若干由于度量单位不同不能直接相加的指标,过渡到可以加总和比较而使用的媒介因素。
在编制总指数时,把不能直接相加的要素过渡到能够相加的总体的媒介因素。
同度量因素在计算总指数的过程中对各指数因素起着权衡轻重的作用,所以也叫权数。
同度量因素的作用主要有:
同度量作用(媒介作用)和权数作用。
不同商品的销售量和价格不能直接加总,他们都是不同度量的因素,然而每种商品销售额可以加总,因为它是同一度量的。
同度量因素可分为不变同度量因素和可变同度量因素。
不变同度量因素,是指在一个指数数列中各个指数的同度量因素是固定不变的。
可变同度量因素,是指在一个指数数列中各个指数的同度量因素随着指数基期的改变而改变。
在统计工作中,采用不变同度量因素还是可变同度量因素,对于质量指标指数和数量指标指数是不同的。
质量指标指数用报告期的数量指标做同度量因素,所以在一个质量指标指数的数列中,它的同度量因素一定是可变同度量因素;而计算数量指标指数的数列中,定基指数的同度量因素是不变同度量因素,环比指数的同度量因素则是可变同度量因素。
例如:
单位产品价格×产品产量=产品产值p×q=pq单位产品成本×产品产量=总成本z×q=zq在以上方程式的右边,是经过同度量因素的作用,而可以相加或合并的总体。
10.抽样调查注意的问题?
抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。
显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。
根据抽选样本的方法,抽样调查可以分为概率抽样和非概率抽样两类。
概率抽样是按照概率论和数理统计的原理从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征作出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。
习惯上将概率抽样称为抽样调查。
抽样调查的步骤主要有;
(1)界定总体
(2)制定抽样框(3)实施抽样调查并推测总体(4)分割总体(5)决定样本规模(6)决定抽样方式(7)确定调查的信度和效度.
抽样调查根据随机原则抽取样本,可以根据调查结果对总体的有关参数进行估计,计算估计误差,得到总体的置信区间,在进行抽样时,对估计的精度提出要求,计算为满足特定精度要求所需的样本量,所以,调查的目的在于掌握研究对象总体的数量特征,得到总体参数的置信区间,就应当使用抽样调查。
抽样调查技术含量高,无论是抽取样本还是对调查数据进行分析,都要求有较高的统计学知识,调查成本也较高。
抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。
在抽样调查中,抽样误差是不可避免的。
抽样误差是可以计算的。
对抽样误差进行控制得一个方法就是改变样本量,要求抽样误差越小,样本量越大。
抽样调查需要注意哪些问题?
1)调查样本是按随机的原则抽取的,在总体中每一个单位被抽取的机会是均等的,因此,能够保证被抽中的单位在总体中的均匀分布,不致出现倾向性误差,代表性强。
(2)是以抽取的全部样本单位作为一个“代表团”,用整个“代表团”来代表总体。
而不是用随意挑选的个别单位代表总体。
(3)所抽选的调查样本数量,是根据调查误差的要求,经过科学的计算确定的,在调查样本的数量上有可靠的保证。
(4)抽样调查的误差,是在调查前就可以根据调查样本数量和总体中各单位之间的差异程度进行计算,并控制在允许范围以内,调查结果的准确程度较高。
方差分析主要解决什么问题:
1,使用方差分析的必要性:
随着个体显著性检验的次数增加,如比较多个总体的均值是否相等,若是用一般的检验方法,则需做多个均值的两两比较,作多次检验会使犯第Ⅰ类错误的概率增加,置信水平降低,而且两两比较非常繁琐。
而方差分析则是同时考虑所有样本,因此排除了错误累计的概率,从而避免拒绝一个真实的原假设。
2,方差分析的种类:
单因素方差分析,双因素方差分析(包括无交互作用和有交互作用的反差分析)。
3,方差分析的原理:
判断均值是否有差异需要借助于方差,也就是对数据误差来源的分析。
反映全部数据误差大小的平方和称为总平方和,记为SST,反映全部观测值得离散情况;来自水平内部的数据误差成为组内误差,记为SSE,反映了一个样本内部数据的离散程度,只含有随机误差;来自不同水平之间的误差成为组间误差,是随机误差和系统误差的总和记为SSA。
SST=SSA+SSE。
4,方差分析的基本假定:
(1)每个总体都服从正态分布。
(2)每个总体的方差必须相同。
(3)观测值是独立的。
5,方差分析的基本步骤:
(1)提出假设
(2)构造检验统计量(3)求出SST,SSE,SSA
(4)F=MSA/MSE~F(n-1,n-k),计算统计量。
6,得出结论:
如果原假设H0:
μ1=μ2=…=μi=…μk成立,则表明没有系统误差,组间方差MSA和组内方差MSE的比值差异就不会太大,如果组件方差显著大于组内方差,说明个水平之间的差异不仅仅随机误差,还有系统误差。
将统计量的值F与给定的显著性水平α的临界值比较,若F>Fα,则拒绝原假设,表明μi之间有显著差异,若F方差分析主要解决什么问题?
1.提高检验效率。
例如,4个总体均值分别。
。
。
,如果用一般假设检验只能两两检验,共需进行六次,方差检验则是比较多个总体均值是否相等,提高了检验效率。
2.减小饭第一类错误的概率。
多次检验会使犯第一类错误的概率增加。
例如,如果犯第一类错误的概率是0.05,连续六次检验犯第一类错误的概率为0.265,置信水平也会相应降低。
3.方差分析是检验多个总体均值是否相等的统计方法,本质上是研究分类型自变量对数值型因变量的影响。
4.方差分析将所有的样本信息整合在一起增加了分析的可靠性。
阐述并举例说明标志变异度的应用背景:
(阐述并适当举例说明标志变异度与平均指标的关系)
标志变动度是反映总体各单位标志值之间差异程度大小的综合指标。
说明的是变量的离中趋势。
它的作用是衡量平均指标的代表性大小,同时,探讨总体内部的变动规律,衡量总体的均衡性和稳定性。
测量标志变异的主要指标有极差、平均差、方差、标准差和标志变动系数等。
方差和标准差是反映数据分散程度的绝对值,但一方面其数值大小会受到原变量本身水平高低的影响,变量值绝对水平高的其离散程度的测度值更大。
另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值其离散程度的测度值也不同。
因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较离散程度的。
为消除变量值水平的高低和计量单位不同对离散程度测度值的影响,我们可以采用标志变动度来比较离散程度。
例如:
选手A气手枪平均环数为9.69,标准差为0.36,选手B的平均环数为10.14,标准差为0.55。
因为变量值水平有差异,故通过标志变动度来衡量。
x/s,分别为0.037,0.054。
故选手A成绩的离散程度更小,发挥更为稳定。
假设检验的应用背景:
假设检验是抽样推断中的一项重要内容。
它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。
用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实。
通过检验,对样本指标与假设的总体指标之间是否存在差别作出判断,是否接受原假设。
这里必须明确,进行检验的目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异。
从这个意义上,假设检验又称为显著性检验。
基本步骤:
1、提出检验假设又称无效假设,符号是H0;备择假设的符号是H1。
H0:
样本与总体或样本与样本间的差异是由抽样误差引起的;
H1:
样本与总体或样本与样本间存在本质差异;
预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。
2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。
根据资料的类型和特点,可分别选用Z检验,T检验,和卡方检验等。
3、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。
若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。
P值的大小一般可通过查阅相应的界值表得到。
请举例说明假设检验的应用背景
假设检验是由样本去推断总体的一种统计推断方法。
先对
的值提出一个假设,然后利用样本信息去检验这个假设是否成立。
例如:
已知某元件的标准质量为500g,为了验证某工厂的原件是否符合标准,随机抽取100个样本,测得平均质量为510g,要判断该厂的元件是否符合标准。
这个问题的关键在于我们是否能用抽样的随机性来解释10克的差异,于是我们采取假设检验的方法。
假设该厂的元件符合标准,标准质量为
,样本的平均值为
,则
,利用样本信息检验上述假设是否成立。
(首先,提出原假设和备择假设(H0=。
。
。
),计算检验统计量(。
。
)确定显著性水平为5%,就可以根据抽样分布原理求出否定原假设和接受原假设的临界值,确定了拒绝域。
如果原假设成立,则说明95%的样本均值应当落入置信度为95%的置信区间,根据小概率原理可做出是否拒绝原假设的判断。
)
编制时间序列应该注意哪些问题:
编制时间序列的目的就是要通过对序列中的各个指标值进行分析,来研究社会经济的发展变化及规律,保证时间新序列上各个不同时间上的统计指标的可比性,是编制时间序列的基本原则,可比性体现在以下几个方面:
(一)时间序列中各指标所属时间长短应前后一致。
(二)所反映现象的总体范围应该一致。
(三)指标的经济内容应该统一
(四)计算方法应该统一
(五)计算价格和计量单位要一致。
应用回归方程进行预测和分析应注意哪些问题:
1.根据预测目标,确定自变量和因变量
明确预测的具体目标,也就确定了因变量。
2.建立回归预测模型
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3.进行相关分析
回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。
只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。
因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。
进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
4.检验回归预测模型,计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。
回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
5.计算并确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值
应用回归预测法时应首先确定变量之间是否存在相关关系。
如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。
正确应用回归分析预测时应注意:
①用定性分析判断现象之间的依存关系;
②避免回归预测的任意外推;
③应用合适的数据资料,不要用样本数据之外的x值去预测相应的Y值。
因为在回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达式正确的,但实际应用中,他们的关系可能是曲线,用越接近均值x的点预测得到的估计值会越理想。
平均涵义在回归分析中的作用:
1,回归分析用来考察变量之间的数量关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。
主要解决以下问题:
从一组样本数据出发,确定变量间的数学关系式。
对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。
利用所求的关系式,根据一个或几个变量的取值来估计或预测两一个特定变脸的取值,并给出这种估计或预测的可靠程度。
1,最小二乘法是通过使因变量的观测值与估计值之间的离差平方和达到最小来拟合举距离各观测点最近的一条直线,估计参数的方法。
画出最小二乘法示图。
P279,如何判断残差平方和最小,SSE=求偏导,列出式子。
2,用最小二乘方法估计出来的直线y=
即是描述一个或几个自变量变动时,因变量平均变动的情况,E(y)=
3,拟合优度的衡量:
y与其均值的差异包括由回归模型解释的部分和不可解释的部分,SST=
是被解释变量y相对于样本均值的总的变化,回归平方和是y中关于样本均值的总体变化中由回归解释的部分。
举例说明小概率事件原理和反证法:
假设检验就是事先对总体参数提出假设,然后取样进行实验,再将实验所提供的信息按照一定的方法计算并与一定的临界值进行比较,最后推断接受或者拒绝原假设的方法。
小概率事件和反证法是假设检验的核心思想。
小概率事件,是指发生概率很小的随机事件在一次实验中是几乎不可能发生的。
根据这一原理,可以作出是否接受原假设的决定。
例如,有一个厂商声称其产品的合格品率很高,可以达到99%,那么从一批产品(如100件)中随机抽取1件,这一件恰好是次品的概率就非常小,只有1%。
如果厂商的宣称是真的,随机抽取1件是次品的情况就几乎是不可能发生的,但如果这种情况确实发生了,我们就有理由怀疑原来的假设,即产品中只有1%次品的假设是否成立,这时就可以推翻原来的假设,可以作出厂商的宣称是假的这样一个推断,我们进行推断的依据就是小概率原理。
当然,推断也可能会犯错误,即这100件产品中确实只有1件是次品,而恰好在一次抽取中被抽到了。
所以这个例子中犯这种错误的概率是1%,也就是说我们在冒1%的风险作出厂商宣称是假的这样一个推断。
由此也可以看出,这里的1%正是前面所说的显著性水平。
反证法就是先提出假设,进而按照适当的统计方法确定假设成立的可能性,如果可能性小就拒绝假设。
两者结合就形成了假设检验的基本思想,即抽取样本资料进行检验统计量的计算,然后按照接受假设是否会出现小概率事件来决定是否接受原假设。
1.举例说明假设检验中的小概率事件原理和反证法。
(武大版p259)
(1)反证法思想。
先假定”H0为真”,如果检验中出现了不合理的现象则表明有理由认为H0是错的,应拒绝H0接受H1。
如果没有出现小概率事件,则有理由接受H0是正确的。
(2)小概率原理是指发生概率很小的随机事件在一次实验中是几乎不可能发生的。
假设检验中根据这一原理可以作出是否拒绝原假设的判断。
例如:
已知某元件的标准质量为500g,为了验证某工厂的原件是否符合标准,随机抽取100个样本,测得平均质量为510g,要判断该厂的元件是否符合标准。
首先,提出原假设和备择假设(H0=。
。
。
),计算检验统计量(。
。
)确定显著性水平为5%,就可以根据抽样分布原理求出否定原假设和接受原假设的临界值,确定了拒绝域。
如果原假设成立,则说明95%的样本均值应当落入置信度为95%的置信区间,所以在一次实验中统计量落入拒绝域的概率是很小的,如果这个情况出现,我们便有理由认为我们的