应用统计学期末复习参考范围.docx
《应用统计学期末复习参考范围.docx》由会员分享,可在线阅读,更多相关《应用统计学期末复习参考范围.docx(14页珍藏版)》请在冰豆网上搜索。
应用统计学期末复习参考范围
应用统计学期末复习参考
一、简答题(30分)
1、统计学研究的对象是什么?
答:
统计学的研究对象是客观对象的数量方面,具体说,是研究总体现象的数量特征与规律性,以帮人们科学地认识客观事物。
2、在应用统计学研究实际问题时,需要兼备哪两方面的知识?
答:
一方面要掌握统计学的基本理论与方法,另一方面要具有实际问题的知识背景。
这样才能把定量分析与定性分析结合起来,在应用统计方法进行定量分析的基础上,再应用各学科的专业知识对统计分析的结果做出合理的解释。
3、统计学中总体、个体和样本的定义?
答:
总体就是某一特定研究中所有单元的集合。
通常由具有相同性质的许多单元构成,而构成总体的每个单元被称为个体。
个体是我们借以收集数据的对象,可以由人、单位或物充当。
样本是指从总体中抽取的部分个体构成的集合
4、统计研究中抽样的必要性?
答:
统计研究的目的是认识总体的数量特征,但有时构成总体的个体数量很大,实际工作中不可能或不必要对每个个体的数量特征逐一调查,通常是以某种方式从总体中抽取一部分个体代表总体进行研究。
样本是总体的代表,从统计中抽取样本的目的就是通过对样本特征的分析去推断总体的特征。
5、品质型变量和数值型变量的定义?
答:
品质型变量又称定性变量,是指反映事物品质特征的变量,其表现为类别,通常是用文字来表示的;数值型变量又称定量变量,是指反映事物特征的变量,通常使用自然或度量衡单位进行计量,其结果表现为具体的数值。
数值型变量根据其取值是否连续,又可以分为离散变量和连续变量两种形式。
6、参数与统计量的定义以及它们在统计研究中的关系?
答:
参数是用来描述总体特征的概括性值,通常用大写字母表示,如总体均值,标准差,总体比例等;统计量是用来描述样本特征的概括性值,通常用小写字母表示,如样本均值,样本标准差,样本比例等。
在进行统计推断时,总体数据通常是不完全的,所以参数是一个未知的常数,但样本是经过抽样所确定下来的,所以统计量总是可以计算出来的,通过样本统计量来对总体参数进行推断与检验。
7、统计研究的过程包括哪三个步骤?
答:
统计研究包括以下三个过程——第一、统计数据的收集:
统计数据的收集是指对现象总体中全部或足够多的单位进行调查,收集大量的以数字为主的信息资料,借以反映总体的数量特征;第二、统计数据的整理:
统计数据的整理是对零星、分散的统计数据进行系统化、条理化的加工处理过程,使数据更加符合统计分析的需要;第三、统计数据的分解和解释:
统计数据的分析和解释是统计学的核心内容,它是通过各种统计方法描述现有数据的状况,推断未知总体的数量特征,以达到探索数据内在规律的目的。
8、统计数据来源的三种主要途径?
答:
统计数据的来源主要包括以下三个途径:
第一、大量观察法:
大量观察法的数学依据是大数定理,大数定律是随机现象的基本规律;第二、描述统计法:
描述统计法,就是运用各种表格、图形和数字来概括总体数量特征的方法;第三、推断统计法:
推断统计法,就是在人们可以控制的范围内,根据样本资料的特征,对总体的特征做出估计和预测的方法。
9、统计报表制度的定义?
统计报表制度是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式,既政府统计部门向列入调查范围的全部统计调查机构单位发放统计报表,这些机构单位定期填好统计报表后,向发放报表的政府统计部门报送。
10、抽样调查的定义及特点?
答:
抽样调查,也称样本调查,是从调查对象的总体中按照一定程序抽取一部分单位为样本进行调查,获取数据,并以此来推断总体数量特征的数据收集方式。
抽样调查具有以下特点:
经济性好、时效性强、适用面广、准确性高。
11、重点调查与典型调查的定义及它们与抽样调查的区别?
答:
重点调查是从调查对象的全部单位中选择少数重点单位进行调查;典型调查的目的是通过典型单位来描述或揭示事物的本质和规律,因此所选择的典型单位应具有我们所研究问题的本质属性或特征。
抽样调查与其它两种调查的不同之处:
抽样调查是随机地抽取调查单位,因此可以根据抽样结果推断总体的数量特征,因而重点调查和典型调查的单位不是随机的,具有一定的主观性,因此调查结果不能用于推断总体。
12、统计调查方案的设计包括哪六个步骤?
答:
统计调查方案的设计包括以下六个步骤:
第一、明确调查目的;第二、确定调查对象和调查单位;第三、确定调查内容;第四、确定调查时间和调查期限;第五、选择调查方式与方法;第六、制定调查的组织实施计划。
13、统计数据的整理主要包括哪几个步骤?
答:
统计数据的整理主要包括以下五个步骤:
第一、数据审核;第二、数据分组;第三、数据汇总;第四、编制频数分布表;第五、绘制统计图。
14、品质型数据整理的步骤?
对于品质型数据的整理,是按照品质型数据的类型将总体划分为若干组,然后将每一个单位按其表现归入其中一组,还要计算出每一类别的频数、频率,同时编制频数分布表,以便对数据及其特征有一个初步的了解。
具体步骤是:
第一步,列出各类类别;第二步,计算各类别的频数、频率;第三步,编制频数分布表。
15、频数、频率与频数分布的概念?
答:
频数,也称次数,是指落在各类别中的数据个数;频率,也称比重,是指各类别中的数据个数占全部数据总数的比例,通常用百分数表示;频数分布,也称次数分布,是各个类别及其相应的频数的对应排列,将频数分布用表格的形式表现出来就是频数分布表。
16、组距式分组的步骤?
答:
对于数据做组距式分组,应当按照下列步骤进行:
(一)第一步:
对数据进行排序,找出最大值与最小值,计算全距。
全距即全部数据中的最大值与最小值之差。
(二)第二步:
确定组数、组距和组限:
组数的多少主要取决于数据分布的特点。
如果组数过少,数据的分布就会过于集中,便会混淆数据的界限;如果组数过多,又可能造成数据的分布过于分散,同样不便于观察数据分布的特征和规律,因此组数的多少应适中。
在实际分组时,我们可以参考美国学者史特杰斯(H.A.Sturges)提出的经验公式来确定组数K:
K=1+3.322Lgn式中:
n为数据的个数,对结果用四舍五入法取整即为组数。
组距(classwidth)是一个组的上限与下限的差,一般由全距与组数来决定。
组距=全距/组数。
为了编表和计算方便,也是审美习惯使然,组距通常取整数,且多取5或10的倍数。
组限(classLimit)是一个组两边的数值,也是各组数据变化的范围。
在确定组限时,不能将不同性质的数据划归到一个组内。
(三)根据分组整理成频数分布表。
17、向上累计和向下累计的概念?
答:
向上累计是从变量值小的一组向变量值大的一组累加频数;向下累计是从变量值大的一组向变量值小的一组累加频数。
18、统计表的构成内容以及设计原则?
答:
统计表是用于展示统计数据的基本工具,主要由总标题、行标题、列标题和数字资料四部分组成。
(二)统计表的设计原则
第一、统计表的标题应简明、确切地概括所要反映的内容,一般需要标明数据所属的时间、地点及数据本身的含义。
第二、各行和各列的排列应当注意反映出数据资料的逻辑关系,一般应按照先局部后整体的原则,即先列各项目,后列总体。
第三、表中必须注明数字资料的计量单位。
第四、统计表一般是开口式,即统计表的左右两边不封口,表中的上下两条横线一般用粗线。
第五、在统计表的下方加上必要的注释,注明指标的含义,包括项目及资料来源等。
19、集中趋势的概念以及常用的测度值?
答:
集中趋势是一组数据分布的中心倾向或一般水平,其测度值通常表现为平均值。
常用的集中趋势测度值包括五种,具体表现为:
众数、中位数、算术平均值、调和平均数和几何平均数。
20、众数的概念?
答:
众数是一组数据中出现频数最多的变量值,记作M0。
众数能够直观地反映数据分布的集中趋势,在现实生活中有许多场合都用众数来说明社会经济现象的一般水平。
21、中位数的概念?
答:
中位数是一组数据按一定顺序排列后,处于中间位置上的变量值,记作Me。
显然,中位数将全部变量值分成两部分,一半变量值比中位数大,另一半变量值则比中位数小。
22、算术平均数的概念?
算术平均数也称均值,它是全部数据的平均数,可以概括地反映全部数据的平均水平。
23、调和平均数的概念?
答:
调和平均数又称倒数平均数,是将各变量值的倒数求平均之后再求倒数而得到的平均数值,记做H。
根据所掌握的数据是否分组,调和平均数分为简单调和平均数与加权调和平均数两种形式。
24、简单几何平均数的计算方法?
答:
简单几何平均数是n个变量值连乘积的n次方根,其计算公式为:
。
25、众数、中位数和均值的关系?
答:
众数、中位数和均值的关系与数据分布的状况有关。
如果数据的分布完全对称,则众数
、中位数
和均值
必定相等,即
;如果
则是负偏分布;如果
则是正偏分布。
26、众数、中位数和均值的应用范围?
众数是数据中出现频率最多的数值,具有不受极端值影响的特点,是品质型数据集中趋势的常用测度值。
中位数是一种位置的代表值,其特点是不受数据极端值的影响,它主要用于测度带有顺序数据的集中趋势,但不适用于没有顺序意义的品质型数据。
均值是根据全部数值计算的,具有综合全部数据信息的特点,是管理领域中应用最广泛的集中趋势测度值。
27、离散程度的定义及其测度值?
答:
统计中把一组数据远离其中心的程度称为离散程度。
离散程度的测度值主要包括:
极差、四分位差、标准差与方差、方差和离散系数。
28、极差的定义与计算方法?
答:
极差也称全距,它是一组数据的最大值与最小值之差,记作R。
其计算公式为:
R=最大值-最小值。
30、四分位差的定义与计算方法?
答:
四分位差也称内距,它是第三个四分位数与第一个四分位数之差,记作Qd,其计算公式为:
Qd=Q3-Q1。
31、标准差与方差的定义?
标准差是各变量值与其平均数的离差平方的平均数的平方根,它是测度数值型数据离散程度的最主要方法。
标准差的平方即为方差。
32、离散系数的定义及其计算公式?
答:
离散系数通常是用标准差来计算的,因此也称标准差系数,它是一组数据的标准差与其相应的平均值之比,是测度数据离散程度的相对指标,其计算公式为:
总体离散系数:
,样本离散系数:
。
33、偏态的概念及其计算公式?
答:
偏态是指一组数据分布的偏斜方向及程度。
未分组数据的偏态系数:
,已分组数据的偏态系数:
。
34、峰度的概念及其计算公式?
答:
峰度是指一组数据分布的尖峭程度。
通常与正态分布的高峰相比较,若分布的形状又低又阔,称为平峰分布;若分布的形状又高又窄,则称为尖峰分布。
未分组数据的峰度系数:
,已分组数据的峰度系数:
。
35、箱线图的概念?
答:
箱线图就是将一组数据的三个四分位数、最大值和最小值刻画在一条横轴上,用于显示数据分布的集中、离散和偏斜态势的图形。
36、随机现象的概念?
答:
事物发展的结果事先不能确定的现象称为随机现象。
37、随机变量的概念?
答:
随机变量是用于描述某一随机现象的所有可能结果的变量,它是由随机试验决定取值的。
38、概率的定义以及计算概率的方法?
答:
概率是对某随机事件将会发生的可能性的测度,其取值范围在0到1之间。
概括来讲,计算概率的方法有三种,即古典概率法、试验概率法和主观概率法。
39、二项分布的概念以及密度函数?
答:
统计学中把经过n次重复的贝努里实验,所出现的“成功”次数这一离散型随机变量的概率分布称为二项分布。
二项分布的概率密度函数为:
(X=0,1,…n)
。
40、二项分布的期望、方差和标准差公式?
答:
设每次试验“成功”的概率为
,则“成功”次数(X)的期望和方差公式如下:
、
、
。
41、简单随机抽样的概念?
答:
简单随机抽样是从总体N个单位中任意抽取n个单位作为样本,而每个单位可能被抽中的概率相等的一种抽样方法。
42、分层抽样的概念?
答:
分层抽样又称分类抽样、类型抽样,它是在抽样之前先将总体中的所有单位按照某种特征或标志划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样方法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。
43、系统抽样的概念?
答:
系统抽样也称等距抽样或机械抽样。
它是首先将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位而组成样本的一种抽样方式。
系统抽样为不重复抽样,能够使抽出的样本更均匀地分布在总体中,可以提高抽样推断的效果。
44、整群抽样的概念?
答:
整群抽样是首先将总体中各个单位合并成若干个互不交叉,互不重复的集合,称之为群。
总体中的每个单位属于且只属于一个群,每个群都能较好地代表总体的特征,然后以群为单位抽取一个或一个以上的群作为样本的一种抽样方式。
45、抽样分布的概念?
答:
在抽样过程中,由于样本是随机抽取的,因此统计量是一个随机变量,其取值随着样本的不同而不同;在一个总体中按照简单随机抽样方法抽出容量相同的各种随机样本,再根据这些样本计算出某种统计量的所有可能值。
通常将样本统计量所有可能取值形成的概率分布称为抽样分布,它是进行统计推断的理论基础。
46、参数估计的概念?
答:
参数估计也就是利用抽取的样本数量特征去估计总体的参数。
47、点估计优良性评价的三个标准?
答:
第一、无偏性是指估计量抽样分布的数学期望等于被估计的总体参数;第二、有效性指的是估计量的离散程度比较小;第三、一致性是指随着样本容量的增大,估计量的值与总体参数真值越来越近。
48、区间估计的概念?
答:
区间估计是在点估计的基础上,根据给定的置信度估计总体参数取值的方法。
49、区间估计的步骤?
答:
区间估计的步骤
(1)确定置信水平
,即估计的可靠性或把握程度。
(2)根据置信水平
,查正态分布表确定
值。
(3)实际抽样,并计算样本均值
和抽样误差
。
(4)确定置信区间
。
50、样本容量的影响因素?
答:
样本容量主要受以下四个因素的影响:
第一、总体的方差;第二、置信度的大小;第三、允许的抽样误差范围E的大小;第四、抽样方法。
51、假设检验的概念?
答:
假设检验就是事先作出一个关于总体参数的假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受或否定原假设的推断统计方法。
52、假设检验的步骤?
答:
假设检验主要分为四个主要的步骤:
(一)提出原假设和备择假设;
(二)选择适当的统计量,并确定其分布形式;(三)选择显著性水平
,确定原假设
的接受域和拒绝域;(四)做出结论。
53、假设的提出原则?
答:
原假设和备择假设不是随意提出的,应根据所检验问题的具体背景而定。
常常是采取“不轻易拒绝原假设”的原则,即把没有充分理由不能轻易否定的命题作为原假设,而相应地把没有足够把握就不能轻易肯定的命题作为备择假设。
在实际应用中,一般而言将所要检验的问题放置于备择假设。
54、假设检验中第一类错误与第二类错误的概念?
答:
在做出接受或拒绝原假设
的结论时,是基于样本信息来判断的。
由于样本的随机性,使假设检验有可能出现两类错误,具体情况如下:
当原假设
为真,但由于样本的随机性使样本统计量落入了拒绝区域,这时所做的判断是拒绝原假设。
这类错误称为第一类错误,亦称拒真错误;当原假设
为假,但由于样本的随机性使样本统计量落入接受区域,这时的判断是接受原假设。
这类错误称为第二类错误。
55、假设检验中主要有哪三种决策规则?
答:
假设检验的决策规则概括起来讲主要包括三种:
值(或
值)检验法、置信区间检验法和
值检验法。
二、填空题与选择题的考察范围(30分)
1、在给定分组信息的情况下,求组距式分组数据的众数?
参考书本P50中的例4.2。
2、根据已经分组的数据计算中位置数?
参考书本P53中的例4.5。
3、求一组给定数据的三个四分位数?
参考书本P55中的例4.7。
4、给定分组数据时,求加权算术平均数?
参考书本P57中的例4.9。
5、求一组数据的简单调和平均数?
参考书本P58中的简单调和平均数的公式。
6、求分组数据的加权几何平均数?
参考书本P60中的例4.12。
7、求未分组数据的标准差?
参考书本P64中的例4.15。
8、求分组数据的标准差?
参考书本P64中的例4.16。
9、求二项分布的概率密度?
参考书本P79中的例5.1。
10、根据正态分布的性质,求函数在一定区间内的概率?
参考书本P83中的例5.3。
11、求样本比例的概率以及样本比例在一定区间内的概率?
参考书本P93中的例5.7。
12、求两个总体样本平均值差异的标准差?
参考书本P95中的例5.8。
三、计算题、检验题的考察范围(40分)
1、对一组数据进行组距式分组并求出组数、组距和组限?
(关键在于弄明白过程和所应用的公式)
参考书本P31中的例3.2。
2、大样本且重复抽样情况下,单一总体均值的区间估计?
参考书本P110中的例6.2。
与例6.2不同的是:
在考试中并不给出总体标准差,而是需要考生先根据样本信息计算出样本的标准差s,然后利用P110中的公式(6.4)来确定置信区间。
3、大样本且重复抽样情况下,两总体均值差异的区间估计?
参考书本P116中的例6.8。
4、重复抽样情况下,估计总体均值时样本容量的确定?
参考书本P120中的例6.12
5、重复抽样情况下,估计总体比例时样本容量的确定?
参考书本P121中的例6.13。
在考试时显著性水平可能发生变化。
6、大样本且重复抽样情况下,单一总体均值的假设检验?
参考书本P136中的例7.2。
7、大样本且重复抽样情况下,两个总体均值差异的假设检验?
(此题的难度和计算量较大,要求考生自己计算出两个样本容量都为30的样本的样本方差,然后根据相应的公式做检验)!
参考书本P141中的例7.6