第二章数据描述.docx

上传人:b****2 文档编号:17994238 上传时间:2023-04-24 格式:DOCX 页数:23 大小:146.60KB
下载 相关 举报
第二章数据描述.docx_第1页
第1页 / 共23页
第二章数据描述.docx_第2页
第2页 / 共23页
第二章数据描述.docx_第3页
第3页 / 共23页
第二章数据描述.docx_第4页
第4页 / 共23页
第二章数据描述.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

第二章数据描述.docx

《第二章数据描述.docx》由会员分享,可在线阅读,更多相关《第二章数据描述.docx(23页珍藏版)》请在冰豆网上搜索。

第二章数据描述.docx

第二章数据描述

第二章 数据描述 

  【大纲要求】

  一、用图表展示定性数据

  1.生成频数分布表

  2.定性数据的图形表示

  二、用图表展示定量数据

  1.生成频数分布表

  2.定量数据的图形表示

  三、用统计表来表示数据

  四、用数字来概括数据

  1.定性数据的数字特征

  2.定量数据的数字特征

 第一节 用图表展示定性数据

  

  定性数据包括分类数据和顺序数据,它们的图表展示方法基本相同。

通常可以用频数分布表和图形来描述。

  一、生成频数分布表

  定性数据本身就是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计出每一类别的频数,就是一张频数分布表。

  频数:

频数分布表中落在某一特定类别的数据个数。

通过频数分布可以观察不同类型数据的分布情况。

  

  【例题2.1】频数分布表中落在某一特定类别的数据个数称为(  )。

  A.频率    B.频数    C.众数    D.中位数

  【答案】B

二、定性数据的图形表示

  1.饼图

  饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。

饼图主要用于总体中各组成部分所占比重的研究。

  【例题2.2】饼图的主要用途是(  )。

  A.用于总体中各组成部分所占比重的研究    B.比较多个总体的构成

  C.反映一组数据的分布            D.比较多个样本的相似性

  【答案】A

  【例题2.3】某公司共有员工160人,其构成的饼图如图2-1所示,则中级管理人员数为(  )人。

 

图2-1 公司结构构成图

A.8    B.16    C.28    D.108

  【答案】B

  【解析】职工总数为160人,中级管理人员占10%,其人数为160×10%=16(人)。

2.条形图(如图2-2所示)

  条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观察不同类别数据的多少或分布情况。

绘制时,各类别可以放在纵轴,也可以放在横轴。

 

 

图2-2 条形图                  图2-3 环形图

  

3.环形图(如图2-3所示)

  饼图只能显示一个变量(如年龄变量)各部分所占的比重。

如果要比较不同变量之间的结构差异,就可以通过画环形图来实现。

  

  【例题2.4】下列各项中,适合于比较研究不同变量之间的结构差异问题的是(  )。

  A.环形图    B.饼图    C.直方图    D.散点图

  【答案】A  

第二节 用图表展示定量数据

  

  一、生成频数分布表

  生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的数据频数即可。

  1.对数据分组

  数据分组的组数与数据本身的特点及数据的多少有关。

由于分组的目的是观察数据分布特征,因此组数的多少应以能够适当观察数据的分布特征为准。

一般的分组个数在5~15之间。

  

  【例题2.5】某管理局对其所属的企业的生产计划完成百分比采用如下分组,其中最能反映事物本质差异的分组是(  )。

[2007年中级真题]

  A.80~89%,90~99%,100~109%,110%以上

  B.80%以下,80~100%,100%以上

  C.80%以下,80~90%,90~100%,100%~110%,110%以上

  D.85%以下,85~95%,95~105%,105%以上

  【答案】C

 2.确定组距

  组距:

指每个组变量值中的最大值与最小值之差。

若将最大值称为上限,最小值称为下限,则组距等于上限与下限之差,即

  组距=上限-下限

  第一组的下限应小于最小值,最后一组的上限应高于最大值。

  在确定组距时,一般应当掌握以下原则:

  

(1)要考虑各组的划分是否能区分总体内部各个组成部分的性质差别

  如果不能正确反映各部分质的差异,必须重新分组。

例如,按学生百分制成绩分组,必须要有60分的组限,否则不能反映是否及格的本质区别。

  

(2)要能准确地清晰地反映总体单位的分布特征

  在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,则一般采用不等距分组。

  3.统计出各组的频数及频数分布表

  在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。

  

【例题2.6】某地区农民家庭年人均纯收入最高为2600元,最低为1000元,据此分为八组形成闭口式等距数列,各组的组距为(  )。

[2006年初级真题]

  A.300  B.200  C.1600  D.100

  【答案】B

  【解析】每组上限、下限之间的距离叫组距,即:

组距=上限-下限。

某地区农民家庭年人均纯收入最高为2600元,最低为1000元,若分为八组形成闭口式等距数列,则各组的组距=(2600-1000)/8=200。

  

组距=全距/组数

  【例题2.7】某连续变量分为5组:

第一组为40~50,第二组为50~60,第三组为60~70,第四组为70~80,第五组为80以上。

依习惯上规定(  )。

[2009年初级真题]

  A.50在第一组,70在第四组

  B.60在第二组,80在第五组

  C.70在第四组,80在第五组

  D.50在第二组,80在第四组

  【答案】C

  【解析】在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。

70为第三组的上限,所以应在第四组;80为第四组的上限,所以应在第五组。

  

二、定量数据的图形表示

  常用来表述定量数据的统计图形有:

直方图、折线图和散点图。

此外还有茎叶图、箱线图等。

  1.直方图

  直方图的横坐标代表变量分组,纵坐标代表各变量值出现的频数,这样,各组与相应的频数就形成了一个矩形,即直方图。

  

  

  2.折线图

  折线图是利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的分配情况、现象在时间上的变化和两个现象之间的依存关系等。

 

图2-4 高一某班语文成绩分布的折线图

3.散点图

  散点图是用二维坐标展示两个变量之间关系的一种图形,它是用坐标轴代表变量x,纵坐标代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及散点形成的二维数据图称为散点图。

  

  【例题2.8】为描述身高与体重之间是否有某种关系,适合采用的图形是(  )。

  A.直方图    B.条形图    C.散点图    D.环形图

  【答案】C

  【解析】散点图来反映两个变量的关系。

题中只有两个变量,即身高和体重,因此可用散点图来描述。

  

  【例题2.9】下列各项中,即适用于定性数据,又适用于定量数据的图形表示方法有(  )。

  A.饼图    B.直方图    C.条形图    D.环形图    E.散点图

  【答案】ACD

  【解析】定性数据常用的图示方法有饼图、条形图和环形图。

适用于定性数据图示表示方法,也都适用于定量数据。

但定量数据还有一些特定的图示方法,它们并不适用于定性数据,如直方图、折线图和散点图。

 第三节 用统计表来表示数据

  统计表是一种用密集的形式归纳数据的方法。

它主要是利用行和列中的数据来表述现象特征。

  1.利用统计表的目的

  ①在文章中使用它以支持自己的观点;

  ②利用它组织数据。

  2.统计表的组成部分

  ①表头:

应该放在表的上方,它说明的是表的主要内容;

  ②行标题、列标题:

一般放在表的第一列和第一行,它表示的是所研究问题类别的名称和指标名称;

  ③数字资料:

表的其余部分是具体的数字资料;

  ④表外附加:

通常放在统计表的下方,用来说明资料来源、指标注释和必要的说明等内容。

通常情况下,统计表的左右两边不能封口。

  

 

第四节 用数字来概括数据

  统计数据加工整理后,可利用统计图形和统计表来展示它的分布特征。

若要找出它的分布规律及本质特征,可以从两方面来考察:

  ①集中趋势:

数据向其中心值的靠拢程度;

  ②离散程度:

反映各个数据远离中心值的趋势和程度。

  一、定性数据的数字特征(同样适用于定量数据)

  对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。

  中位数:

是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。

——不能用于分类数据

  众数:

就是数据中出现次数或出现频率最多的数值。

在定性数据中,由于记录的是频数,因此众数用得多些。

被调查者的最高学历

 

  由上表可以看出:

众数是:

初、高中文化程度;从累计频率看,处于50%的位数在大专文化程度中,故中位数是大专文化程度。

二、定量数据的数字特征

  反映数据集中趋势的水平度量:

平均数、中位数、众数和分位数等

  反映数据离散程度的差异度量:

极差、四分位差、标准差和方差

  

  1.水平的度量

  

(1)平均数(也称为均值)

  是把某一组数据进行算术平均,用以表述某一事物的平均水平。

其计算方法有:

  ①简单平均数

  是把一个变量的所有观测值相加再除以观测值的数目。

其计算公式为:

 

  ②加权平均数

  如果原始数据为分组数据,则采用加权平均数公式计算,其中的权数f为各组的频数。

其计算公式为:

 

【例题2.10】加权算术平均数的大小(  )。

[2007年初级真题]

  A.主要受各组标志值大小的影响,而与各组次数的多少无关

  B.主要受各组次数多少的影响,而与各组标志值的大小无关

  C.既受各组标志值大小的影响,又受各组次数多少的影响

  D.既与各组标志值大小无关,又与各组次数多少无关

  【答案】C

  【解析】加权算术平均数计算公式为:

  决定加权算术平均数大小的因素有两个:

其一是各组标志值的大小;其二是权数的影响。

权数对算术平均数的影响,不决定于权数本身数值的大小,而是取决于作为权数的各组次数占总体次数的比重的大小。

各组次数占总体次数的比重是计算加权算术平均数的实质权数。

  【例题2.11】某工厂新工人月工资400元,工人人数500人;老工人月工资800元,工人人数100人,则该工厂工人平均工资为(  )。

[2008年初级真题]

  A.600元    B.533.33元    C.466.67元    D.500元

  【答案】C

  【解析】根据分组资料,应采用加权平均数计算平均数。

由题得,该工厂工人平均工资为:

(2)中位数

  中位数:

它是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。

  (3)众数

  众数:

就是数据中出现次数或出现频率最多的数值。

  (4)用哪个值代表一组数据

  平均数的主要缺点是更容易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较差。

  中位数和众数的优点是不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。

  

  【例题2.12】在各种平均指标中,不受极端值影响的平均指标有(  )。

[2009年中级真题]

  A.算数平均数  B.调和平均数  C.中位数  D.几何平均数  E.众数

  【答案】CE

  【例题2.13】在某城市中随机抽取8个家庭.调查得到每个家庭的人均月收入数据如下(单位:

元):

  2080  1750  2080  2080  1850  1960  2250  2630

  则中位数和众数分别为(  )。

  A.4.5;4    B.2080;2080    C.1960;2080    D.2080;2250

  【答案】B

  【解析】将这8个数据从小到大排序得:

1750、1850、1960、2080、2080、2080、2250、2630。

则中位数为:

(2080+2080)/2=2080(元);由于2080出现的次数最多为3次,因此众数应为2080元。

2.差异的度量

  

(1)极差

  极差又称全距,是最简单的离散指标,它是一组数据中的最大值和最小值之差。

计算公式为:

  R=xmax-xmin

  优点:

计算极差非常简单,含义也很直观。

  缺点:

仅仅受最大值和最小值的影响,不能反映一组数据变量分布的情况,而且它非常容易受极端值的影响。

因此,它不能准确地描述数据的分散程度。

  

  【例题2.14】在反映各变量值离散趋势的变异指标中,只与变量极端标志值有关的指标是(  )。

[2006年中级真题]

  A.全距    B.平均差    C.标准差    D.方差

  【答案】A

  【例题2.15】下列关于数据2,5,5,7,9,5,9的说法,正确的是(  )。

  A.平均数为5   B.中位数为5   C.众数为5   D.极差为7   E.平均数为6

  【答案】BCDE

  【解析】将7个数从小到大排序为:

2,5,5,5,7,9,9,可知平均数为:

(2+5+5+7+9+5+9)/7=6;中位数为x(n+1)/2=x4=5;众数为5;极差R=9-2=7。

(2)方差和标准差

  ①方差

  是将各个变量值和其均值离差平方的平均数,作为样本数据,它反映了样本中各个观测值到其均值的平均离散程度。

其计算公式为:

  ☞未分组的计算公式:

  ☞分组的计算公式:

  

  ②标准差

  是方差的平方根,它与方差相比更具量纲性,而且与变量值的计量单位相同,使用的范围也比方差更广泛。

  ☞未分组的计算公式:

  ☞分组的计算公式:

  在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。

反之,其标准差越小,说明它的各个观测值分布的越集中,它的趋中程度就越好。

  

【例题2.16】两个总体的平均数相等,标准差不等,若比较两总体平均数的代表性,以下说法正确的是(  )。

[2009年初级真题]

  A.标准差大的,代表性大

  B.标准差小的,代表性大

  C.标准差小的,代表性小

  D.两平均数的代表性相同

  【答案】B

  

  【例题2.17】标准差指标数值越小,则说明变量值(  )。

[2008年初级真题]

  A.越分散,平均数代表性越低    B.越集中,平均数代表性越高

  C.越分散,平均数代表性越高    D.越集中,平均数代表性越低

  【答案】B

  【例题2.18】下列指标中不可能出现负值的有(  )。

  A.众数    B.全距    C.标准差    D.方差    E.中位数

  【答案】BCD 

(3)离散系数(变异系数、标准差系数)

  用于更准确地反映研究现象的差异程度。

  离散系数,它是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。

其计算公式是:

  ①总体数据的离散系数:

  ②样本数据的离散系数:

  

  【例题2.19】有下列甲,乙两部门职员工资数据:

甲部门职员工资4000,3000,2500,2000。

乙部门职员工资3000,4750,3500,2750。

若要比较这两部门职员平均工资差异程度大小,应选用的方法是(  )。

[2006年初级真题]

  A.极差  B.标准差  C.变异系数  D.平均数

  【答案】C

  【解析】由题可得             ;对于具有不同水平的数列或总体,不能直接用平均差或标准差来比较其标志变动程度的大小,而应计算相应的变异系数,以相对数的形式来进行比较。

(4)标准分数(标准化值、Z分数)

  标准分数,是变量值与其平均数的离差除以标准差后的值,用以测定某一个数据在该组数据中的相对位置。

其计算公式为:

 

  标准分数最大的用途是可以把两组数据中的两个不同均值,不同标准差的数据进行对比,以判定它们在各组中的位置。

  

  【例题2.20】变量值与其平均数的离差除以标准差后的值称为(  )。

  A.标准分数   B.离散系数   C.方差   D.标准差

  【答案】A

 

本章考核的知识点

  第一节用图表展示定性数据

  频数分布表、饼图、条形图、环形图

  第二节用图表展示定量数据

  频数分布表:

确定组数,确定组距(不重不漏;等距、不等距),统计频数生成频数分布表(上限不在内)

  直方图、折线图、散点图

  第三节用统计表来表示数据

  统计表的构成:

表头、行标题、列标题、数字资料、表外资料

  统计表的格式一般是“开口”式的,即表的左右两边不能封口。

  第四节 用数字来概括数据

  1.定性数据:

众数、中位数(分类数据、顺序数据)、比例、百分比

  2.定量数据

  集中趋势:

平均数、中位数、众数、分位数

  离散程度:

极差、四分位差(内距)、标准差、方差、离散系数

  标准分数

 

第三章 参数估计

  

  【大纲要求】

  一、抽样分布

  1.总体分布与总体参数

  2.统计量与抽样分布

  3.统计量的标准误差

  二、参数估计

  1.点估计与区间估计

  2.评价估计量的标准

  3.一个总体均值的区间估计

  4.一个总体比例的区间估计

  三、样本量的确定

  1.估计总体均值时样本量的确定

2.估计总体比例时样本量的确定

第一节 抽样分布

  一、总体分布与总体参数

  总体分布:

是总体中所有观察值所形成的分布。

  由于总体中的观察值是有差别的,可以视为随机变量,用X表示,X的分布就是总体分布。

  总体参数:

是对总体特征的某个概括性的度量。

如:

总体的均值、总体方差、总体比例等。

  二、统计量与抽样分布

  1.统计量

  是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。

因此,统计量是样本的函数。

其特征有:

  

(1)构成统计量的函数中不能包含未知因素

  由于样本抽取出来以后,样本值就是已经观察到的值,这个样本的统计量就是已知的,所以构成统计量的函数中不能包含未知因素。

  

(2)统计量是一随机变量

  由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。

所以在抽取样本前,理论上统计量是一随机变量。

【例题3.1】设总体,X1,X2,X3,X4是正态总体X的一个样本,为样本均值,s2为样本方差,若为未知参数且为已知参数,下列随机变量中属于统计量的有(  )。

[2005年中级真题]

  A.          B.

  C.          D.        E.

  【答案】AE

  【解析】统计量是指针对不同的统计问题构造一个不含未知参数的样本函数。

BCD三项函数中都含有未知参数,所以不属于统计量。

  2.抽样分布

  由样本统计量所形成的概率分布就是抽样分布,如样本均值的分布,样本比例的分布等。

抽样分布仅仅是一种理论分布。

  统计量的概率分布(抽样分布),提供了该统计量长远而稳定的信息,它构成了推断总体参数的理论基础。

  【例题3.2】从一般意义上讲,抽样分布的含义是指(  )。

[2006年中级真题]

  A.一个样本中各观察值的分布  B.总体中各元素的观察值所形成的分布

  C.抽样推断中假设的分布    D.样本统计量的概率分布

  【答案】D

 3.样本均值的抽样分布

  

(1)重置抽样和不重置抽样

  ①重置抽样

  指在抽取样本单位的时候每次只抽取一个样本单位,观察记录之后再放回到总体中参加下一次的抽样,这样在抽样过程中总体单位总数始终不变。

  ②不重置抽样

  指在抽取样本单位的时候每次只抽取一个样本单位,观察记录之后不再放回到总体中参加下一次的抽样,这样在抽样的过程中总体单位总数始终在减少。

  例如:

设总体共有N个元素,从中随机抽取一个容量为n的样本:

  ☞在重置抽样时,共有Nn种抽法;

  ☞在不重置抽样时,共有种可能的抽法。

  【例题3.3】重置抽样的特点是(  )。

[2007年初级真题]

  A.每次抽样的总体单位数都是不同的   B.各次抽选相互影响

  C.每次抽选时,总体单位数都在逐渐减少  D.每次抽选时,总体单位数始终不变

  【答案】D

(2)样本均值的均值

  样本均值的抽样分布:

是所有可能抽出来的样本 的分布,数理统计学的相关定理已经证明:

  即样本均值的均值就是总体均值。

  (3)样本均值方差的计算

  ①在重置抽样时,样本均值的方差为总体方差  的   ,即

 

  ②在不重置抽样时,样本均值的方差为:

  其中,   为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,N比较大而n/N≥5%时,修正系数可以简化为1-n/N,当N比较大而n/N<5%时,修正系数可以近似为1,即可以按重置抽样计算。

(4)样本均值的分布

  ①可以证明当总体服从正态分布时,样本均值一定服从正态分布,即有:

  ②若总体为未知的非正态分布时,只要样本容量n足够大(通常要求n≥30),样本均值仍会接近正态分布,其分布的期望值为总体均值,方差为总体方差的1/n。

——这就是统计上著名的中心极限定理。

即:

  从均值为、方差为的总体中,抽取样本量为n的随机样本,当n充分大时(通常要求n≥30),样本均值的分布近似服从均值为、方差为的正态分布。

  ③如果总体不是正态分布,当为小样本时(通常<30),样本均值的分布则不服从正态分布。

【例题3.4】由样本均值的抽样分布可知样本统计量与总体参数之间的关系为(  )。

[2009年中级真题]

  A.在重复抽样条件下,样本均值的方差等于总体方差的1/n

  B.样本方差等于总体方差的1/n

  C.样本均值的期望值等于总体均值

  D.样本均值恰好等于总体均值

  E.样本均值的方差等于总体方差

  【答案】AC

  【解析】在重置或者不重置抽样的条件下,样本均值的期望值恰好等于总体均值。

在重置抽样时,样本均值的

标准差为总体标准差的1/n,即。

在不重置抽样时,样本均值的标准差为。

  

  【例题3.5】假定10亿人口大国和100万人口小国的居民年龄标准差相同,现在各自用重复抽样方法抽取本国的1‰人口了解年龄状况,比较抽样误差,两者的关系为(  )。

[2008年初级真题]

  A.两者相等      B.前者大于后者

  C.前者小于后者    D.不能确定

  【答案】C

  【解析】在重置抽样时,样本均值的方差为总体方差的1/n,即。

可见,在标准差一定时,样本容量与抽样误差成反比,样本容量大的,抽样误差小。

  

【例题3.6】对甲乙两个工厂工人平均工资进行纯随机不重复抽样调查,调查的工人数一样,两工厂工资方差相同,但甲厂工人总数比乙厂工人总数多一倍,则抽样平均误差(  )。

[2009年初级真题]

  A.甲厂比乙厂大

  B.乙厂比甲厂大

  C.两个工厂一样大

  D.无法确定

  【答案】A

  【解析】在不重置抽样时,样本均值的方差为

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 生产经营管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1