统计学第123章.docx

资源描述

统计学第123章.docx

《统计学第123章.docx》由会员分享，可在线阅读，更多相关《统计学第123章.docx（22页珍藏版）》请在冰豆网上搜索。

统计学第123章.docx

统计学第123章

应用统计学

学时：

参考书目：

1．徐国祥，管理统计学，上海财经大学出版社，上海，1995

2．MichaelC.FlemingandJosephG.Nellis,StatisticsforBusiness（2ndedition）,中国人民大学出版社，PrenticeHall,1997

3．盛骤等，概率论与数理统计（第二版），高等教育出版社，北京，1989

第一章导论

§1.统计及其应用领域v

一、什么是统计学

统计的含义

统计工作统计资料统计学

统计数据的收集、整理和分析搜集活动统计活动的结果统计数据的方法和技术

统计学的含义

统计学是一门收集、整理和分析统计数据的方法科学，其目的是探索数据的内在数量规律性，以达到对客观事物的科学认识。

统计数据的规律：

由事物的本质特征、变量间的内在联系等决定的大量统计数据的数量规律。

如：

出生婴儿的性别比（107：

100）

抛掷硬币的结果

施肥量与产量

收入与消费

统计方法：

探索事物的内在数量规律性的方法（描述统计（descriptivestatistics）、推断统计（inferentialstatistics））。

描述统计：

研究如何取得反映客观现象的数据，并通过图表形式对所收集的数据进行加工处理和显示，进而通过综合、概括和分析得出反映客观现象的规律性数量特征。

其内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。

描述统计学一般利用的是完全信息。

推断统计：

研究如何根据样本数据去推断总体数量特征的方法，它是在对样本数据进行描述的基础上，对统计总体的数量特征作出以概率形式表述的推断。

推断统计学一般利用的是不完全信息。

描述统计学和推断统计学的划分，一方面反映了统计方法发展的前后两个阶段，同时也反映了应用统计方法探索客观事物数量规律性的不同过程。

描述统计是整个统计学的基础，推断统计则是现代统计学的主要内容。

由于我们所获得的数据主要是样本数据，因此推断统计在现代统计学中的地位和作用越来越重要，已成为统计学的核心内容。

上述分类是从统计方法构成的角度分类。

如果我们从学科的研究范围分类，则可以把统计学分为理论统计学和应用统计学。

理论统计学：

主要研究统计学的一般理论和统计方法的数学理论。

统计学的一般理论如统计的过程，数据的整理，探索新的统计方法等。

统计方法的数学理论则以概率论为基础，还包括一些不属于传统概率论的内容。

如各种估计原理，假设检验的原理，一般决策的原理等。

应用统计学：

主要研究如何应用统计方法去解决实际问题。

基本的统计方法应用于不同的研究领域，形成各类应用统计学，如生物统计学，农业统计学，医药统计学，经济管理统计学，体育运动统计学等等。

本课程的目的在于使同学们掌握基本的统计学理论和方法，以便于在今后的工作中应用之。

二、统计的应用领域

统计学是方法论学科，可以服务于其它各个自然科学或社会科学领域。

统计在工商管理中的应用：

企业发展战略

产品质量管理

市场研究

财务分析

经济预测

人力资源管理

统计在其它领域中的应用：

精算

农业

人类学

人口学

生态学

流行病学

金融

遗传学

地质学

语言学

市场营销学

气象学

医学诊断

制药学

政治学

社会学

分类学

统计方法可以帮助其它学科探索该学科所研究的客观事物内在的数量规律性。

得出某种初步结论，但对结论的解释，需要用各学科的知识来完成。

如：

某个时期经济发展势态的描述

某种疾病与某种生活习惯的关系等

统计学不能解决各学科的所有问题，但统计方法在各学科的研究中会发挥越来越重要的作用。

§2.统计数据的类型

一、分类数据、顺序数据、数值型数据

按照对事物计量的精确程度，数据的计量尺度由低级到高级、由粗略到精确分为四个层次：

定类尺度、定序尺度、定距尺度、定比尺度。

定类尺度：

按照事物的某种属性对其进行平行的分类或分组，如性别，民族，企业性质等。

定序尺度：

是对事物之间等级差别或顺序差别的一种测度。

如产品的等级，考评成绩，受教育程度等。

定距尺度：

不仅能将事物区分为不同类型并进行排序，而且可以准确地指出类别间的差距的大小。

如用摄氏度计量温度，海拔高度等。

定比尺度：

除具有定距尺度的特性外，还可以计算两个测度值的比值。

有绝对零点，零就是没有。

四种计量尺度的比较

计量尺度

数学特性

定类尺度

定序尺度

定距尺度

定比尺度

分类（=，≠）

排序（<,>）

间距（+，—）

比值（/）

※

根据搜集数据时所采用的计量尺度，可将数据分为定类数据（分类数据）、定序数据（顺序数据）、定距数据、定比数据。

区分数据的类型是有意义的，因为对不同类型的数据将采用不同的统计方法来处理和分析。

定类数据：

计算频率，众数，异众比率，进行列联表分析和

检验等；

定序数据：

计算中位数、等级相关系数、进行某些非参数分析；

定距数据、定比数据：

可用更多的统计方法，如计算统计量、进行参数估计和假设检验等。

定距数据和定比数据统称为数值型数据。

二、观测数据和实验数据社会科学、自然科学

三、时期数据和时点数据总产值、人口数

四、截面数据和时间序列数据（对一组数据而言）。

时间与空间

§3.统计中的几个基本概念

一、总体、个体和样本

凡是客观存在的、具有统一性质的若干个别事物的集合，均可称作统计总体（简称总体）。

构成总体的每个个别事物称为个体，或叫总体单位。

总体和个体的必备条件

1客观性。

即总体是客观存在的

2规模性。

总体必须具有一定规模，即个体数量必须很大。

3同质性。

构成总体的个体在主要性质上必须是相同的。

4差异性。

个体在某些方面必须有所差异。

总体可分为有限总体和无限总体。

有时，个体数量很大且难以计数的总体也被看作是无限总体。

如同数学中集合可以是元素一样，一个总体可以是一个更大的总体的个体。

一个样本就是从总体中抽出被进行调查并据以推断总体某种性质的个体的集合。

一个样本中所包含的个体的数量称为这个样本的容量，一般用n表示。

一般地，当n>30时，称为大样本。

对于大样本，有比较方便的统计推断方法。

抽取样本的过程即称为抽样。

二、变量及其分布

变量：

说明现象某种特征的概念。

如人体身高、产品质量、某种产品的年产量等。

变量类型：

定类变量、定序变量、数字变量（连续、离散）

变量的分布函数（密度函数）：

对变量取值规律的描述。

二、参数和统计量

参数是用来描述总体特征的概括性数字度量。

常用的参数有总体均值、总体方差、总体比例等。

参数是一个客观存在的常数。

统计量是样本的函数。

当样本取定以后，可以通过样本观测值计算统计量的观测值，进而作出统计推断。

统计中经常用到的统计量有样本均值、样本方差、样本比例、样本k阶原点矩、样本k阶中心矩及由它们派生出的一些统计量。

统计量的分布称为抽样分布。

第二章数据的搜集

§1.数据的来源

直接数据：

直接调查或实验所取得的数据。

间接数据：

历史数据或通过查阅、购买等方式获得的数据。

在使用间接数据时，需要考虑以下几个问题：

1）原数据收集者的公信力？

2）原数据收集者收集这些数据的目的？

3）收集数据的方式方法？

4）数据的时效性怎样？

5）引用数据时，要注明数据来源，以体现对他人劳动成果的尊重和对知识产权的保护。

直接数据主要通过专门调查（多用于社会学，经济学）和科学实验（自然科学）获得。

我们把通过调查方法获得的数据称为调查数据，把通过实验方法获得的数据称为实验数据。

§2.调查数据

一、概率抽样与非概率抽样

抽样即从总体中获取样本的过程。

遵循随机原则的的抽样称为概率抽样。

调查实践中，常采用的概率抽样方式有以下几种。

（一）简单随机抽样

简单随机抽样（纯随机抽样）是完全遵循随机原则，直接从总体中抽取构成样本的各个个体，并保证各个个体有同等被抽中可能性的抽样过程。

它是抽样中最基本的方式，其他各种抽样方式都是以纯随机抽样原则为依据，采取排队、分类、分层或分群方式而形成的。

简单随机抽样的具体方式可分为抽签法和随机数法。

在运用简单随机抽样法抽取样本时，首先要确定好抽样框，即确定可能被抽中的个体的范围并对每个个体进行编号。

（二）系统抽样

系统抽样也称等距抽样或机械抽样。

它是将总体中所有个体按某一有关（或无关）标志排成循环序。

随机地确定第一个样本点，然后取相等距离或间隔依次抽取样本点。

具体间隔为k=[N/n]或{N/n},N为总体数，n为样本容量。

系统抽样具体操作过程非常简单，因而得以广泛应用。

在进行系统抽样时，要特别注意抽样间隔和现实现象本身的节奏性或循环周期相重合的问题。

此外，抽样总体应满足以下三个基本假定：

（1）总体中的每个个体都属于且仅属于一个系统样本。

（2）每个系统样本所含样本点数大致相等。

（3）所有系统样本被抽中的概率相等。

（三）分层抽样

分层抽样也称类型抽样或分类抽样。

它是先将总体中所有个体按某一主要有关标志分组，然后在各组中采用纯随机抽样或等距抽样方式，抽取一定的样本点所构成的样本。

此方法最适宜于总体情况比较复杂，各类型或层次间差异较大，而总体单位又较多的情况。

实际工作中，如果总体数为N，样本容量为n，各组所含个体数为Ni，则从第i组抽取的样本点数应为ni=Ni·（n/N）.

应用分层抽样方法时，总体必须满足以下条件：

（1）总体中任何一个个体都属于且只属于某一层；

（2）每层的个体数是确知的；（3）任何两层所进行的抽样是相互独立的。

（四）整群抽样

整群抽样是先把所有个体分成所含个体数目大致相等的若干组（组的个数也应很多），把每个组看作是一个个体，对由这些“个体”构成的总体进行随机抽样或系统抽样，然后对抽出“样本”的每个“样本点”中的每个个体进行全面调查。

整群抽样方法来自于实际工作经验，因而在某些工作环境下的运用非常有效。

整群抽样方法对总体的要求和分层抽样方法大致相同。

（五）多阶段抽样

非概率抽样（略）。

二、搜集数据的基本方法

1．自填式（问卷调查）

2．访谈式

3．电话调查

搜集数据诸方法特点之比较

项目

问卷调查

访谈式

电话调查

调查时间

调查费用

问题难度

有形辅助物的使用

调查过程控制

调查员作用的发挥

回答率

慢

低

要求容易

中等利用

简单

无法发挥

最低

中等

高

可以复杂

充分利用

复杂

充分发挥

较高

快捷

低

要求容易

无法利用

容易

一般发挥

一般

§3.实验数据

实验的目的往往是想搞清楚一种因素A是否对另一因素B有影响。

一、实验组和对照组

实验组:

随机抽选的实验对象构成的集合。

每个对象要接受某种特别处理（施加因素A的影响）。

对照组：

随机抽选的比照对象构成的集合（不施加因素A的影响）。

二、实验中的若干问题

1．人的主观意愿。

2．实验对象受干扰的程度。

3．道德问题。

4．样本容量的确定。

5．实验的有效性。

§4.数据的误差

数据的误差是指通过调查（实验）收集到的数据与研究对象真实结果之间的差异。

数据的误差有两类：

抽样误差和非抽样误差。

抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。

它描述的是样本所有可能的结果与总体真值之间的平均性误差。

抽样误差的大小主要受样本量和个体差异的影响。

样本量越大，抽样误差越小；个体差异越小，抽样误差也越小。

非抽样误差是相对于抽样误差的其他误差（略）。

统计数据的误差通常是指统计数据与客观现实之间的误差，主要有登记性误差和代表性误差。

登记性误差是调查过程中由于调查者或被调查者的人为因素所造成的误差；代表性误差主要是指在用样本数据进行推断时所产生的随机误差。

§5.数据文件

数据文件的一般形式是以行表示被调查的个体，以列来记录个体的各种特征。

第三章统计数据的整理与显示

§1.数据的预处理

数据的预处理是数据整理的先前步骤，是在对数据分类或分组之前所做的必要处理，包括数据的审核、筛选、排序等。

一、数据审核

对直接调查取得的原始数据，要审核其完整性和准确性。

在审查准确性时，对分类和顺序数据主要采用逻辑检查，对数值型数据主要采用计算检查。

对间接数据，着重审核数据的适用性和时效性。

二、数据筛选

数据筛选就是根据需要找出符合特定条件的某类数据。

例1利用自动筛选功能找出由董进全指导的学生。

\tjx2007\2002级毕业生指导教师总表（评估用）.xls

例2利用高级筛选功能找出总分大于500，英语大于100，数学大于100的学生。

\tjx2007\新生名单.xls

三、数据排序

对于定类数据（品质数据），如果是字符型可按字符的ASC码升降排列；

对于数值型数据，可按数值的大小依升序或降序排列。

四、数据透视表

可给出特定类别的所有个体的某种特征的总和。

§2.品质数据的整理与显示

一、分类数据的整理与显示

（一）频数与频数分布

频数：

将数据分类后，各个类别中数据的个数。

频数分布：

各类数据的分布情况，一般以频数（率）分布表表示。

频率：

以百分比形式表现的各类数据数与全部数据数之比。

例1一组市场调查数据的频数分布表。

例3-1.xls

某城市居民关注广告类型的频数分布

广告类型

人数

频率（%）

商品广告

112

服务广告

25.5

金融广告

4.5

房地产广告

招生招聘广告

其它广告

合计

200

100

（二）定类数据的图示

1.条形图

2.柱形图

3.饼图

二、顺序数据的整理与显示

（一）累积频数与累积频率

累积频数（率）：

将各类别的频数（率）逐级累加的结果。

例2某两城市关于住房问题调查数据的整理结果。

回答类别

甲城市

户数（户）

频率（%）

向上累积

向下累积

户数（户）

频率（%）

户数（户）

频率（%）

非常不满意

300

100

不满意

108

132

276

一般

225

168

满意

270

非常满意

300

100

合计

300

100

回答类别

乙城市

户数（户）

频率（%）

向上累积

向下累积

户数（户）

频率（%）

户数（户）

频率（%）

非常不满意

300

100

不满意

120

279

一般

198

180

满意

21.33

262

87.33

102

非常满意

12.67

300

100

12.67

合计

300

100

（二）顺序数据的图示

1．累积频数分布图

向上累积的累积频数分布图给出某个度量值以下的个体总数（频率）。

向下累积的累积频数分布图给出某个度量值以上的个体总数（频率）。

2．环形图

环形图可显示多个总体各部分所占的比例，从而有利于进行比较研究。

§3.数值型数据的整理与显示

一、数据的分组

（一）单变量值分组

例3.单变量值分组，可给出各个值出现的频率。

某生产车间50名工人日加工零件个数。

例3-1.xls

（二）组距分组

最大值、最小值、组数、组距、组上限、组下限、组中值

组数经验公式

组距

例3.（续，组距分组）

组数

组距

于是得到如下的分组

生产零件个数

频数（人）

频率（%）

105～110

110～115

115～120

120～125

125～130

130～135

135～140

合计

100

生产零件个数

组中值

频数（人）

频率（%）

110以下

107.5

110～115

112.5

115～120

117.5

120～125

122.5

125～130

127.5

130～135

132.5

135以上

137.5

合计

100

二、定距数据和定比数据的图示

（一）分组数据的直方图和折线图

1．直方图

横轴表示数据分组，纵轴表示频率密度（频率密度=频率÷组距），矩形的面积表示组频率。

如例3.的分组情况的直方图如下

生产零件个数

组中值

频数（人）

频率（%）

频率密度（%）

110以下

107.5

1.2

110～115

112.5

115～120

117.5

3.2

120～125

122.5

5.6

125～130

127.5

130～135

132.5

2.4

135以上

137.5

1.6

合计

100

折线图可在直方图的基础上得出。

例3的分组情况的折线图如下。

成绩统计

（二）未分组数据的茎叶图和箱线图

1．茎叶图

例3.未分组数据的茎叶图。

2．箱线图

单批数据的箱线图。

涉及该组数据的最小值、下四分位数、中位数、上四分位数、最大值。

设有数据30，55，65，75，80，80，88，89，则这组数据的箱线图如下

多批数据的箱线图参见例3-4（p69）。

（三）时间序列数据的线图

例4两组时间序列数据的线图。

例3-1.xls

1991-1998年城乡居民家庭人均收入

单位:

元

年份

城镇居民

农村居民

1991

1700.6

708.6

1992

2026.6

784

1993

2577.4

921.6

1994

3496.2

1221

1995

4283

1577.7

1996

4839.9

1926.1

1997

5160.3

2091.1

1998

5425.1

2162

资料来源:

《中国统计摘要1999》,78页,北京,中国统计出版社,1999.

（四）多变量数据的雷达图

例51997年我国城乡居民家庭平均每人生活消费支出的雷达图。

项目

城镇居民

农村居民

食品

1942.59

890.28

衣着

520.91

109.41

家庭设备用品及服务

316.89

85.41

医疗保健

179.68

62.45

交通通讯

232.9

53.92

娱乐教育文化服务

448.38

148.18

居住

358.64

233.23

杂项商品与服务

185.65

34.27

合计

4185.64

1617.15

例6对原数据进行压缩后的雷达图。

指标1

指标2

指标3

指标4

指标5

上游

4.52

483

196

中游

0.34

1.4

下游

2.17

6.8

208

112

对原数据进行对数压缩，得下表

指标1

指标2

指标3

指标4

指标5

上游

0.655138

0.69897

2.683947

2.292256

1.146128

中游

-0.46852

0.146128

1.556303

1.612784

0.778151

下游

0.33646

0.832509

2.318063

2.049218

1.544068

（五）双变量数据的散点图（成本与产量）例3-1.xls

三、频数分布的类型

日常生活和经济管理中，常见的频数分布曲线主要有

正态分布、偏态分布、J型分布、U型分布等。

在偏态分布中，以曲线长尾的方向确定是左偏还是右偏。

§4统计表

统计表是纵横线交叉所组成的一种表格。

表格内所列内容是整理后系统的统计资料。

它具有条理清晰、简明扼要的特点，便于从各个方面进行比较、分析所表现的现象，因而在实际工作中被广泛应用。

形式上统计表由总标题、横行标题、纵栏标题、纵横格线和数字资料组成。

有些还需要在下端增加注解，以说明资料的来源，某些指标数值的计算方法，填表单位和其他需要说明的问题。

统计表的内容包括主词栏和宾词栏。

主词是要说明的对象，宾词是说明主词的各种指标，包括指标名称和指标数值。

下表即为统计表的一个例子。

2002-2003年城镇居民家庭抽样调查资料

项目

单位

2002年

2003年

调查户数

平均每户家庭人口

平均每户就业人口

平均每户就业面

平均每一就业者负担人数

平均每人全部年收入

平均每人可支配收入

平均每人消费性支出

户

人

元

45317

3.04

1.58

51.97

1.92

8177.40

7702.80

6029.99

48028

3.01

1.58

52.49

1.91

9061.22

8472.20

6510.94

资料来源：

《中国统计年鉴2004》，359页，中国统计出版社，2004.

展开阅读全文