统计学整理.docx

资源描述

统计学整理.docx

《统计学整理.docx》由会员分享，可在线阅读，更多相关《统计学整理.docx（18页珍藏版）》请在冰豆网上搜索。

统计学整理.docx

统计学整理

第1章

什么是统计学？

统计学是研究收集数据，整理数据，分析数据以及由数据分析得出结论的方法，简称为“数据的科学”。

统计滥用

——不好的样本

——过小的样本

——误导性图表

——局部描述

——故意曲解

统计应用上的两个极端

——不用或几乎不用统计

——简单问题复杂化

随机性和规律性

当我们不能预测一件事情的结果时，这件事就和随机性联系起来了。

通过对看起来随机的现象进行统计分析，统计知识能够帮助我们把随机性归纳于可能的规律性中。

统计从我们如何观察事物和事物本身如何真正发生这两个方面帮助我们理解随机性和规律性的重要性。

因此，统计可以看做是一项对随机性中的规律性的研究。

规律也表现出某种随机性。

在这种意义下来说，统计就成了对数据中的偏差问题的研究。

根据作为统计基础的数学理论，我们可以确定一项调查中的某一比例有多大的随机性，以及在下一次的重复调查中，这个比例可能有多大的偏差。

我们还可以指出，两个比例之间的差异是否大到了随机性本身所不能解释的地步。

概率

概率是一个0到1之间的数，它告诉我们某一事件发生的机会有多大。

•概率为统计学的第三个方面——如何从数据中得出结论——奠定了基石。

•我们可能永远不能确定两个数字的差异是否超出了随机性本身所预期的范围，但是我们可以确定，这种差异发生的概率是大还是小。

根据这个基本思想，在很多情况下，我们可以得出关于我们所处的这个世界的重要结论。

变量（variable）

是指一个可以取两个或更多个可能值的特征、特质或属性。

比如，性别是取两个值的变量，因为一个人只可能是男性或女性。

还有其它变量的例子，如人的寿命，体重，以及汽车每升汽油所能行驶的距离，等等。

变量的值（value）

通常是对某一特定个体的度量，特定个体可能是指一个人，一个家庭，一个地区，或一个国家。

表1.1列出了一些变量、变量的取值及其所测量的个体的例子。

从表中可知，性别变量是以人为个体的观测，孩子的数目是以家庭为个体的观测。

变量，值和个体

变量

变量的值

个体

性别

男，女

人

学历

小学，中学，本科，硕士，博士

人

失业

有工作，无工作

人

孩子数

0，1，2，3，…

家庭

贫困程度

严重，一般，边缘，没有

地区

•上面介绍的是经验变量，级处理的对像是我们周围可观测到的物质世界中的事物。

•用数学方法推导的变量称为理论变量——z，t，和F变量。

•与变量相对的概念是常数。

在统计中经常使用的一种被称做参数的常数。

1.定量变量或数值变量

–可以用阿拉伯数据来记录其观察结果

–如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”

–定量变量的观察结果称为定量数据或数值型数据

2.分类变量

–表现为不同的类别

–如“性别”、“企业所属的行业”、“学生所在的学院”等

–分类变量的观察结果就是分类数据

3.顺序变量或有序分类变量

–具有一定顺序的类别变量

–如考试成绩按等级，一个人对事物的态度

–顺序变量的观察结果就是顺序数据或有序分类数据

分类变量和顺序变量统称为定性变量

数据的收集

数据收集的第一个准则是要清楚测量的是什么。

换句话说，变量必须有一个明确的适合研究目的的定义。

观测数据

数据收集有两种主要方法，其中一种是当我们观测现实世界时收集到的数据，如在不同城市中的流动人口数量。

观测数据是指仅通过对世界的观察（而没有操纵或控制它）所得到的数据。

收集观测数据的研究者们尽量不干涉研究对象的行为模式。

数据的来源——观测研究

1.抽样调查（samplesurvey）

2.普查（census）

3.抽样的精髓：

从检查一部分来得知全体。

4.抽样调查是一种很重要的观测研究，选中这些人是因为他们具有代表性局限性：

timeandcost

总体和样本

•收集数据是为了从收集的个体中得出结论。

•所有我们感兴趣的个体就组成了总体。

比如，你读本教材这一时刻，我国所有居民就构成了一个总体。

•有时我们能够收集到总体中所有个体的数据。

在这种情况下，我们就是对总体做了普查（census）。

我国进行的第六次全国人口普查就是希望确定我国所有居民数。

•然而，在苛刻的现实生活中，由于资金、时间有限以及不断变化的环境条件，普查通常是很困的。

此时，我们需要把收集数据限制在总体的一个样本上，样本是总体的中的一个被选中的部分。

样本的选择

•我们希望基于样本得出的结论能够适用于该样本所属的总体，这依赖于获得一个"好"的样本，否则这是不可能实现的。

•由于样本选择对于结果的可信度有重要作用，所以根据正确的统计原理选择样本是非常必要的。

概率抽样

1.根据一个已知的概率来抽取样本单位，也称随机抽样

2.特点

–按一定的概率以随机原则抽取样本

抽取样本时使每个单位都有一定的机会被抽中

–每个单位被抽中的概率是已知的，或是可以计算出来的

–当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率

随机样本

指一个合适的、能够被推广应用于更大的总体的统计样本。

当一个总体中的名字或代码被放进一个纸箱子里，搅拌均匀，并随机抽取，其结果就是一个简单随机样本

简单随机抽样

1.从总体N个单位（元素）中随机地抽取n个单位作为样本，使得总体中每一个元素都有相同的机会（概率）被抽中——帽子抽签法

2.抽取元素的具体方法有重复抽样和不重复抽样

可以使用随机数表或电脑产生的随机数字来实现

1.特点

–简单、直观。

–用样本统计量对目标量进行估计比较方便

2.局限性

–抽出的单位很分散，给实施调查增加了困难

–没有利用其他辅助信息以提高估计的效率

简单随机样本

1.由简单随机抽样形成的样本

2.从总体N个单位中随机地抽取n个单位作为样本，使得每一个容量为n样本都有相同的机会（概率）被抽中

3.参数估计和假设检验所依据的主要是简单随机样本

分层抽样

1.将总体单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本

2.优点

–保证样本的结构与总体的结构比较相近，从而提高估计的精度

–组织实施调查方便

–既可以对总体参数进行估计，也可以对各层的目标量进行估计

系统抽样

1.将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位

-先从数字1到k之间随机抽取一个数字r作为初始单位，以后依次取r+k，r+2k…等单位

2.优点：

操作简便，可提高估计的精度

3.缺点：

对估计量方差的估计比较困难

整群抽样

1.将总体中若干个单位合并为组（群），抽样时直接抽取群，然后对中选群中的所有单位全部实施调查

2.特点

–抽样时只需群的抽样框，可简化工作量

–调查的地点相对集中，节省调查费用，方便调查的实施

–缺点是估计的精度较差

普查

•又称“清点”。

企图把整个总体纳入样本的抽样调查。

•即使有政府的强大后盾，普查也不是一定做得到的。

•但一个糟糕的普查往往比不上一个设计和实施都比较好的抽样调查。

方便样本：

如何产生一个"坏的"样本

能够很容易、很经济地得到的样本称为方便样本

•从方便样本中得出的结果有时候很难推广到整个总体。

收集观测数据时的错误和误差

•随机抽样误差是样本统计量和总体参数之间的差距，是在选取样本时因机遇造成的。

•非抽样误差是和“从总体取样本”这个动作无关的误差。

非抽样误差即使在人口普杳中也可能出现。

调查中的有些误差纯粹是统计上的，主要的统计误差即所谓的抽样误差。

抽样误差：

并非错误的"误差"

未响应误差

未响应误差是指由于包含在样本中的一部分人未回答调查而造成的误差。

•一些经验表明，在大部分情况下，未响应者和响应者并无多大差别。

如果我们开始时有一个高的响应率，那么可假定未响应者也依同样的比例作出回答。

但是如果响应率很低，例如不超过50%，那么不响应的影响可能会很大。

响应误差

响应误差是在调查过程中，由于问题的提问方式、问题所处的位置或访员的影响而使得响应者在回答问题时产生的偏差。

实验数据：

寻找造成结果的原因

•实验数据是指在实验中控制实验对象而收集到的变量的数据。

实验是检验变量间因果关系的一种方法。

在实验中，研究者试图控制某一情形的所有相关方面，操纵少数感兴趣的变量，然后观察实验结果。

实验的特点是：

实验者（调查者）存心要改变被实验者的行为。

在做实验时，我们不只是观察个体或问他们问题，而是刻意加上某些处理，以期能观察其反应。

观测研究VS实验

•实验比观测研究更有优势，因为实验可以为“因果关系”提供良好的证据。

•如果我们适当的设计实验，例如使得两组对象的其他变量——年龄、教育程度等基本接近，所以两组之间只有一项系统性的差别，就是一组参加了工作培训，另外一组没有。

第2章分类数据的描述方法

数据分析的三个原则

2.2频数表

2.3统计图

2.4列联表

数据分析包括三种形式：

为数据画一个图，制作一个表或者计算一些我们感兴趣的东西。

•这可以帮助我们对数据进行简化。

简化使得理解数据和从数据中提取信息变得容易了。

•但是数据简化有一个不足之处，就是难以从简化的形式中恢复原始数据，因此，当我们分析数据时，几乎总会丢失某些信息。

数据分析的三个原则

1、绘制一个图。

图像可以帮助你看到从数据表里看不到的信息，有助于你选择分析的方法，帮你明确思考隐藏在数据背后的模式和关系。

2、绘制一个图。

精心设计的图像在分析工作中很重要。

它能够展现重要的特征和模式，有时候可以揭示出你意想不到的事情：

值得注意的（可能是错误的）数据或意想不到的模式。

3、绘制一个图。

使用一个精心挑选的图像是向其他人汇报你的数据分析结果的最佳方式。

频数表

1.频数：

落在各类别中的数据个数

2.比例：

某一类别数据个数占全部数据个数的比值

3.百分比：

将对比的基数作为100而计算的比值

4.比率：

不同类别数值个数的比值

频数表或频数分布表可以帮助了解变量取值的分布状况。

频数表是遵循既不重叠又不遗漏的原则，按变量（数据特征）的取值归类分组，把总体的所有单位按组归并排列，其各个组别所包含的数据数目（频数）的汇总表格。

简而言之，频数表包括两个要素：

总体按其标志所分的组和各组所分布的单位数量。

统计图

•如果想获得更生动的展示，我们可以使用统计图。

•统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。

•统计图既可以节省大量文字叙述，又可便于数据的对比分析与积累。

利用统计图表现统计数据，能更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。

•按照图形的形式，统计图大体上可以分为几何图、象形图和统计地图三种。

（1）几何图。

几何图是利用几何的形和线来表明统计数据的图形，包括条形图、饼图等。

（2）象形图。

象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。

例如用油桶的大小表示的某地1990年、2000年和2005年三年的原油产量

（3）统计地图。

统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及规律，用以显示不同地域事物数量的分布情况。

例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。

面积原则

•在得到频数表之后，我们就可以按照数据分析的三个原则来对数据进行绘图。

但是不能随便做图，因为一个糟糕的图像反而会歪曲我们对数据的认识。

•获得最佳数据展示的一个基础原则就是面积原则，即图像一部分所占的面积应该与数据的量级对应。

条形图和柱形图

•分类数据的一个常用统计图是条形图。

•条形图是用等宽直条的长短来表示各个相互独立的指标大小的图形，适用于相互独立的数据（数据有明确分组，不连续）。

•条形图可以描述那些已经用频数或频率汇总了的定性变量。

一个坐标轴代表定性变量的各个取值，在每个变量位置的条的长度和其所代表的水平的频数或频率成比例。

•条形图分为单式和复式两种，单式适用于只有一组观察数据，复式适用于有若干组观察数据。

•条形图有很多变种。

比如，纵轴和横轴可以互换，这决定条形是垂直放置（柱形图）还是水平放置。

条形图还可以描述离散定量变量数据的频数、频率或概率分布。

帕累托图

帕累托图是根据“关键的少数和次要的多数”的原理而制做的。

饼图

•饼图（piechart）又叫圆形图，是一个圆面积为100%，由许多扇形组成的圆，各个扇形的大小比例等于变量各个水平（或类别）的频率或比例，即表示了不同组成部分的相对重要性。

饼图对描述定类尺度的数据特别有用。

饼图比条形图简单，描述比例较直观。

但是当变量太多时，饼图就不那么好看了。

但是，有时候我们不容易看出不同类别之间的差异。

列联表

•列联表是由两个或两个以上变量进行交叉分类得到的频数分布表。

•列联表中间的各个变量不同水平的交汇处，就是这种水平组合出现的频数或计数

•构成列联表的变量都是定性变量或定序变量。

一个r行c列的列联表称为r×c列联表，一般的把2×2的二维列联表又称为交叉表。

•列联表可以有很多维。

维数多的叫做高维列联表

列联表中有三种百分数，用列联表中的数据除以最后一列的数据得到行百分数。

用列联表中的数据除以最后一行的数据得到列百分数。

而用列联表中的数据除以总数得到总的百分数。

•使用列联表更感兴趣的问题是了解变量之间有没有关联。

•在列联表里还有一种情况是，如果一个变量的分布对于另一个变量的所有取值保持不变，则我们可以说这个两个变量是独立的（independent），这表明这些变量之间没有关联

第3章定量数据的描述方法

3.1.1统计数据的分组

数据分组是统计数据处理的第一步，它是按照统计研究的目的，将数据分别列入不同的组内。

在分组时，如果按照性别、质量等级等定性指标分组，称为按品质标志分组，比如第二章频数表就是这种情况；如果按照数量或数值等定量指标分组，称为按数量标志分组。

本章主要是按数量标志分组。

将数据按其分组标志进行分组的过程，就是次数分配形成的过程。

次数分配就是观测值按其分组标志分配在各组内的次数。

第1步，确定组的个数。

太多或太少的组都不能揭示数据集的基本形状，确定组数的一个有用法则是“2的k次方法则”，选择使2k大于观测值个数（n）的最小值（k）作为组的个数。

在本例中，合适组数是6。

第2步，确定组距。

组距是每一组最大值与最小值之差。

一般地，所有各组的组距或组宽都应该是相同的。

所有组加起来必须至少覆盖从最小值到最大值的距离。

确定组距的公式是，其中i是组距，Max是最大观测值，Min是最小观测值，k是组数。

在实际中，组距大小通常四舍五入到某个简便的数，比如10或100的倍数。

在这个案例中，将更乐于使用10元作为组距。

第3步，确定各组的组限。

每个观测值只归入一个组，必须避免重叠的或者不清楚的组限。

由于我们把组距四舍五入以得到简便的组距大小，所以我们覆盖了比需要的范围要大的范围。

当然，我们应该选择简便的10的倍数作为组限。

第4步，把股价变化值分配到相应的组内，数出每组中的项目个数。

在-10元~0元这一组中有26个观测值，在10元~20元这一组中有1个观测值。

于是得到下表3.2。

直方图（histogram）主要用以表示分组数据的频数分布特征，是分析总体数据分布特征最有用的工具之一。

在直方图中，把横轴分成若干通常是等距的区间（区间可以不等距，但是只有等距分组的直方图才能直观反映数据的分布特征，因此通常采用等距分组方法绘制直方图），然后计算数据在各个区间上的频数，并在各区间上画出高度与数据在相应区间的频数成比例的矩形条。

这样，直方图利用一系列相邻的矩形描述频数分布。

频数折线图（frequencypolygon）类似于直方图，它以各组标志值的中点位置作为该组标志的代表，然后用折线将各组次数（即每组频数）连接起来，形成了折线图。

直方图和频数折线图都便于我们对数据的主要特征（高点，低点，集中点等等）得到直观的印象。

尽管两种图形在用途上是相似的，但是直方图的优点是用矩形条描述每一组，矩形条的高度表示每组的频数或频率。

然而，频数折线图也有优于直方图的地方，它使我们能直接比较两个或多个频数分布。

茎叶图（stem-and-leafplot）是一种可以较简练的表现数据信息的图表，类似于直方图，但包含了更多的信息。

在茎叶图中，每一个数值被分成两部分，打头的数字作为茎，尾随的数字作为叶。

茎沿竖直轴线放置，叶沿水平轴线堆放。

它像一片带有长短不一的叶子的茎。

茎叶图在数据量不那么大时，既显示了完全的原始数据，又显示了数据分布的形状。

因此，茎叶图非常适合描述少量数据（十几个到一百多个数据）的分布，但是，当数据量很大时，茎叶图就显然不方便了。

线图（linechart）经常用来描述时间序列数据，用以反映某些指标或变量随时间的变化趋势，有时候也称为时间序列图（timeseriesplot）。

时间序列图事实上只不过是一个后面将要介绍的散点图，它以度量值为纵轴，以度量值发生的时间或者次序为横轴建立。

时间序列图揭示了所监控的变化量（如销售额）的趋势和变化。

3.2.2箱线图

3.3.1众数

众数有一些优点。

从图表（如条形图）中很容易获得一个变量的众数。

对于分类变量，它是描述平均值的一个最好办法。

对于一个有二众数分布且中间值只有很少观测值的变量，取两个众数比取一个仅有几个观测值的中间值包含更多的信息。

另外，众数具有不受极端大值或者极端小值影响的优点。

在某些情况下，众数是一个较好的代表值。

比如，当要了解大多数家庭的收入状况时，我们可以用到众数。

再比如，在编制物价指数时，农贸市场上某种商品的价格常以很多摊位报价的众数值为代表。

众数也存在着一些缺陷。

一个变量的众数值只能传递这个数据集中的信息的很少一部分。

因此只用众数，数据集中的信息就不能被很好地使用。

另外众数可以告诉我们，这个值出现的次数比其它的值出现的次数多，但它并未告诉我们它较别的数值多的程度。

一个由100人组成的群体，无论它有51个女人（和49个男人）或者99个女人（和1个男人），其性别变量的众数都是女人。

这两种情况是非常不同的，但是众数并不能区分它们。

3.3.2中位数

中位数的一些优点。

首先中位数只需要很少量的计算。

其次，中位数很好地代表了一组观测值的中点，特别是当直方图显示出这是一个偏斜分布时。

另外，中位数对极端值不敏感，在某些情况下这将是一种优点。

中位数不易受极端值影响的性质称为稳健性（robust）。

中位数具有唯一性，一组数据只有一个中位数。

中位数还有这样一个性质，就是数据值与中位数之差的绝对值之和最小，也就是说，如果用其他任何数值（比如均值、众数等）代替中位数，其绝对值之和都大于数据值与中位数之差绝对值的和。

这个性质表明中位数与数据值的距离最短。

例如，在若干个连锁店间选择仓库或商品配送中心就可以利用这一性质，因而在工程设计中有应用价值。

定性数据也可以计算中位数。

中位数也有一些缺点：

除了中间值，中位数并未利用其它观测值。

这样它就没有利用数据中的所有信息。

中位数对极端值不敏感，这在某些情况下是一种缺点。

3.3.4众数、中位数和均值间的关系

3.4分布的离散程度

3.4.1极差和四分位差

极差是极大值和极小值之间的差。

前面两个高三男生身高数据的极差分别为50cm和32cm。

箱线图盒子的长度为两个四分位数之差，称为四分位数极差或四分位间距。

它描述了中间半数观测值的散布情况。

极差和四分位极差实际上各自只依赖于两个值，信息量太少。

3.4.2标准差和方差

另一个常用的尺度统计量为（样本）标准差。

度量样本中各数值到均值距离的一种平均。

标准差实际上是方差的平方根。

均值的标准误差比观测值的标准差小，这就是说，均值的变化比变量原始观测值的变化小。

3.4.4变异系数

标准差与平均数的比值（相对值）。

如果数据具有以下特点之一，就可以使用变异系数。

数据具有不同的单位（比如工资和矿工的天数）

数据具有相同的单位，但是均值相差甚远（比如大象和老鼠的体重）

3.6数据的标准得分

虽然这种均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，再比较标准化后的数据。

一个标准化的方法是把某样本原始观测值（亦称得分，score）和该样本均值之差除以该样本的标准差；得到的度量称为标准得分（standardscore，又称为z-score、

第四章、概率

4.1什么是概率

概率与某事件发生的机会、可能性或确定程度有关。

概率就是一个数字。

介于0和1之间，描述一个事件发生的经常性。

小概率（接近零）的事件很少发生，而大概率（接近1）的事件则经常发生。

试验是导致所有可能观测中有且仅有一个出现的过程。

在统计学中一个试验有两个或两个以上的结果，发生哪一个都是不确定的。

结果（outcome）是指一个试验的特定结果。

例如，抛硬币是一个试验，你可以观察抛硬币，但你不知道将会出现“正面”或是“反面”，因为一个结果是“正面”，另一个是“反面”。

一个试验的结果组成的集合称之为事件。

4.5.2正态分布

正态分布的密度曲线是一个对称的钟型曲线（最高点在均值处）。

正态分布也是一族分布，各种正态分布根据它们的均值和标准差不同而有区别。

一个正态分布用N（μ,σ2）表示；其中μ为均值，而σ2为方差（标准差的平方）。

也常用N（μ,σ）来表示，这里σ为标准差。

标准差为1的正态分布N（0,1）称为标准正态分布

标准正态分布的密度函数用φ（x）表示。

任何具有正态分布N（μ,σ2）的随机变量X都可以用简单的变换（减去其均值μ，再除以标准差σ）：

Z=（X-μ）/σ，而成为标准正态随机变量。

这种变换和标准得分的意义类似。

4.5.3t-分布

用样本标准差来代替未知的总体标准差时，得到的结果分布就不再是标准正态分布了。

它的密度曲线看上去有些象标准正态分布，但是中间瘦一些，而且尾巴长一些。

这种分布称为t-分布（t-distribution，

不同的样本量通过标准化所产生的t分布也不同,这样就形成一族分布。

t分布族中的成员是以自由度来区分的。

这里的自由度等于样本量减去1（如果样本量为n，刚才定义的t分布的自由度为n-1）。

由于产生t分布的方式很多，简单说自由度就是样本量减1是不准确的。

自由度甚至不一定是整数。

展开阅读全文