最新统计学整理.docx

资源描述

最新统计学整理.docx

《最新统计学整理.docx》由会员分享，可在线阅读，更多相关《最新统计学整理.docx（15页珍藏版）》请在冰豆网上搜索。

最新统计学整理.docx

最新统计学整理

第1章

什么是统计学？

统计学是研究收集数据，整理数据，分析数据以及由数据分析得出结论的方法，简称为“数据的科学”。

统计滥用

——不好的样本

——过小的样本

——误导性图表

——局部描述

——故意曲解

统计应用上的两个极端

——不用或几乎不用统计

——简单问题复杂化

随机性和规律性

当我们不能预测一件事情的结果时，这件事就和随机性联系起来了。

通过对看起来随机的现象进行统计分析，统计知识能够帮助我们把随机性归纳于可能的规律性中。

统计从我们如何观察事物和事物本身如何真正发生这两个方面帮助我们理解随机性和规律性的重要性。

因此，统计可以看做是一项对随机性中的规律性的研究。

规律也表现出某种随机性。

在这种意义下来说，统计就成了对数据中的偏差问题的研究。

根据作为统计基础的数学理论，我们可以确定一项调查中的某一比例有多大的随机性，以及在下一次的重复调查中，这个比例可能有多大的偏差。

我们还可以指出，两个比例之间的差异是否大到了随机性本身所不能解释的地步。

概率

概率是一个0到1之间的数，它告诉我们某一事件发生的机会有多大。

•概率为统计学的第三个方面——如何从数据中得出结论——奠定了基石。

•我们可能永远不能确定两个数字的差异是否超出了随机性本身所预期的范围，但是我们可以确定，这种差异发生的概率是大还是小。

根据这个基本思想，在很多情况下，我们可以得出关于我们所处的这个世界的重要结论。

变量（variable）

是指一个可以取两个或更多个可能值的特征、特质或属性。

比如，性别是取两个值的变量，因为一个人只可能是男性或女性。

还有其它变量的例子，如人的寿命，体重，以及汽车每升汽油所能行驶的距离，等等。

变量的值（value）

通常是对某一特定个体的度量，特定个体可能是指一个人，一个家庭，一个地区，或一个国家。

表1.1列出了一些变量、变量的取值及其所测量的个体的例子。

从表中可知，性别变量是以人为个体的观测，孩子的数目是以家庭为个体的观测。

变量，值和个体

变量

变量的值

个体

性别

男，女

人

学历

小学，中学，本科，硕士，博士

人

失业

有工作，无工作

人

孩子数

0，1，2，3，…

家庭

贫困程度

严重，一般，边缘，没有

地区

•上面介绍的是经验变量，级处理的对像是我们周围可观测到的物质世界中的事物。

•用数学方法推导的变量称为理论变量——z，t，和F变量。

•与变量相对的概念是常数。

在统计中经常使用的一种被称做参数的常数。

1.定量变量或数值变量

–可以用阿拉伯数据来记录其观察结果

–如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”

–定量变量的观察结果称为定量数据或数值型数据

2.分类变量

–表现为不同的类别

–如“性别”、“企业所属的行业”、“学生所在的学院”等

–分类变量的观察结果就是分类数据

3.顺序变量或有序分类变量

–具有一定顺序的类别变量

–如考试成绩按等级，一个人对事物的态度

–顺序变量的观察结果就是顺序数据或有序分类数据

分类变量和顺序变量统称为定性变量

数据的收集

数据收集的第一个准则是要清楚测量的是什么。

换句话说，变量必须有一个明确的适合研究目的的定义。

观测数据

数据收集有两种主要方法，其中一种是当我们观测现实世界时收集到的数据，如在不同城市中的流动人口数量。

观测数据是指仅通过对世界的观察（而没有操纵或控制它）所得到的数据。

收集观测数据的研究者们尽量不干涉研究对象的行为模式。

数据的来源——观测研究

1.抽样调查（samplesurvey）

2.普查（census）

3.抽样的精髓：

从检查一部分来得知全体。

4.抽样调查是一种很重要的观测研究，选中这些人是因为他们具有代表性局限性：

timeandcost

总体和样本

•收集数据是为了从收集的个体中得出结论。

•所有我们感兴趣的个体就组成了总体。

比如，你读本教材这一时刻，我国所有居民就构成了一个总体。

•有时我们能够收集到总体中所有个体的数据。

在这种情况下，我们就是对总体做了普查（census）。

我国进行的第六次全国人口普查就是希望确定我国所有居民数。

•然而，在苛刻的现实生活中，由于资金、时间有限以及不断变化的环境条件，普查通常是很困的。

此时，我们需要把收集数据限制在总体的一个样本上，样本是总体的中的一个被选中的部分。

样本的选择

•我们希望基于样本得出的结论能够适用于该样本所属的总体，这依赖于获得一个"好"的样本，否则这是不可能实现的。

•由于样本选择对于结果的可信度有重要作用，所以根据正确的统计原理选择样本是非常必要的。

概率抽样

1.根据一个已知的概率来抽取样本单位，也称随机抽样

2.特点

–按一定的概率以随机原则抽取样本

抽取样本时使每个单位都有一定的机会被抽中

–每个单位被抽中的概率是已知的，或是可以计算出来的

–当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率

随机样本

指一个合适的、能够被推广应用于更大的总体的统计样本。

当一个总体中的名字或代码被放进一个纸箱子里，搅拌均匀，并随机抽取，其结果就是一个简单随机样本

简单随机抽样

1.从总体N个单位（元素）中随机地抽取n个单位作为样本，使得总体中每一个元素都有相同的机会（概率）被抽中——帽子抽签法

2.抽取元素的具体方法有重复抽样和不重复抽样

可以使用随机数表或电脑产生的随机数字来实现

1.特点

–简单、直观。

–用样本统计量对目标量进行估计比较方便

2.局限性

–抽出的单位很分散，给实施调查增加了困难

–没有利用其他辅助信息以提高估计的效率

简单随机样本

1.由简单随机抽样形成的样本

2.从总体N个单位中随机地抽取n个单位作为样本，使得每一个容量为n样本都有相同的机会（概率）被抽中

3.参数估计和假设检验所依据的主要是简单随机样本

分层抽样

1.将总体单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本

2.优点

–保证样本的结构与总体的结构比较相近，从而提高估计的精度

–组织实施调查方便

–既可以对总体参数进行估计，也可以对各层的目标量进行估计

系统抽样

1.将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位

-先从数字1到k之间随机抽取一个数字r作为初始单位，以后依次取r+k，r+2k…等单位

2.优点：

操作简便，可提高估计的精度

3.缺点：

对估计量方差的估计比较困难

整群抽样

1.将总体中若干个单位合并为组（群），抽样时直接抽取群，然后对中选群中的所有单位全部实施调查

2.特点

–抽样时只需群的抽样框，可简化工作量

–调查的地点相对集中，节省调查费用，方便调查的实施

–缺点是估计的精度较差

普查

•又称“清点”。

企图把整个总体纳入样本的抽样调查。

•即使有政府的强大后盾，普查也不是一定做得到的。

•但一个糟糕的普查往往比不上一个设计和实施都比较好的抽样调查。

方便样本：

如何产生一个"坏的"样本

能够很容易、很经济地得到的样本称为方便样本

•从方便样本中得出的结果有时候很难推广到整个总体。

收集观测数据时的错误和误差

•随机抽样误差是样本统计量和总体参数之间的差距，是在选取样本时因机遇造成的。

•非抽样误差是和“从总体取样本”这个动作无关的误差。

非抽样误差即使在人口普杳中也可能出现。

调查中的有些误差纯粹是统计上的，主要的统计误差即所谓的抽样误差。

抽样误差：

并非错误的"误差"

未响应误差

未响应误差是指由于包含在样本中的一部分人未回答调查而造成的误差。

•一些经验表明，在大部分情况下，未响应者和响应者并无多大差别。

如果我们开始时有一个高的响应率，那么可假定未响应者也依同样的比例作出回答。

但是如果响应率很低，例如不超过50%，那么不响应的影响可能会很大。

响应误差

响应误差是在调查过程中，由于问题的提问方式、问题所处的位置或访员的影响而使得响应者在回答问题时产生的偏差。

实验数据：

寻找造成结果的原因

•实验数据是指在实验中控制实验对象而收集到的变量的数据。

实验是检验变量间因果关系的一种方法。

在实验中，研究者试图控制某一情形的所有相关方面，操纵少数感兴趣的变量，然后观察实验结果。

实验的特点是：

实验者（调查者）存心要改变被实验者的行为。

在做实验时，我们不只是观察个体或问他们问题，而是刻意加上某些处理，以期能观察其反应。

观测研究VS实验

•实验比观测研究更有优势，因为实验可以为“因果关系”提供良好的证据。

•如果我们适当的设计实验，例如使得两组对象的其他变量——年龄、教育程度等基本接近，所以两组之间只有一项系统性的差别，就是一组参加了工作培训，另外一组没有。

第2章分类数据的描述方法

数据分析的三个原则

2.2频数表

2.3统计图

2.4列联表

数据分析包括三种形式：

为数据画一个图，制作一个表或者计算一些我们感兴趣的东西。

•这可以帮助我们对数据进行简化。

简化使得理解数据和从数据中提取信息变得容易了。

•但是数据简化有一个不足之处，就是难以从简化的形式中恢复原始数据，因此，当我们分析数据时，几乎总会丢失某些信息。

数据分析的三个原则

1、绘制一个图。

图像可以帮助你看到从数据表里看不到的信息，有助于你选择分析的方法，帮你明确思考隐藏在数据背后的模式和关系。

2、绘制一个图。

精心设计的图像在分析工作中很重要。

它能够展现重要的特征和模式，有时候可以揭示出你意想不到的事情：

值得注意的（可能是错误的）数据或意想不到的模式。

3、绘制一个图。

使用一个精心挑选的图像是向其他人汇报你的数据分析结果的最佳方式。

频数表

1.频数：

落在各类别中的数据个数

2.比例：

某一类别数据个数占全部数据个数的比值

3.百分比：

将对比的基数作为100而计算的比值

4.比率：

不同类别数值个数的比值

频数表或频数分布表可以帮助了解变量取值的分布状况。

频数表是遵循既不重叠又不遗漏的原则，按变量（数据特征）的取值归类分组，把总体的所有单位按组归并排列，其各个组别所包含的数据数目（频数）的汇总表格。

简而言之，频数表包括两个要素：

总体按其标志所分的组和各组所分布的单位数量。

统计图

•如果想获得更生动的展示，我们可以使用统计图。

•统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。

•统计图既可以节省大量文字叙述，又可便于数据的对比分析与积累。

利用统计图表现统计数据，能更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。

•按照图形的形式，统计图大体上可以分为几何图、象形图和统计地图三种。

（1）几何图。

几何图是利用几何的形和线来表明统计数据的图形，包括条形图、饼图等。

（2）象形图。

象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。

例如用油桶的大小表示的某地1990年、2000年和2005年三年的原油产量

（3）统计地图。

统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及规律，用以显示不同地域事物数量的分布情况。

例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。

面积原则

•在得到频数表之后，我们就可以按照数据分析的三个原则来对数据进行绘图。

但是不能随便做图，因为一个糟糕的图像反而会歪曲我们对数据的认识。

•获得最佳数据展示的一个基础原则就是面积原则，即图像一部分所占的面积应该与数据的量级对应。

条形图和柱形图

•分类数据的一个常用统计

展开阅读全文