第2章 统计数据的收集与整理.docx
《第2章 统计数据的收集与整理.docx》由会员分享,可在线阅读,更多相关《第2章 统计数据的收集与整理.docx(9页珍藏版)》请在冰豆网上搜索。
第2章统计数据的收集与整理
第2章统计数据的搜集与整理
本章的主要目的:
⏹掌握数据的特性;
⏹学会数据收集和整理的基本方法;
⏹会写一份调查方案设计。
2.1数据的计量与类型
1.数据的计量尺度。
统计数据是对客观现象进行计量的结果,这就涉及到对现象进行计量或测度的尺度问题。
由于不同事物我们能够予以计量或测度的尺度不同,有些事物只能对它的属性进行分类,如人口的性别和文化程度、产品的型号及质量等级等;有些则可以用比较精确的数字加以计量,如物体的长度,价格等。
根据计量学的一般分类方法,按照对事物计量的精确程度,可将所采用的计量尺度由低级到高级,由粗略到精确分为四个层次:
定类尺度、定序尺度、定距尺度和定比尺度。
不要用不恰当的数据进行计算,也不要将统计方法用于这样的数据。
如计算身分证号码的平均数是没有意义的。
⏹定类尺度。
按照事物的某种属性对其进行平行的分类或分组。
只测度了事物之间的类别差;各类别之间是平行的不能进行排序。
使用定类尺度对事物进行分类时,必须符合穷尽和互斥的要求。
如今晚8:
00看的电视节目。
调查结果:
是、否和不确定。
⏹定序尺度。
是对事物之间等级差或顺序差别的一种测度。
既可分类,也可确定这些类别的优劣或顺序。
但不能测量出类别之间的差值。
如课程分数等级:
A、B、C、D和E。
这些等级可以按顺序排列,但我们无法确定这些等级之间的差,A的级别比B高(因此这就是一个顺序),但我们不能从A中减去B(因此我们不能找出它们之间的差)。
⏹定距尺度。
是对事物类别或次序之间间距的一种测度。
既能将事物区分为不同的类型并进行排序,也可以准确地指出类别之间的差距是多少。
但是它没有自然的零起点(即在这点上不存在任何量)。
温度:
体温37.2℃和37.6℃,这些数据被排序,并且我们可以确定它们之间的不同,即通常称为两个数值之间的距离。
但是这个问题里没有一个自然的起点,0℃这个数值看似是一个起点,这样说太武断,它并代表没有温度;同样地,认为50℃是25℃两倍那么热也是错误的。
年份:
1000年,2000年,1776年和1492年。
时间并不是从0年开始,0年作为一个自然零起点是不对的。
⏹定比尺度。
与定距尺度属同一层次,只是对定距尺度进行了修正,它包含了自然的零起点(其中零表示不存在任何数量)。
差别和比率都是有意义的。
重量:
0表示没有重量,4KG是2KG的2倍那么重。
价格:
0元代表不用花钱,一本90元书的价格是一本30元书的3倍。
课堂练习一:
以下练习中确定四种数据(定类、定序、定距和定比)中的哪一种是最恰当的。
⑴WNBA中女篮队员的身高。
⑵针对陌生男女按照最好、较好、一般、较差、很差的级别进行评价。
⑶本周死亡之谷的午间气温。
⑷学生证编号。
⑸这本书再版的年份。
⑹邮政区号。
⑺《消费者报告》杂志对“强烈推荐、推荐、不推荐”的评级。
⑻学生乘车到学校的行驶路程。
⑼罐装可口可乐中可乐的实际含量标为12盎司。
⑽百佳在调查8000次购物结算时发现的出错数。
2.数据的类型。
定性数据和定量数据。
连续数据与离散数据。
3.统计数据的表现形式。
绝对数和相对数。
比例和比率。
2.2统计数据的搜集
前面我们说数据的来源主要有两个:
调查和实验。
若是直接的调查或实验,对使用者来说这是统计数据的直接来源,第一手资料;统计还可以来源于别人调查或试验,称之为间接来源,第二手资料。
1.统计数据的直接来源
这里重点介绍社会经济数据的主要来源方式和方法。
A.统计调查方式。
实际中常用的统计调查方式主要普查、抽样调查和统计报表等。
⏹普查。
是为某一特定目的而专门组织的一次性全面调查,如人口普查、工业普查等,主要搜集处于某一时点状态上的社会经济现象的数据,目的在于掌握特定社会经济现象的基本全貌。
具有以下特点:
Ø普查是一次性的或周期性的。
Ø普查一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。
Ø普查的数据一般比较准确,规范化程度也较高。
Ø普查的对象比较狭窄,只能调查一些最基本、最一般的现象。
⏹抽样调查。
这是实际中应用得最广泛的一种调查方法,这里指随机抽样,是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方法。
Ø经济性。
Ø时效性高。
Ø适应面广。
Ø准确性高。
⏹统计报表。
我国有一套比较完善的统计报表制度,是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。
⏹重点调查。
是从调查对象的全部单位中选择少数重点单位进行调查。
重点单位一般指在所要调查的数量特征上占有较大比重的单位。
⏹典型调查。
是从调查对象的全部单位中选择一个或几个少数有代表性的单位进行全面深入的调查。
其目的是通过典型单位来描述或提示事物的本质和规律,因此所选择的单位应具有我们所研究问题的本质属性或特征。
B.数据的搜集方法。
⏹访问调查。
调查者和被调查者面对面地交谈从而得到所需资料的调查方法。
标准式访问和非标准式访问。
⏹邮寄调查。
⏹电话调查。
⏹座谈会。
⏹个别深度访谈。
C.调查方案设计。
在调查之前必须制定出一个周密、完整的调查方案,以指导整个调查工作,使调查得以顺利地实施和完成。
是指导调查过程的纲领性文件,一般包括以下内容:
⏹调查目的。
“为什么调查”:
目的、任务及意义。
⏹调查对象和调查单位。
“向谁调查”。
注意调查对象是调查目的所确定的调查研究的总体或调查范围;而调查单位是构成调查对象中的每一个单位,是调查项目和指标的具体承担者或载体,是我们搜集数据、分析数据的基本单位。
若是普查,调查对象中的每一个单位都是调查单位;若是抽样调查,调查单位只是调查对象中的部分单位。
⏹调查项目和调查表。
“调查什么”。
调查项目是调查的具体内容,既可以调查单位的数量特征,如一个企业的产品产量、产值等;又可以调查单位的某种属性或品质特征,如一个人的性别、职业等。
调查表一般由表头、表体和表外附加三部分组成。
表头是调查表的名称,用来说明调查的内容、被调查单位的名称、性质、隶属关系等;表体是调查表的主要内容,包括具体的调查项目;表外附加通常由填表人签名、日期、填表说明等。
在市场调查中,调查项目和调查表通常表现为一张调查问卷。
因此调查问卷设计是市场调查方案的核心内容。
问卷是用来搜集调查数据的一种工具,是调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明及码表组成的一种调查形式。
具体的结构一般是:
开头部分:
问候语、填表说明、问卷编号等。
甄别部分:
先对被调查进行过滤,筛选掉不需要的部分,确保被调查者的代表性。
主体部分:
是一些调查的具体项目或问题。
背景部分:
主要是被调查者的一些背景资料。
问卷设计的内容一般包括:
调查中所需要提问的问题设计、问题的答案设计、提问顺序设计以及问卷的版面格式设计等。
⏹其他内容。
明确调查所采用的方法、调查时间、调查组织和实施的具体细则。
调查方法要明确全面与非全面调查、抽样调查的具体方式、电话访谈等?
调查时间是指取得数据的时期或时点。
调查的组织与实施工作如:
调查人员的选择、组织和培训;调查表格、问卷、调查员手册的印刷;必要调查工具的准备等;调查经费的来源与开支预算等。
一个完整的调查阶段。
2.统计数据的间接来源
公开出版或公开报道的数据等
2.3统计数据的整理
数据搜集上来之后,必须进行加工整理,使之系统化、条理化,以符合分析的需要。
数据整理通常包括数据的预处理、分类或分组、汇总等几个方面的内容。
1.统计数据的预处理
数据的审核与筛选、排序等。
A.数据的审核与筛选
数据的完整性审核:
调查单位是否有遗漏,所有的调查项目是否填齐等。
数据的准确性审核:
是否真实;数据在逻辑上和计算上是否准确。
二手数据的适用性和时效性。
B.数据的排序
按一定顺序将数据排列,以便通过浏览数据发现一些明显的特征趋势或解决问题的线索。
递增或递减。
2.数据的分组与频数分布
将数据按照某种特征或标准分成不同的组别。
统计分组标志。
品质标志和数量标志。
按某种标志对数据进行分组后,计算出所有类别或数据在各组中出现的次数或频数,就形成了一个频数分布表。
各组频数与全部频数之和的比重称为频率或比重。
按品质标志分组时的同时计算出各组的频数或频率,就形成了我们所需要的频数分布表。
如P21的表2—1。
按数量标志分组时有其特定步骤。
如表2-1。
频数分布表的构建过程:
第一步:
对数据排序。
第二步:
根据需要进行分组。
有两种分组方法:
单变量值分组和组距分组。
单变量分组主要对离散数据中的每一个值作为一组,见表2-2。
这里主要介绍组距分组,它是将全部变量值依次划分为若干区间,并将这一区间的所有变量值作为一组。
分多少个组?
分组的目的是观察数据分布的特征,因此组数应适中。
组数的确定应以能显示数据的分布特征和规律为目的。
实际分组时,以Sturges提出的经验公式来确定组数K:
K=1+LnN/Ln2其中N为数据个数,对结果四舍五入取整即可。
每个组的区间多大?
可根据全部数据的最大值和最小值及所分组数来确定,即组距=(最大值-最小值)/组数。
第三步:
根据分组整理成频数分布表。
表2-3。
要注意的有关问题:
⑴确定组之间是互相排除的。
不重不漏。
“组上界不在内”原则。
⑵几个定义。
组下界是指各组的最小数。
组上界是各组的最大数。
组边界是指用来分开各组的数字,可先找出一个组的组上界和下一组的组下界之间间隔的大小,将这个大小的一半加到每个组上界就可以得到组上边界;将每个组下界减去这个大小的一半就可以得到组上边界。
组中值是指每一组的中间值。
组距是两个连续的组下界或组边界之间的差。
课堂练习二:
从表2-4中分别找出相应的值。
⑶包含所有的组,即使频数为0。
⑷尽量对所有组使用相同的组距。
频数密度;开口组的问题。
⑸选择方便的数为组边界。
少用小数。
⑹组数一般为5-20。
⑺组频数的和必须与原始数据的个数相等。
相对频数表。
相对频数=组频数/所有组频数的和
累积频数表。
向上累积、向下累积。
表2-6。
频数分布表有什么用?
频数表可描述、考察和比较数据,并用来识别数据分布的一般特性和画图。
一个虚假数据实例:
《今日美国》的一个报道数据。
美国黄石国家公园的老实泉活动规律的揭示。
课堂思考:
现有2003级工商管理专业和金融学专业两个班的《统计学原理》成绩,频数分布表可以做什么?
课堂练习三:
下面的两上数据集是随机抽样的成年男性身高(以英寸计)。
其中一个数据集所包含的身高是来自随机抽取的男性的实际身高,而另一个集合所包含的数据是虚构的。
比较两个频数表,通过识别你认为是假的数据集来解释你所获得的结果,并说明原因。
[1]7073707271737167687267727173
7270726871717173697371667767
[2]7073707271667476687567687177
6669726777756676767773746967
3.数据图
直方图
折线图
茎叶图
频数分布的类型。
图2-6的六种类型要记住!
这里介绍两个历史上最重要的图!
一个是C.J.米纳德在1861年画的,是“曾经画过的最出色的统计图”。
包括了1812—1813年间,拿破仑军队往返莫斯科行军的六个变量。
另一个是F.南丁格尔画的在克里米亚半岛战役中,英军战地医院的死亡人数。
作业
⑴看报纸,收集有关调查的消息,并仔细检查是否可信。
⑵预习第三章。