SPSS的word文档Word文档格式.docx

资源描述

SPSS的word文档Word文档格式.docx

《SPSS的word文档Word文档格式.docx》由会员分享，可在线阅读，更多相关《SPSS的word文档Word文档格式.docx（32页珍藏版）》请在冰豆网上搜索。

SPSS的word文档Word文档格式.docx

•数据的种类

–按照数据的计量尺度：

定类数据、定序数据、定距数据和定比数据

–按照表现形式：

时间数列数据、截面数据和合并数据

–按照反映内容：

数量数据与品质数据

•数据的来源

–抽样调查方法是从调查研究中搜集数据的方法

–实验设计方法是从实验研究中搜集数据的方法。

•数据与误差

定类数据、定序数据、定距数据和定比数据

•定类尺度（Nominalscale）是只按照事物的某种属性对其进行平行分类或分组所进行的测度，是最粗略、计量层次最低的计量尺度。

如人口按照性别分为男、女两类。

•定序尺度（Ordinalscale）又称顺序尺度，是对事物之间等级差或顺序差别的一种测度，如将产品等级分为一等品、二等品、三等品及次品等。

•定距尺度（Intervalscale）也称为间隔尺度，是对事物类别或次序之间间隔的测度，通常使用自然或度量衡单位作为计量尺度。

如收入用人民币元度量、考试成绩用百分制度量、温度用摄氏度或华氏度来度量、重量用克度量、长度用米度量等。

定距尺度的计量结果表现为数量。

•定比尺度（Ratioscale）也称为比率尺度，它与定距尺度属于同一层次，一般可不作区分，其计量结果也表现为数值，但其特性是可以计算两个测度值之间的比值。

定距尺度与定比尺度之间的唯一差距是定比尺度有一个绝对固定的“零点”。

定距尺度中没有绝对的零点，即定距尺度计量值可以为0，“0”表示一个数值，即“0”水平，而不表示“没有”或“不存在”。

如温度为0℃度，表示温度的水平，并不表示没有温度。

所以定距尺度中的0是一个有意义的数值。

定比尺度则不同，它有一个绝对“零点”，也就是说，在定比尺度中，“0”表示“没有”或“不存在”，如产量为0，表示没有这种产品；

收入为0，表示这个人没有收入，现实生活中大多数情况下使用的都是定比尺度。

•统计数据采用不同的计量尺度也就形成不同的数据，即定类数据、定序数据、定距数据和定比数据。

时间数列数据、截面数据和合并数据

•时间数列数据是按照时间序列排列收集得到的数据。

如GDP、失业、就业、货币供给、政府赤字等。

数据是按照一定时间间隔收集的——每日（如股票），每周（如货币供给），每月（如失业率），每季（如GDP），每年（如政府预算）。

•截面数据（cross-sectionaldata）是指一个或多个变量在某一时点上的数据的集合。

如定期进行的人口普查数据。

•合并数据（pooleddata）中既有时间序列数据又有横截面数据。

如20间10个国家的失业率数据就是合并数据。

在合并数据中有一类特殊数据，称为panel数据（paneldata），又称纵向数据（ongitudinalormicropaneldata），即同一个横截面单位，比如一个家庭或一个公司，在不同时期的调查数据。

数量数据与品质数据

•数据可以既包括定性数据又包括定量数据两方面

•定量数据测量事物的多少

•而定性数据是为了对事物进行分类而提供标签、或名称。

统计数据的来源

•从统计数据本身的来源看，统计数据最初都来源于直接的调查或试验。

•从使用者的角度看，统计数据主要来源于两种渠道：

–一是直接的调查和科学试验，这是统计数据的直接来源，我们称之为第一手或直接的统计数据；

–二是别人调查或试验的数据，这是统计数据的间接来源，我们称之为第二手或间接的统计数据。

这里主要从使用者的角度介绍统计数据的搜集方法。

社会经济数据主要取得方式方法

•统计调查是取得社会经济数据的主要来源，也是获得直接统计数据的重要手段。

–实际中常用的统计调查方式主要有普查、抽样调查、统计报表等。

另外还有重点调查和典型调查。

•不论采取何种方式进行调查，在取得统计数据时，都有一些具体的数据搜集方法。

调查方法归纳起来可分为询问调查和观察实验两大类。

–询问调查。

询问调查是调查者与被调查者直接或间接接触以获得数据的一种方法，具体包括访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深度访问等。

–观察与实验。

观察与实验是调查者通过直接的观察或实验获得数据的—种方法。

第二手数据

•第二手数据主要是公开出版的或公开报道的数据，也有些是尚未公开的数据。

–在我国，公开出版或报道的社会经济统计数据主要来自国家和地方的统计部门以及各种报刊媒介。

例如，公开的出版物有（中国统计年鉴）、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、（中国市场统计年鉴），以及各省、市、地区的统计年鉴等。

提供世界各国社会和经济数据的出版物也有许多，如《世界经济年鉴》、《国外经济统计资料》，世界银行各年度的《世界发展报告》等。

联合国的有关部门及世界各国也定期出版各种统计数据。

•除了公开出版的统计数据外．还可以通过其他渠道使用一些尚未公开的统计数据，以及广泛分布在各种报刊、杂志、图书、广播、电视传媒中的各种数据资料。

现在．随着计算机网络技术的发展，也可以在网络上获取所需的各种数据资料

数据与误差

•统计数据的误差通常是指统计数据与客观现实之间的差距，误差主要有登记性误差和代表性误差两类。

–登记性误差是调查过程中由于调查者或被调查者的人为因素所造成的误差。

调查者所造成的登记性误差主要有：

调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等；

被调查者造成的登记性误差主要有：

因人为因素干扰形成的有意虚报或瞒报调杏数据，这种误差在统计调查中应予以特别重视。

从理论上讲，登记性误差是可以消除的。

–代表性误差主要是指在用样本数据进行推断时所产生的随机误差。

其产生的原因主要有：

抽取样本时没有道循随机原则；

样本结构与总体结构存在差异；

样本容量不足等等。

这类误差通常是无法消除的，但事先可以进行控制或计算。

•数据的质量包括多方面的含义，而不仅仅是指数据本身的准确性或误差的大小。

就一般的统计数据而言，可将其质量评价标准概括为六个方面：

（1）精度，即最低的抽样误差或随机误差；

（2）准确性，即最小的非抽样误差或偏差；

（3）关联性，即满足用户决策、管理和研究的需要；

（4）及时性，即在最短的时间里取得并公布数据；

（5）一致性，即保持时间序列的可比性；

（6）最低成本，即在满足以上标淮前提下，以最经济的方式取得数据。

统计学

•统计学定义

•统计学的内容体系

•统计的应用

统计学定义

•统计学是一门独立的学科。

•统计学是关于如何搜集、分析客观现象数据，以便给出正确认识结论的方法论科学。

对定义的注释：

–客观现象数据是为了进行认识客观现象而搜集、分析概括的数字与事实。

–数据搜集包括科学实验和社会调查两大类渠道，数据分析包括描述性分析和推断性分析。

–数学是统计学发展的重要理论基础，计算机科学是统计学应用的重要工具。

–统计学的发展应用离不开哲学、以及经济学、社会学、生物学、医学等学科的发展。

–统计学的应用领域十分广泛。

统计学的应用领域

•从大的方面包括自然科学、社会科学、人文科学等各个领域，从具体学科上看，可应用于物理学，化学，生物学，医学，生态学，气象学，天文学，军事科学遗传学，地理学，地质学，水文学，人类学，历史及考古学，教育学，心理学，人口学，经济学，精算，建筑工程学，农业，工业，法律，语言学，文学，管理科学，政治学，宗教研究，社会学，分类学等等。

三、多变量分析

•多变量分析的研究对象和主要内容

•多变量分析方法与一元统计的比较

•统计分析方法在经济统计中具体应用领域

•统计分析方法在经济统计中的运用的一般步骤

（一）研究对象以及主要内容

•研究对象

–多变量分析是以多维随机变量的内在联系及统计规律为其研究对象。

是统计中讨论多维随机变量的统计方法的总称。

•主要内容

–从形式上看，一类是单变量常用的统计方法在多维随机变量情况下的应用；

另一类是对多维变量本身进行研究的一些特殊方法。

具体内容包括

•多元方差分析

•多元回归分析

•主成分分析

•因子分析

•聚类分析

•判别分析

统计分析方法在经济统计中具体应用领域

•对多个变量进行降维处理，而选择数目较少的变量子集合；

–主要方法：

主成分分析、因子分析、对应分析等。

•对现象进行分类研究、分类处理、构造分类模式

–主要方法：

聚类分析、判别分析等

•建立经济模型和利用模型进行外推；

预测模型－－回归分析方法

描述模型－－聚类分析方法

统计分析方法在经济统计中的运用的一般步骤

•统计分析方法要经过建立模型、进行参数估计、假设检验以及预测控制等步骤，具体是：

–进行定性分析，设计理论模型

–抽取样本，并取得样本统计资料

–对描述样本的指标进行统计分析，选择最佳的统计指标

–根据最佳指标的样本数据，估计参数，建立数量模型

–对数量模型进行检验、优化以及运用

社会统计中的统计软件

SPSS（PASW）基础

第二章预备知识

•2.1统计学中的相关概念

2.1.1统计表

统计表的结构

统计表的种类

复合表举例

宾词指标的设计1

宾词指标的设计2

编制统计表应注意的问题

2.1.2统计数据的整理

收集统计数据之后，要对获取的数据进行系统化、条理化地整理，以提取有用的信息。

一、统计分组

根据统计研究的目的和客观现象的内在特点，按某个标志（或几个标志）把被研究的总体划分为若干个不同性质的组，称为统计分组。

统计分组的对象是总体。

从分组的性质来看，分组兼有分合双重含义。

对于总体而言，是“分”，即把总体分为性质相异的若干部分；

而对于单位而言，又是“合”，即把性质相同的许多单位结合为一组。

例如，要对某某班学生的性别进行调查，可将学生人数分成男、女两个组，分组结果如下表所示:

表2-1某班学生按性别分组

表2-2某班学生按考试成绩分组

表2-3某班学生按年龄分组

2.1.3频数分布与频率分布

将数据按其分组标志进行分组的过程，就是频数分布和频率分布形成的过程。

表示各组的单位的次数称为频数，各组次数与总次数之比称为频率。

频数分布就是观察值按其分组标志分配在各组内的次数，由分组标志序列和各组相对应的分布次数两个要素构成。

由分组标志序列和各组相应的频率构成频率分布。

[例2-1]某车间30名工人按每天加工某种零件件数如下表所示：

表2-4某车间工人每天加工某种零件件数

要对以上30名工人日加工零件数进行分组，先要决定分成多少组，每一组的范围（即上下组限）是多少，即确定组数和组距。

组数是分组的个数，组距是每一组最大值与最小值之差。

要确定这两个数值，一般是先找出全部数据的最大值和最小值。

在本例中，日加工最多的是128件，最少是84件。

如果采用简单的组距，即每10件为一组，则该例可分为5组，即80~89件、90~99件、100~109件、110~119件、120~129件。

在一般情况下，组数不应少于5组，但也不应多于15组。

因为分组的目的是找出数据分布的数量规律性。

如果组数太少，数据都分在一、二组或三、四组中，其规律反映不出来；

如果组数太多，特别是数据又太少的话，反映出来的都是偶然性差异，也不便于探索出分布的规律。

在确定了组数之后，接下来的问题就是组距和组限了，即要确定每组是否相等的组距及每组的上下组限。

在本例中，我们以10件相等的组距进行分组，则各组的组限就随之确定了。

接下来，就将每名工人的加工零件数分配到应落入的组内。

按我们的习惯，一般是用划“正”字进行计数，结果见下表所示：

表2-5频数（频率）分布表

在分组时，要遵循“不重不漏”的原则。

“不重”就是任一个单位数值只能分在其中某一组中，不能同时分在两组中；

“不漏”就是任一数值必须能够分布在某一组内，不能遗漏。

上面的分组是以10件为组距的相同组距的分组，也称为等距分组，必要时也可采取不等距分组。

将统计数据整理成频数（频率）分布形式后，已经可以初步看出数据的一些规律。

在平面直角坐标系上，将分组标志作为横轴并将各组频数（频率）作为纵轴，给出各组的长方形图即直方图。

与直方图相似作用的图示是折线图，它以各组标志值中点位置作为该组标志的代表值，然后用折线将各组频数连接起来，开成了折线图。

由表2-5的频数（频率）分布直方图和折线图如图2-1所示。

在图2-1中，直方图与折线图的面积是相等的。

折线图的折线将直方图的直角切下，正好补在旁边较低的直方图上边。

这样，直方图与折线图所表示的分布规律是相同的，是两种面积相同，表现形式不同的频数（频率）分布图。

图2-1某车间工人日加工零件数分布图

•当所观察的次数很多，组距很小并且组数很多时，所绘出的折线图就会越来越光滑，逐渐形成一条光滑的曲线，这种曲线即频数分布曲线，反映了数据的分布规律。

统计曲线在统计学中很重要，是描绘各种分布规律的有效方法。

常见的频数分布曲线有正态分布曲线、偏态分布曲线、J型分布曲线和U型分布曲线等。

图2-2常见的频数分布曲线

•正态分布曲线（如图2-2（A）所示）形为左右对称的倒挂的大钟，这是客观事物数量特征表现最多的一种频数分布曲线，如人的身高、体重、智商等等，其所有的测量和观测误差等都是服从正态分布。

•偏态分布曲线（如图2-2（B）所示）根据长尾拖向哪一方又可分为正偏（或右偏）分布曲线和负偏（或左偏）分布曲线。

例如，人均收入分配的曲线就是正偏曲线，即低收入的人数较多，而高收入的人数较少，二者的收入水平差距较大。

•J型分布曲线（如图2-2（C）所示）又分为正J形分布曲线和反J型分布曲线。

例如，经济学中的供给曲线是正J形曲线，需求曲线是反J形曲线。

2.1.4累积频数分布与频率分布

为了统计分析的需要，有时要观察某一数值以上或某一数值以下频数或频率之和，这就需要在表2-5基本分组的基础上绘出累积频数或累计频率。

由表的上方向表的下方的频数或频率相加就称为“向下累积”，反之称为“向上累积”。

表2-6累积频数（频率）分布表

•例如，我们要了解日加工在100件及以上有多少人时，就可以从向上累积的第三组数字中直接直接读出20人；

如要了解日加工在110件以下的人数，就可以从向下累积的第三组中直接读出23人。

•累计频数和累计频率不仅可以用上述的表格形式来表示，而且也可以用图形来表示。

累计频数（频率）分布图分为向上累计频数（频率）分布图和向下累计频数（频率）分布图。

不论是向上累计或向下累计，均以分组变量为横轴，以累计频数（频率）为纵轴。

在直角坐标点系上将各组组距的上限与其相应的累计频数（频率）构成坐标点，依次用直线（或光滑曲线）相连，即是向上累计。

对于向下累计频数分布图，在直角坐标系上将各组组距下限与其相应累计频数（频率）构成坐标点，依次用直线（或光滑曲线）相连，即是向下累计分布图。

•累计频数（或频率）分布曲线，可用以研究财富、土地和工资收入的分配是否公平。

这种累计分布曲线图最早由美国洛伦茨博士（Dr.M.O.Lorenz）提出的，故又称洛伦茨曲线图。

其绘制方法如下：

•

（1）将分配的对象和接受分配者的数量均化成结构相对数并进行向上累计；

•

（2）纵轴和横轴均为百分比尺度，纵轴自下而上，用以测定分配的对象（如一国的财富、土地或收入等），横轴由左向右用以测定接受分配者（如一国的人口）。

•（3）根据计算所得的分配对象和接受分配者的累计百分数，在图中标出相应的绘示点，连接各点并使这平滑化，所得曲线即所要求的洛伦茨曲线。

表2-7某国家收入所得的分配情况

•在绘制分配曲线图时，先将人口收入的数量（第

（1）、（4）栏）计算成为结构相对数（第

（2）、（5）栏），再求出累计百分比（第（3）、（6）栏），然后在制好的比率曲线图格上依累计百分比标出绘示点，连接各绘示点即为分配曲线见图2-3。

图2-3洛伦茨曲线示意图

•图中的曲线为实际收入分配曲线，对角线为绝对平等线。

根据实际收入分配线与绝对平等线或绝对不平等线进行对比，可衡量其不平等程度。

离绝对平等线越远分配越不平等；

反之，越靠近绝对平等线分配越平等。

2.2统计数据的图形分析（GraphicalAnalysis）

•统计图是用点的位置、线段的升降、直条的长短或面积的大小等方法来表达统计数据的一种形式，它可以把资料所反映的变化趋势、数量多少、分布状态和相互关系等形象直观地表现出来，以便于读者的阅读、比较和分析。

统计图具有简明生动、形象具体和通俗易懂的特点。

SPSS的图形分析功能很强，许多高精度的统计图形可从[Analyze]菜单的各种统计分析过程产生，也可以直接从[Graphs]菜单中所包含的各个选项完成。

一般统计图形

2.2.1单变量定量数据的图表描述

单变量定量数据的图表描述

——数据图形描述（分组后数据）

•数据分组整理后的图形描述

–直方图

•用矩形的高度和宽度来表示频数分布

–折线图

•作用与直方图相似

–累积频数分布图

•描述累积频数或频率信息

直方图

折线图

累积折线图

——数据图形描述（未分组数据）

•数据未分组整理后的图形描述

–茎叶图

•用于直接描述未分组原始数据的探索性分析

•描述数据分布形状，如数据是否集中，是否有极端值等

•由茎、叶、每个茎对应叶的个数、茎的宽度这四元素组成

–箱线图

•描述数据的分布形状，如数据是否集中，是否有极端值等

•可以比较多组数据分布特征

•图中包含五个点组成：

样本数据的最小值、下四分位数、中位数、上四分位数、最大值

统计数据的探索性分析

•茎叶图（Stem-and-LeafDisplays）

•这种数据整理方法将传统的统计分组与画直方图两步工作一次完成。

既保留了数据的原始信息，又为准确计算均值等提供了方便和可能。

•在画图时，要注意树叶竖行要对齐，这样，树叶的个数是各组的频数。

当我们将图画好后，不难看出这就是一个放倒了的直方图，各树茎上树叶的个数就是各组的频数。

在茎叶图画好后，不仅可以一目了然地看出频数分布的形状，而且茎叶图中还保留了原始数据的信息。

这使得我们在进一步计算数据平均数和中位数时，就可以计算准确的数值而不必应用近似公式了。

利用茎叶图进行分组还有一个好处，就是在连续数据的分组中，不会出现重复分组的可能性。

茎叶图

•把每一项观察分解为茎值和叶值

–茎值确定组别

–叶值确定频数

（计数）

箱线图（Boxplot）

•箱线图的作法是：

首先找出一组数据的5个特征值，即数据的最大值、最小值、中位数和两个四分位数；

然后连接两个四分位数画出箱子，连接两个极端值（最大值和最小值）画出两条线，所下图所示：

箱线图

多变量定量数据的图表描述

•1.散点图

–同时研究两个数字变量的取值

–在图上标出所有数对（Xi,Yi）

•2.时间序列图

–表示一列定量数据如何随时间变化

•3.组箱线图

–比较多个总体的分布特征

•4.雷达图

–用于要同时分析的变量个数较多的情况

散点图

•标出所有数对（Xi,Yi）

时间序列图

组箱线图

单变量定性数据的图表描述

——数据整理

•频数分布表（又叫总结表）

–类似于整理定量数据的频数分布表

–包含：

•分类的频数或频率，即指落在某一特定类中的观察值数

•分类的相对频数，指某个特定类的频数除以观察值总数所得的商

•累积频数分布表

–类似于整理定量数据的累积频数分布表

频数分布表

——数据图形描述

•条形图

–类似直方图，条形图的横轴表示的是各个分类，直方图的横轴表示所分的组

•饼图

–通常用来描述落在各个分类中的观察值数分别在总数中所占的比率

•累积频数分布图

–类似于描述定量数据中的累积频率分布图

•帕雷托图

–变量的分类数目较多时，用帕雷托图要比条形图和饼图更能直观地显示信息。

–广泛应用于过程分析和质量分析中

条形图

饼图

•1.表示出总量的分类

•2.是表示相对差异的有效办法

•3.角度大小

–360（百分数）

帕雷托图

多变量定性数据的图表描述

•1.环形图

–显示具有相同分类且问题可比的多个样本或总体中各类别所占的相应比例，对各总体进行比较研究

–在类别值为定序数据时这种比较才有意义

•2.交叉表

–可检测两个定性变量的关系

–同样可用来描述两个变量都是数字变量，或者一个变量是定类或定序变量，另一个是数字变量之间的关系

•3.多重条形图

–描述两个定类或定序变量间关系

交叉表

•住处:

CCOOCCOOCO性别:

MFFMMMFMMF

•（C=校内,O=校外;

M=男,F=女）

多重条形图

2.3统计数据的描述

•2.3.1分布的中心

定义分布的中心有许多不同的方式。

这里介绍三种最常用的，即众数、中位数和平均数。

（一）众数（mode）

•众数表示流行、时兴之意，有众多的意思。

因而一个分布的众数就定义为频数出现最多的变量值。

在正态分布和一般的偏态分布中，分布曲线最高点所对应的数值即是众数。

如果没有明显的最高点，众数可以不存在。

当然，如果有两个最高点，也可以有两个众数。

（二）中位数（median）与分位数

•中位数是数据排序后，位置在最中间的数值。

显然，中位数将数据分成两半，一半数据比中位数大，一半数据比中位数小。

用中位数来代表总体标志值的一般水平，可以避免代表值受数列中极端值的影响，稳定性比较好，有时更有代表性。

•与中位数相

展开阅读全文