李金昌统计学第四版复习资料Word格式文档下载.docx
《李金昌统计学第四版复习资料Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《李金昌统计学第四版复习资料Word格式文档下载.docx(93页珍藏版)》请在冰豆网上搜索。
原始数据、次级数据
时空状态:
时序数据、截面数据
总体:
统计研究的客观对象全体,也称母体。
特征:
大量性、同质性、差异性
个体数量:
有限无限总体
存在形态:
具体形象总体
总体分类:
个体计数:
可计数不可计数总体
人为判定个体:
自然人为总体
个体:
组成总体的个别事物,也称总体单位。
总体及个体关系:
.总体随个体数量可变大变小;
.研究目的不同,总体中个体可改变;
.研究范围不同,总体和个体角色可变换。
样本:
从总体中抽取一部分个体所组成的集合,也称字样。
其不具唯一性,除非其实总体本身。
样本数:
总体中最多可抽取的不同样本数量。
样本及总体关系:
.总体是研究对象,样本是观测对象,样本是总体的代表和缩影;
.样本用来推断总体:
观测样本的目的是对总体数量特征作出判断。
.总体和样本角色可改变
标志:
描述或体现个体特征的名称,标志在每个不同个体的结果为标志变形
表示方式品质标志:
表明个体属性特征
数量标志:
表明个体数量特征
表现结果是否相同不变标志:
每个个体上表现完全相同
分类可变标志:
每个个体上表现不同
表现个体直接程度直接标志(第一标志):
直接表明个体属性或数量特征
间接标志(第二标志):
两个或两个以上标志计算后(通常对比)
变量:
狭义:
可变的数量标志;
变量是可变数量标志的抽象化;
变量的具体数值—变量值(标志值)。
广义:
可变标志(可变数量品质标志)。
定性变量定类变量
定序变量
定量变量定距变量
变量分类定比变量
所受影响因素确定性变量
随机性变量
是否连续离散型变量(只能取整)
连续性变量(随意取)
统计指标:
简称指标,是反映现象总体数量特征的概念及其数值。
组成:
统计指标由指标名称和指标数值两个基本部分组成。
指标名称反映所研究现象的实际内容,是对现象本质特征的一种概括;
指标数值时所研究现象实际内容的数量表现,是对总体本质
特征的量的规定性,是对个体特征综合和计算的结果。
统计指标和标志的联系和区别:
区别:
.说明对象不同:
指标说明总体的特征;
标志说明个体的特征;
.表现形式不同:
指标用数值体现;
标志既有文字又有数值。
联系:
.标志是计算统计指标的依据,即统计指标数值是根据个体的标志表现综合而来的;
.由于总体和个体的确定是相对的,可以换位,因而指标和标志
的确定也是相对的。
计算范围总体指标
样本指标
反应现象不同总体标志总量
数量指标总体容量
指标反映现象内容不同反应时间状况时期指标
时点指标
质量指标相对指标
平均指标
反映现象时间状态静态指标
动态指标
第二章:
统计数据的收集、整理及显示
统计数据收集:
按照统计研究目的和任务,运用各种科学有效的方式和方法,有针对地收集反映客观现实的统计数据的活动过程,是整个统计活动的基础阶段,通常也称统计调查阶段。
基本要求:
准确性(核心)、及时性(信息价值体现)、完整性(分析需要)
统计数据收集方式:
普查、抽样调查、重点调查及间接的统计调查—统计推算
普查:
根据特定的统计目的而专门组织的一次性的全面调查,用以手机所研究现象总体的全面资料(总体中所有个体都是观测单位)
分类:
.专门建立普查机构,配备人员,如我国人口普查;
.利用观测的原始记录是记录和核算资料,发表,由观测单位填报。
如物资库存普查。
特点:
一般全国范围,涉及面广、工作量大、需要大量物力人力和财力。
抽样调查:
一种非全面调查,从总体中抽取样本,以样本推断总体。
根据抽取样本方式的不同,分为概率抽样和非概率抽样。
经济节省、时效性高、准确度高、灵活方便
概率抽样从抽样方法上看分为重复抽样和不重复抽样;
从抽样组织形式上看,分为简单随机抽样、分层抽样、等距抽样、整群抽样和多阶段抽样
非概率抽样分为任意抽样、典型抽样、定额抽样、和流动总体抽样几种。
数据收集误差:
观测性误差和代表性误差。
观测性误差:
也叫登记性误差或调查性误差,事调查工作的各个环节因工作粗心或被观测者不愿很好配合而造成的所收集数据及实际情况不符的去查,包括计量错误、记录错误、计算错误、抄写错误、汇总错误、计算机输入误差等各种人为因素干扰的误差。
在全面调查和非全面调查中都会产生,调查范围越广、观测个体越多,产生误差可能性越大。
是一种非一致性误差。
代表性误差:
是在抽样调查中,由于样本不能完全代表总体而产生的估计结果及总体真实数量特征不符的误差。
分为系统代表性误差和偶然性代表性误差。
系统代表性误差:
由于抽样框(用于抽取样本的名录)不完善、抽样时违反随机原则、被调查者误会等因素引起的误差,等距抽样也会有这种误差。
是难以计算和控制的。
偶然性代表性误差:
也叫抽样误差或偶然性误差,是由于抽样的随机性引起的样本机构及总体结构不完全相符,从而产生的估计结果及总体真值不一致的误差,这种误差在随机抽样不可避免,但可以计算和控制。
统计分组:
根据据统计研究的目的和事物本身的特点。
选择一定的标志(一个或多个),将研究现象总体划分为若干性质不同的组或类的一种攻击研究方法。
性质:
.兼有分及合的双重功能,是分及合的对立统一;
必须遵循“穷尽原则”和“互斥原则”,即现象总体中的任何一个个体都必须而且只能归属于某一个组,不能出现遗漏或重复出选的情况;
其目的是在同质性的基础上研究总体的内在差异性,即尽量体现出分组标志的组间差异而缩小其组内差异;
其在体现分组标志的组间差异的同时,可能掩盖了其他标志的组间差异,任何统计分组的意义都有一定的限定性。
分组标志多少:
简单分组:
只按一个标志分组
复合分组:
按两个或两个以上标志进行层叠式分组,先按第一个标志分组,再按第二个…
两个标志进行复合分组时,还可以用交叉式,形成交叉分组表。
分组标志性质:
品质分组,即属性分组,总体按一个或多个品质标志分组,分组标志一经确定,各组名称、界限和组数也就随之确定。
数量分组,即变量分组,总体按一个或多个数量标志分组。
是反映总体内部数量差异的重要方法;
难点是合理确定组间数量界限和分组数,其结果形成变量数列。
分布数列:
在统计分组的基础上,将总体中的所有个体按组归类排列,并计算出各组的个体数,就形成频数分布。
分配在各组的个体数,称为频数或次数,各组频数或次数之和称为总频数或总次数,各组频数于总频数之比称为频率。
将各组的频数或频率按分组的一定顺序加以排列,就形成分布数列。
分布数列有两个构成要素:
统计分组所形成的各个组和各组的聘书或频率。
按分组标志的性质不同,分为品质标志的品质分布数列和按数量标志分组的变量分布数列。
变量数列又分为单项式数列(一个变量值表示一个组)和组距式数列(一个变量区间表示一个组的变量数列)。
频数密度是频数及组距之比,频率密度是频率及组距之比,各组的频数密度或频率密度可以进行比较。
注意:
.最小组的下限应略低于总体的最小变量值,最大组的上限应略大于总体的最大变量值;
.连续型变量的各组组限必须重叠
,采用“上限不在内”原则;
。
开口组:
最小组只有上限,最大组只有下限;
开口组一般按相邻组的组距加以确定,进而确定上下限。
.组中值,代表各组变量值的一般水平的数值,是各组上限及下限的简单算术平均数。
第三章:
变量分布特征的描述
变量分布特征的描述:
.变量分布的集中趋势,反映变量分布中各变量值向中心值靠拢或聚集的程度;
.变量分布的离中趋势,反映变量分布中变量值远离中心值的程度;
.变量分布的形状,反映变量分布的偏斜程度和尖陡程度。
平均指标:
将变量的各变量值差异抽象化,以反映变量值一般水平或平均水平的指标,即反映变量分布中心值或代表值的指标。
平均指标的拘役表现为平均数,平均数因计算方法不同分为数值平均数和位置平均数。
作用:
.反映变量分布的一般水平,帮助人们对研究现象的一般数量特征有一个可观的认识;
.利用平均指标可以对不同空间的发展水平进行比较,消除因总体规模不同而不能直接比较的因素,以反映他们之间总体水平上能够存在的差距,进而分析产生差距的原因。
.利用平均指标可以对某一现象总体在不同时间上的发展水平进行比较,以说明这种现象发展变化的趋势或规律性。
.利用平均指标可以分析现象之间的依存关系或进行数量上的推算
.平均指标可以作为研究和评价事物的一种数量标准或参考。
算术平均数:
也称均值,是变量的所有取值的总和除以变量值个数的结果。
简单算术平均数:
根据未分组数据计算的,直接将变量的每一个变量值相加,除以变量值的个数。
(可简记为
)
加权算术平均数:
根据变量数列,即以各组变量值(或组中值)乘以相应的频数求出各组标志总量,加总各组标志总量得出总体标志总量,再用总体标志总量除以总频数。
算术平均数的数学性质:
.各变量值及算术平均数的离差之和等于零,即
(对于简单算术平均数)或
(对于加权算术平均数);
.各变量值及算术平均数的离差平方和为最小值,即
或
只有当
时,等号成立。
算术平均数优缺点:
优:
.可以利用算术平均数来推算总体标志总量,算术平均数及变量值之乘积等于总体标志总量(变量值总和);
.由算术平均数的数学性质知,算术平均数在数理上具有无偏性及有效性(方差最小性);
.其具有良好的代数运算功能
局限性:
.算术平均数易受特殊值(特大或特小值)影响;
.根据组距数列计算算术平均数时,由于组中值具有假定性而使得计算结果只是一个近似值,尤其是当组距数列存在开口组时,算术平均数的准确性会更差。
调和平均数:
是平均数的一种,是变量值的倒数的算术平均数。
分为简单调和平均数和加权调和平均数。
简单调和平均数:
当各组的标志总量相等时,所计算的调和平均数称为简单调和平均数;
设总体分为组,每个组的标志总量都为。
加权调和平均数:
当各组标志总量不相等时,所计算的调和平均数要以各组的标志总量为权数,其结果为加权调和平均数。
简单和加权调和平均数的联系和区别:
区别在于计算过程中应用的数据条件的不同前者以各组频数为权数,后者以各组标志总量为权数,但它们都符合总体标志总量及总体总频数的对比关系,事实上,两者是可以相互变通的。
对于同一现象,无论用加权或是简单调和平均数,计算结果是相等的,无非是因数据条件不同采用了不同的计算形式。
由相对数或平均数计算平均数
不论是用加权算术平均数公式还是加权调和平均数,都要从相对数或平均数指标本身的经济含义出发来计算,这是一个很重要的原则。
几何平均数:
是计算平均比率或平均速度常用的一种方法。
分为简单几何平均数和加权几何平均数。
简单几何平均数:
就是变量的个变量值连乘积的次方根。
当计算几何平均数的各种变量值出现的次数不等,即数据经过了统计分组时,则应采用加权几何平均数。
算术、调和、几何平均数的数学关系:
单从数学意义上说三者大小关系为:
<
位置