统计学复习Word格式文档下载.docx
《统计学复习Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《统计学复习Word格式文档下载.docx(19页珍藏版)》请在冰豆网上搜索。
样本:
从总体中抽取的一部分元素的集合
样本量:
构成样本的元素的数目
定量变量或数值变量:
定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结果.如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”
定性变量:
分类变量和顺序变量统称为定性变量
分类变量:
表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.分类变量的观察结果就是分类数据
顺序变量或有序分类变量:
具有一定顺序的类别变量.如测试成绩按等级,一个人对事物的态度.顺序变量的观察结果就是顺序数据或有序分类数据
离散型变量:
只能取有限个值得随机变量
连续型变量:
可以取一个或多个区间中任何值得随机变量
3、获得数据的概率抽样方法有哪些?
根据一个已知的概率来抽取样本单位,也称随机抽样
-简单随机抽样:
从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中.抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选。
不重复抽样抽中的个体不再放回,再从所剩下的个体中抽取第二个元素,直到抽取n个个为止。
-分层抽样或分类抽样:
它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。
-系统抽样或等距抽样:
它是想将总体个元素按某个顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n个元素组成一个样本。
-整群抽样:
是先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群中包含的所有元素进行观察。
第二章.用图表展示数据
频数:
落在各类别中的数据个数
比例:
某一类别数据个数占全部数据个数的比值
百分比:
将对比的基数作为100而计算的比值
比率:
不同类别数值个数的比值
频数分布表:
频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分布状况.
什么是条形图:
是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况.
帕累托图:
是按各类别数据出现的频数多少排序后绘制的条形图
饼图:
是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用.
环形图:
只能显示一个样本各部分所占的比例
数据分组:
是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.
1.下限(lowerlimit):
一个组的最小值
2.上限(upperlimit):
一个组的最大值
3.组距(classwidth):
上限和下限之差
4.组中值(classmidpoint):
下限和上限之间的中点值
组中值=下限值+上限值/2
直方图和条形图的区别。
1.条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距
2.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列
3.条形图主要用于展示定性数据,而直方图则主要用于展示定量数据
茎叶图:
是反映原始数据分布的图形.它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:
分布是否对称,数据是否集中,是否有离群点.等等
箱线图:
是由一组数据的最大值,最小值,中位数,两个四分位数.这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.
雷达图:
是显示多个变量的常用图示方法.
1.从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图
2.可用于研究多个样本在多个变量上的相似程度
3.当多个变量的取值相差较大或量纲不同时,可进行变换处理后再做图。
第三章.用统计量描述数据
1、水平的度量
描述数据水平的统计两主要有:
平均数,中位数,分位数以及众数等.
平均数。
平均数的计算:
1.也称为均值,常用的统计量之一
2.消除了观测值的随机波动
3.易受极端值的影响
4.根据总体数据计算的,称为平均数,记为μ;
根据样本数据计算的,称为样本平均数,记为⎺x
中位数:
是一组数据排序后处于中间位置上数值,用Me表示.
四分位数:
也称四分位点,它是一组数据排序后处于25%和75%位置上的值
众数、中位数和平均数的关系*
2、差异的度量
极差:
1.一组数据的最大值和最小值之差
2.离散程度的最简单测度值
3.易受极端值影响
4.未考虑数据的分布
5.计算公式为:
R=max(xi)-min(xi)
四分位差
1.也称为内距或四分间距
2.上四分位数和下四分位数之差:
Qd=QU–QL
3.反映了中间50%数据的离散程度
4.不受极端值的影响
5.用于衡量中位数的代表性
样本方差和标准差(会计算)
1.数据离散程度的最常用测度值
2.反映各变量值和均值的平均差异
3.根据总体数据计算的,称为总体方差(标准差),记为σ2(σ);
根据样本数据计算的,称为样本方差(标准差),记为s2(s)
4.样本方差
假设是一个样本,则样本方差的计算公式为:
其中是样本均值。
例如,一样本取值为3,4,4,5,4,则样本均值=,样本方差
=。
样本方差是常用的统计量之一,是描述一组数据变异程度或分散程度大小的指标。
样本标准差
S称为样本标准差。
如在上例中,S=0.7071。
称(S/X)×
100%为样本变异系数。
由于S和X都是从同一个样本资料中求得,两者的单位相同,故变异系数为一纯数。
当两种样本资料所用的单位不同时,只要计算出变异系数,就可以比较它们的变异程度。
标准分数:
可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据是否有离群点
离散系数(变异系数)是一组数据的标准差和其相应的平均数据之比,它消除了数据绝对值大小和计量单位对标准差大小的影响.
分布形状的度量
偏态:
是指数据分布的不对称性。
侧度数据分布不对称性的统计量称为(偏态系数)
峰态:
是指数据分布峰值的高低。
测度峰态的统计量是(峰态系数)
弄清偏态系数的取值含义,会判断左偏、右偏和对称情形*
弄清峰态系数的取值含义,会判断尖峰、扁平和正常情形*
第四章.概率分布
概率:
概率是对事件发生的可能性大小的度量
随机变量:
是用数值来描述特定试验一切可能出现的结果,它的取值事先不能确定,具有随机性
连续性随机变量:
只能取一个或多个区间中任何值得随机变量
离散型随机变量:
只能取有限个值得随机变量
随机变量的概括性度量:
期望值和方差的计算:
描述随机变量集中程度的统计量称为(期望值)
离散型概率分布:
是用表格的形式表现出来,就是离散型随机变量的概率分布
二项分布:
二项分布是建立在伯努利试验基础上的。
N重伯努利
1.贝努里试验满足下列条件
⏹一次试验只有两个可能结果,即“成功”和“失败”
●“成功”是指我们感兴趣的某种特征
⏹一次试验“成功”的概率为p,失败的概率为q=1-p,且概率p对每次试验都是相同的
⏹试验是相互独立的,并可以重复进行n次
⏹在n次试验中,“成功”的次数对应一个离散型随机变量X
泊松分布:
1.1837年法国数学家泊松(D.Poisson,1781—1840)首次提出
2.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布
3.泊松分布的例子
⏹一定时间段内,某航空公司接到的订票电话数
⏹一定时间内,到车站等候公共汽车的人数
⏹一定路段内,路面出现大损坏的次数
⏹一定时间段内,放射性物质放射的粒子数
⏹一匹布上发现的疵点个数
⏹一定页数的书刊上出现的错别字个数
超几何分布的使用背景
1.采用不重复抽样,各次试验并不独立,成功的概率也互不相等
2.总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布
3.概率分布函数为
连续型概率分布:
正态分布:
1.由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出
2.描述连续型随机变量的最重要的分布
3.许多现象都可以由正态分布来描述
4.可用于近似离散型随机变量的分布
⏹例如:
二项分布
5.经典统计推断的基础
标准正态分布
1.随机变量具有均值为0,标准差为1的正态分布
2.任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布
3.标准正态分布的概率密度函数
4.标准正态分布的分布函数
数据的正态性评估:
Q-Q图和P-P图的使用
1.对数据画出频数分布的直方图或茎叶图
⏹若数据近似服从正态分布,则图形的形状和上面给出的正态曲线应该相似
3.绘制正态概率图。
有时也称为分位数—分位数图或称Q-Q图或称为P-P图
⏹用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等
⏹P-P图是根据观测数据的累积概率和理论分布(如正态分布)的累积概率的符合程度绘制的
⏹Q-Q图则是根据观测值的实际分位数和理论分布(如正态分布)的分位数绘制的
4.使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验)
由正态分布导出的几个重要分布:
χ2分布、t分布、F分布的特点
χ2分布:
1.由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡·
皮尔逊(K·
Pearson)分别于1875年和1900年推导出来
2.设,则
3.令,则y服从自由度为1的χ2分布,即
4.对于n个正态随机变量y1,y2,yn,则随机变量
5.称为具有n个自由度的χ2分布,记为
性质和特点
1.分布的变量值始终为正
2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称
3.期望为:
E(χ2)=n,方差为:
D(χ2)=2n(n为自由度)
4.可加性:
若U和V为两个独立的χ2分布随机变量,U~χ2(n1),V~χ2(n2),则U+V这一随机变量服从自由度为n1+n2的χ2分布
t分布:
1.提出者是WilliamGosset,也被称为学生分布(student’st)
2.t分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。
一个特定的分布依赖