统计学知识点梳理Word格式.docx
《统计学知识点梳理Word格式.docx》由会员分享,可在线阅读,更多相关《统计学知识点梳理Word格式.docx(14页珍藏版)》请在冰豆网上搜索。
医药实验数据、化学实验数据等。
1.2.3截面数据和时间序列数据
按照被描述的现象与时间的关系,可分类截面数据和时间序列数据。
截面数据:
在相同或近似相同的时间点上收集的数据。
2012年我国各省市的GDP。
时间序列数据:
同一现象在不同的时间收集的数据。
2000-2012年湖北省的GDP。
1.3.1总体和样本
总体:
包含所研究的全部个体(数据)的集合。
样本:
从总体中抽取的一部分元素的集合。
1.3.2参数和统计量
参数:
用来描述总体特征的概括性数字度量。
统计量:
用类描述样本特征的概括性数字度量。
某研究机构准备从某乡镇5万个家庭中抽取1000个家庭用于推断该乡镇所有农村居民家庭的年人均纯收入。
这项研究的总体是5万个家庭;
样本是1000个家庭;
参数是5万个家庭的人均纯收入;
统计量是1000个家庭的人均纯收入。
第二章数据的搜集
2.1数据的来源
2.1.1数据的间接来源
间接来源的数据:
如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。
统计公报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提供的数据、会议交流的数据、互联网查阅的数据等。
二手数据的优缺点:
优点:
搜集方便,采集成本低,数据采集快,作用广泛等。
缺点:
针对性不够。
2.1.2数据的直接来源
普查:
调查针对总体中的所有个体单位进行。
普查数据的优缺点:
调查范围广,被调查单位多,信息全面,完整。
调查费时,费力,费钱。
2.2调查数据
2.2.1概率抽样和非概率抽样
重复抽样:
从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止的抽样方法。
简单随机抽样:
从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的概率被抽中的抽样方式。
分层抽样:
在抽样时,将总体分成互不交叉的若干个层级,然后按一定的比例,从各层次独立地随机抽取一定数量的个体,将各层次取出的个体合在一起作为样本。
整群抽样:
先将总体划分为若干群体,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群中所包含的所有元素进行观察的抽样方式。
方便抽样:
调查过程中由调查员依据方便原则,自行确定入样单位。
滚雪球抽样:
调查时首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查的调查方式。
2.4.1抽样误差
样本量与抽样误差成反比。
随着样本量的逐渐增大,抽样误差就越小。
2.4.3误差的控制
通过样本量的大小控制可以改变误差大小,要求的抽样误差越小,所需要的样本量就越大。
第三章数据的图表展示
3.2.1分类数据的整理与图示
(3)饼图
主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
适合于描述结构性问题。
(4)环形图
显示多个样本各部分所占的相应比例。
适合于比较研究两个或多个样本或总体的结构性问题。
3.3.1数据分组
为解决数据分组不重的问题,统计分组时习惯上规定“上组限不在内”即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组。
(a≤x<b)
3.3.2数值型数据的图示
1.分组数据:
直方图
用于展示分组数据分布的一种图形。
直方图与条形图区别:
条形图:
条形长度表示频数;
宽度固定不变;
矩形分开排列;
展示分类数据
直方图:
面积表示频数;
宽度表示组距;
矩形连续排列;
展示数值型数据
3.时间序列数据:
线图
主要用于反映现象随时间变化的特征,描述其变化趋势。
4.多变量数据的图示
(1)散点图
适合用于描述两变量之间是否存在某种关系。
数据图示的原则:
适合于低层次数据的整理和显示方法也适合于高层次的数据;
但适合于高层次数据的整理和显示方法并不适合于低层次的数据
第四章数据的概率性度量
4.1集中趋势的度量
集中趋势:
一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。
原则:
低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据
4.1.1分类数据:
众数
一组数据中出现次数最多的变量值。
适合于数据量较多时使用。
主要用于分类数据,也可用于顺序数据和数值型数据。
4.1.2顺序数据:
中位数和分位数
1.中位数
一组数据排序后处于中间位置上的变量值,用Me表示。
中位数将全部数据平分为两部分,各占50%数据。
适用范围:
顺序数据、数值型数据的集中趋势测度,不适用于分类数据测量。
中位数计算步骤:
1.数据排序;
2.确定中位数位置;
3.确定具体值
中位数位置计算:
(n+1)/2
中位数值的计算:
奇数时,X(n+1)/2;
偶数时,1/2{X(n/2)+X(n/2+1)}
2.四分位数
将一组数据数据排序后四等份(各占25%数据),处于25%位置点(下四分位)和75%位置点(上四分位)上的值。
四分位数计算步骤:
2.确定四分位数位置;
四分位数位置确定方法:
(不同确定方法,不同四分位数值)
QL=n/4;
QU=3n/4
整数位置:
整数对应值
0.5的位置:
两侧值得平均值
0.25或0.75的位置:
下侧值+(上侧值—下侧值)*0.25或者0.75
4.1.3数值型数据:
平均数
一组数据相加之后除以数据个数得到的数值,是集中趋势的最主要测度值
数值型数据,不适用于顺序数据和分类数据。
4.1.4众数、中位数和平均数的比较
1.众数、中位数和平均数的关系
众数:
一组数据分布的最高峰
中位数:
处于一组数据的中间位置的值
平均数:
全部数据的算术平均
对称分布情况:
众数=中位数=平均数
左偏分布情况:
存在较小值,平均数<中位数<众数
右偏分布情况:
存在极大值,众数<中位数<平均数
4.2离散程度的度量
反映各变量值远离中心值的程度。
离散程度越大,集中趋势测度值的代表性越差。
4.2.3数值型数据:
方差和标准差
1.极差(全距)
一组数据的最大值与最小值的差。
3.方差和标准差
方差是各变量值与平均数离差平方的平均数(通过平方消去正负号)。
标准差是方差的平方根。
方差和标准差能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。
4.2.4相对离散程度:
离散系数
离散系数是一组数据的标准差与平均数的比值,是离散程度的相对统计量。
适用于比较不同样本数据的离散程度。
离散系数越大,离散程度越大(正比)。
练习题:
4.1(P94)、4.2(P95)
第六章统计量及其抽样分布
6.4样本均值的分布于中心极限定理
当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值⎺x也服从正态分布,⎺x的数学期望为μ,方差为σ2/n。
即⎺x~N(μ,σ2/n)
中心极限定理:
从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
经验法则是n≥30时算是充分大,满足中心极限定理要求。
关于大样本和小样本:
理论而言,小样本:
样本量固定,不论样本量多少;
大样本:
样本量n→∞
经验做法,大样本:
n≥30
小样本:
n<30
第七章参数估计
7.1.2点估计与区间估计
当置信水平固定时,置信区间的宽度随着样本量的增大而减小。
95%的置信水平是指在用同样方法构造的总体参数的多个区间中,包含该总体参数的区间的比例为95%。
这个概率不是用来描述某个特定区间包含真值的可能性,一个特定的区间总是包含或者绝不包含真值,不存在一会包含,一会不包含的问题。
用概率可以知道在多次抽样得到的区间中大概有多少个包含了参数的真值。
7.1.3评估估计量的标准
①无偏性
无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。
②有效性
较小标准误差的点估计量比其他点估计量相对有效。
③一致性
一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。
第八章假设检验
8.1假设检验的基本问题
假设检验的基本思想:
假设检验推断过程所依据的基本思想是小概率反证法思想。
小概率思想是指发生概率很小的随机事件,在某一次特定的实验中是几乎不可能发生的。
若小概率事件在一次实验中发生了则假设可能错误。
反证法思想是首先对总体参数值提出假设,然后再利用样本提供的信息去验证先前提出的假设是否成立。
如果样本数据不能够充分证明和支持假设,则在一定概率条件下,应该拒绝该假设;
相反,如果样本数据不能够充分证明和支持假设是不成立的,则不能推翻假设成立的合理性和真实性。
8.1.2假设的表达式
原假设假定两个或多个事物之间是等同的或没有关系的,是变量之间无关的陈述。
原假设表示否定的意义。
备择假设假定变量间存在一定的关系。
零假设是变量之间无关的陈述,而研究假设是变量有关系的明确陈述。
在逻辑上与原假设内容完全对立的假设成为备择假设。
原假设与备择假设在逻辑上是互斥的,肯定原假设,则备择假设就必须放弃;
否定原假设,则接受备择假设。
8.1.3两类错误
根据所犯错误的类型,我们分为两种类型:
(举例见教材P188)
第一类:
原假设为真,拒绝真假设,犯此类错误的概率为α,称为α错误或弃真错误。
第二类:
原假设为伪,接受伪假设,犯此类错误的概率为,称为错误或取伪错误。
对原假设为真的判断与概率:
(1)拒绝原真假设的概率为α,也称为显著性水平。
(2)接受原真假设,做出正确判断的概率为1-α。
在实践中,由进行假设检验的人设定显著性水平,一般取α为0.05和0.01.通过选择α,控制了犯第一类错误的概率。
在应用中,一般将只控制第一类错误的结社检验称为显著性检验。
许多假设检验的应用都属于这一种类型。
对原假设为伪的判断与概率:
(1)接受原伪假设的概率为
(2)拒绝原伪假设,做出正确判断的概率为1-
正确决策与犯错误决策的概率归纳表见表8-1。
我们希望犯这两类错误的概率越小越好。
但是对于特定样本量来说,不能同时做到犯这两类错误的概率都很小。
如果减小α错误(弃真),则犯错(取伪错误)的概率就增加。
弃真取伪
如果减小错误(取伪),则犯α错误(弃真错误)的概率就增加。
取伪弃真
8.1.4假设检验的流程
1.提出原始假设和备择假设
2.选择检验统计量
3.确定显著性水平
4.根据数据计算出检验统计量的值
5.得到检验是否显著的结论
假设检验决策的两种方法:
(1)临界值法