统计学第六版期末考试考点梳理Word格式.docx
《统计学第六版期末考试考点梳理Word格式.docx》由会员分享,可在线阅读,更多相关《统计学第六版期末考试考点梳理Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
样本是1000个家庭;
参数是5万个家庭的人均纯收入;
统计量是1000个家庭的人均纯收入。
第二章数据的搜集
2.1数据的来源
2.1.1数据的间接来源
间接来源的数据:
如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。
统计公报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提供的数据、会议交流的数据、互联网查阅的数据等。
二手数据的优缺点:
优点:
搜集方便,采集成本低,数据采集快,作用广泛等。
缺点:
针对性不够。
2.1.2数据的直接来源
普查:
调查针对总体中的所有个体单位进行。
普查数据的优缺点:
调查范围广,被调查单位多,信息全面,完整。
调查费时,费力,费钱。
2.2调查数据
2.2.1概率抽样和非概率抽样
重复抽样:
从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止的抽样方法。
简单随机抽样:
从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的概率被抽中的抽样方式。
分层抽样:
在抽样时,将总体分成互不交叉的若干个层级,然后按一定的比例,从各层次独立地随机抽取一定数量的个体,将各层次取出的个体合在一起作为样本。
整群抽样:
先将总体划分为若干群体,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群中所包含的所有元素进行观察的抽样方式。
方便抽样:
调查过程中由调查员依据方便原则,自行确定入样单位。
滚雪球抽样:
调查时首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查的调查方式。
2.4.1抽样误差
样本量与抽样误差成反比。
随着样本量的逐渐增大,抽样误差就越小。
2.4.3误差的控制
通过样本量的大小控制可以改变误差大小,要求的抽样误差越小,所需要的样本量就越大。
第三章数据的图表展示
3.2.1分类数据的整理与图示
(3)饼图
主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
适合于描述结构性问题。
(4)环形图
显示多个样本各部分所占的相应比例。
适合于比较研究两个或多个样本或总体的结构性问题。
3.3.1数据分组
为解决数据分组不重的问题,统计分组时习惯上规定“上组限不在内”即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组。
(a≤x<b)
3.3.2数值型数据的图示
1.分组数据:
直方图
用于展示分组数据分布的一种图形。
直方图与条形图区别:
条形图:
条形长度表示频数;
宽度固定不变;
矩形分开排列;
展示分类数据
直方图:
面积表示频数;
宽度表示组距;
矩形连续排列;
展示数值型数据
3.时间序列数据:
线图
主要用于反映现象随时间变化的特征,描述其变化趋势。
4.多变量数据的图示
(1)散点图
适合用于描述两变量之间是否存在某种关系。
数据图示的原则:
适合于低层次数据的整理和显示方法也适合于高层次的数据;
但适合于高层次数据的整理和显示方法并不适合于低层次的数据
第四章数据的概率性度量
4.1集中趋势的度量
集中趋势:
一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。
原则:
低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据
4.1.1分类数据:
众数
一组数据中出现次数最多的变量值。
适合于数据量较多时使用。
主要用于分类数据,也可用于顺序数据和数值型数据。
4.1.2顺序数据:
中位数和分位数
1.中位数
一组数据排序后处于中间位置上的变量值,用Me表示。
中位数将全部数据平分为两部分,各占50%数据。
适用范围:
顺序数据、数值型数据的集中趋势测度,不适用于分类数据测量。
中位数计算步骤:
1.数据排序;
2.确定中位数位置;
3.确定具体值
中位数位置计算:
(n+1)/2
中位数值的计算:
奇数时,X(n+1)/2;
偶数时,1/2{X(n/2)+X(n/2+1)}
2.四分位数
将一组数据数据排序后四等份(各占25%数据),处于25%位置点(下四分位)和75%位置点(上四分位)上的值。
四分位数计算步骤:
2.确定四分位数位置;
四分位数位置确定方法:
(不同确定方法,不同四分位数值)
QL=n/4;
QU=3n/4
整数位置:
整数对应值
0.5的位置:
两侧值得平均值
0.25或0.75的位置:
下侧值+(上侧值—下侧值)*0.25或者0.75
4.1.3数值型数据:
平均数
一组数据相加之后除以数据个数得到的数值,是集中趋势的最主要测度值
数值型数据,不适用于顺序数据和分类数据。
4.1.4众数、中位数和平均数的比较
1.众数、中位数和平均数的关系
众数:
一组数据分布的最高峰
中位数:
处于一组数据的中间位置的值
平均数:
全部数据的算术平均
对称分布情况:
众数=中位数=平均数
左偏分布情况:
存在较小值,平均数<中位数<众数
右偏分布情况:
存在极大值,众数<中位数<平均数
4.2离散程度的度量
反映各变量值远离中心值的程度。
离散程度越大,集中趋势测度值的代表性越差。
4.2.3数值型数据:
方差和标准差
1.极差(全距)
一组数据的最大值与最小值的差。
3.方差和标准差
方差是各变量值与平均数离差平方的平均数(通过平方消去正负号)。
标准差是方差的平方根。
方差和标准差能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。
4.2.4相对离散程度:
离散系数
离散系数是一组数据的标准差与平均数的比值,是离散程度的相对统计量。
适用于比较不同样本数据的离散程度。
离散系数越大,离散程度越大(正比)。
练习题:
4.1(P94)、4.2(P95)
第六章统计量及其抽样分布
6.4样本均值的分布于中心极限定理
当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值⎺x也服从正态分布,⎺x的数学期望为μ,方差为σ2/n。
即⎺x~N(μ,σ2/n)
中心极限定理:
从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
经验法则是n≥30时算是充分大,满足中心极限定理要求。
关于大样本和小样本:
理论而言,小样本:
样本量固定,不论样本量多少;
大样本:
样本量n→∞
经验做法,大样本:
n≥30
小样本:
n<30
第七章参数估计
7.1.2点估计与区间估计
当置信水平固定时,置信区间的宽度随着样本量的增大而减小。
95%的置信水平是指在用同样方法构造的总体参数的多个区间中,包含该总体参数的区间的比例为95%。
这个概率不是用来描述某个特定区间包含真值的可能性,一个特定的区间总是包含或者绝不包含真值,不存在一会包含,一会不包含的问题。
用概率可以知道在多次抽样得到的区间中大概有多少个包含了参数的真值。
7.1.3评估估计量的标准
①无偏性
无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。
②有效性
较小标准误差的点估计量比其他点估计量相对有效。
③一致性
一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。
第八章假设检验
8.1假设检验的基本问题
假设检验的基本思想:
假设检验推断过程所依据的基本思想是小概率反证法思想。
小概率思想是指发生概率很小的随机事件,在某一次特定的实验中是几乎不可能发生的。
若小概率事件在一次实验中发生了则假设可能错误。
反证法思想是首先对总体参数值提出假设,然后再利用样本提供的信息去验证先前提出的假设是否成立。
如果样本数据不能够充分证明和支持假设,则在一定概率条件下,应该拒绝该假设;
相反,如果样本数据不能够充分证明和支持假设是不成立的,则不能推翻假设成立的合理性和真实性。
8.1.2假设的表达式
原假设假定两个或多个事物之间是等同的或没有关系的,是变量之间无关的陈述。
原假设表示否定的意义。
备择假设假定变量间存在一定的关系。
零假设是变量之间无关的陈述,而研究假设是变量有关系的明确陈述。
在逻辑上与原假设内容完全对立的假设成为备择假设。
原假设与备择假设在逻辑上是互斥的,肯定原假设,则备择假设就必须放弃;
否定原假设,则接受备择假设。
8.1.3两类错误
根据所犯错误的类型,我们分为两种类型:
(举例见教材P188)
第一类:
原假设为真,拒绝真假设,犯此类错误的概率为α,称为α错误或弃真错误。
第二类:
原假设为伪,接受伪假设,犯此类错误的概率为β,称为β错误或取伪错误。
对原假设为真的判断与概率:
(1)拒绝原真假设的概率为α,也称为显著性水平。
(2)接受原真假设,做出正确判断的概率为1-α。
在实践中,由进行假设检验的人设定显著性水平,一般取α为0.05和0.01.通过选择α,控制了犯第一类错误的概率。
在应用中,一般将只控制第一类错误的结社检验称为显著性检验。
许多假设检验的应用都属于这一种类型。
对原假设为伪的判断与概率:
(1)接受原伪假设的概率为β
(2)拒绝原伪假设,做出正确判断的概率为1-β
正确决策与犯错误决策的概率归纳表见表8-1。
我们希望犯这两类错误的概率越小越好。
但是对于特定样本量来说,不能同时做到犯这两类错误的概率都很小。
如果减小α错误(弃真),则犯β错(取伪错误)的概率就增加。
弃真取伪
如果减小β错误(取伪),则犯α错误(弃真错误)的概率就增加。
取伪弃真
8.1.4假设检验的流程
1.提出原始假设和备择假设
2.选择检验统计量
3.确定显著性水平
4.根据数据计算出检验统计量的值
5.得到检验是否显著的结论
假设检验决策的两种方法:
(1)临界值法是利用检验统计量与其临界值进行比较作出决策,根据检验统计量落入的区域作出是否拒绝原假设的决策。
若检验统计量大于临界值,落入拒绝域,则拒绝原假设,反之,则不能拒绝原假设。
以F检验为例。
若F>
Fα,拒绝H0;
若F<
Fα,不拒绝H0
(2)P值法是根据检验统计量的概率P值与显著性水平α,进行比较,以要判定应拒绝原假设还是不应拒绝原假设。
如果P值小于显著性水平α,则拒绝原假设;
如果P值大于显著性水平α,则不能拒绝原假设。
8.1.5利用P值进行决策
P值:
当原假设为真是所得到的样本观察结果或更极端结果出现的概率。
P值决策原理:
得到检验统计量的概率P值后的决策就是要判定应拒绝原假设还是不应拒绝原假设。
如果检验统计量的概率P值小于显著性水平α,则拒绝原假设;
P值越小,拒绝原假设的理由就越充分。
反之,如果检验统计量的概率P值大于显著性水平α,则不应拒绝原假设。
8.2.1检验统计量的确定
检验统计量选择的影响因素:
样本量n、总体标准差
。
1.样本量
在大样本情况下,样本量都服从正态分布,我们使用z统计量。
2.总体标准差
是否已知
(1)总体标准差
已知
样本统计量服从正态分布,采用z统计量。
(2)总体标准差
未知
使用样本标准差代替总体标准差,样本统计量服从t分布,采用t统计量。
当n<30且总体标准差
未知时,采用t统计量;
当n>30时,根据使用者偏好选择z统计量还是t统计量。
一个总体参数检验的检验统计量的确定归纳为图8-7,见教材p195。
8.4.1关于检测结果的解释
通常统计学家建议我们在叙述中采用“不能拒绝H0”而不采用“接受H0”这种说法。
8.4.2单侧检验中假设的建立
在实际应用中,我们通常把希望验证的命题放在备择假设,通过备择假设来确定原假设,即把原有的、传统的观点或结论放在原假设上。
我们需要注意的是:
如果没有拒绝原假设,并不意味着原假设是真实的、真理,也并不意味着备择假设就是错的,只是暂时没有充分的证据证明原假设不成立(如同无罪假设);
接受备择假设则一定意味着原假设是错误的。
关于何谓“原有的、传统的”,原假设,即原有理论、看法、状况、历史经验、以及被大多数人认可的事情,在没有充分证据的情况下,被假定为正确的事情。
关于何谓“新的、可能的”备择假设,即检验者感兴趣的那些新事物、可能的、猜测质疑的问题,希望用事实推翻原假设以得出新观点。
第十章方差分析
10.1.1方差分析及其有关术语
方差分析是比较多个总体的均值是否相等的统计方法,本质上主要是研究一个或多个分类自变量与一个数值型变量之间的关系(即分类自变量对数值型因变量的影响)。
10.1.2方差分析的基本思想和原理
2.误差分解
组内误差:
来自水平内部的数据误差,反映了一个样本内部数据的离散程度。
组内误差只含有随机误差。
(见教材P238)
组间误差:
来自不同水平之间的数据误差,是随机误差和系统误差的总和,反映了不同样本之间数据的离散程度。
在方差分析中,数据的误差是用平方和来表示的。
总平方和(SST):
反映全部数据误差大小的平方和。
教材P239
误差平方和(SSE):
反映组内误差大小的平方和。
因素平方和(SSA):
反映组间误差大小的平方和。
SST=SSE+SSA
10.1.3方差分析中的基本假定
(1)每个总体应服从于正态分布。
(2)各总体的方差必须相同。
(3)观测值是独立的。
10.2.2分析步骤
1.提出假设
2.构造检验的统计量
为构造检验的统计量,在方差分析中,需要计算三个误差平方和。
SSE:
每个组的各样本数据与其组均值的误差平方和,反映了每个样本各观测值的离散程度(随机误差的大小)。
对随机误差大小的度量,反映了除自变量对因变量的影响之外,其他因素对因变量的总影响,也即残差变量。
残差变量所引起的误差成为残差效应。
SSA:
各组均值与总均值的误差平方和,反映各样本均值之间的差异程度。
对随机误差和系统误差大小的测度,反映了自变量对因变量的影响,称为自变量效应或因子效应。
SST:
全部观测值与总均值的误差平方和。
对全部数据总误差程度的度量,反映了自变量和残差变量的共同影响,等于自变量效应与残差效应之和。
总平方和(SST)=组间平方和(SSA)+组内平方和(SSE)
为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度。
计算结果成为均方或方差。
三个平方和所对应的自由度分别为:
SST的自由度为n-1,其中n为全部观测值的个数。
SSA的自由度为k-1,其中k为因素水平的个数。
SSE的自由度为n-k。
SSA的均方也称为组间均方或组间方差,记为MSA,其计算公式:
MSA=SSA/(k-1)
SSE的均方也称为组内均方或组内方差,记为MSE,其计算公式:
MSE=SSE/(n-k)
将上述MSA与MSE进行对比(MSA/MSE),即得到所需要的检验统计量F。
3.统计决策
如果F>Fα,则拒绝原假设,表明各水平的均值有显著差异,也即所检验的因素(行业)对观测值有显著影响。
如果F<Fα,则不能拒绝原假设,没有证据表明各水平的均值有显著差异,也即不能认为所检验的因素(行业)对观测值有显著影响。
在进行决策时,除了使用以上方法进行判断之外,还可以直接利用方差分析表中的P值与显著性水平α的值进行比较。
如果P<α时,则拒绝原假设;
如果P>α时,则不能拒绝原假设。
4.方差分析表
教材P246、P247,表10-4、表10-5,熟练掌握表中各字母及数值的代表意义、利用临界值或P值进行统计决策。
10.7(P263),熟练应用。
第十一章一元线性回归
11.1.1变量间的关系
函数关系:
因变量随着自变量一起变化,并完全依赖于自变量。
一一对应的确定关系。
销售额与销售量
相关关系:
非完全确定关系、一个变量的取值不能由另一个变量唯一确定。
(比如:
家庭储蓄与家庭收入、父母身高与子女身高、教育程度与个人收入、产量与施肥量)。
11.1.2相关关系的描述与测度
相关分析就是对两个变量之间线性关系的描述与度量。
它要解决的问题包括:
(1)变量之间是否存在关系(YES/NO)
(2)存在什么样的关系(What)
(3)关系强度如何?
(4)样本能否代表总体关系
相关系数
相关系数:
根据统计数据计算的度量两个变量之间线性关系强度的统计量。
相关系数的性质:
1.r的取值范围是[-1,1]
若0<r
1,正线性相关;
若-1
r<0,负线性相关;
r=+1,完全正线性相关;
r=-1,完全负线性相关;
=1,y的取值完全意外与x,二者为函数关系;
r=0,无线性相关
2.r具有对称性。
3.r的数值大小与x和y的原点及尺度无关。
4.r仅仅是x与y之间线性关系的度量,不能用于描述非线性关系。
这意味着,当r=0时,只能表示两变量之间不存在线性相关关系,但并不表示变量之间没有任何关系,可能存在曲线相关关系。
5.r是两变量之间线性关系的度量,但是不一定意味着x与y一定有因果关系。
了解相关系数的性质有助于对其实际意义的解释。
根据实际计算出的r取值一般在-1与1之间;
r取值越接近于
1,则说明两变量之间的线性相关越强;
r取值越接近于0,则说明两变量之间的线性关系越弱。
经验法则:
时,可视为高度相关
<0.8时,可视为中度相关
<0.5时,可视为低度相关
<0.3时,可视为不相关
11.2一元线性回归
回归分析主要解决以下几个方面的问题:
(1)从一组样本数据出发,确定变量之间的数学关系式。
(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著,哪些是不显著的。
(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。
11.2.1一元线性回归模型
3.估计的回归方程
11.2.2参数的最小二乘估计
最小二乘估计的思想原理
最小二乘法估计的基本出发点是:
应使每个样本点
与回归线上的对应点
在垂直方向上的利差平方和最小。
最小二乘法是利用样本数据,通过使应变量的观测值y与应变量的估计值
之间的离差平方和达到最小的方法求得
和
的值。
11.2.3回归直线的拟合优度
1.判定系数
判定系数是对估计的回归方程拟合优度的度量。
SST分解为两部分:
SSR和SSE。
SST=SSR+SSE
回归直线拟合的好坏取决于SSR及SSE的大小,或者取决于SSR(回归平方和)占SST(总平方和)的比例(SSR/SST)的大小。
SSR/SST越大,各观测点越靠近直线,回归直线拟合越好。
SSR/SST被称为判定系数。
公式见P261
判定系数R2测度了回归直线对观测数据的拟合程度。
若所有观测点都落在直线上,那么估计的回归方程将给出一个完全的拟合。
在这种情况下,SSE=0,SSR=SST,则R2=1。
若y得变化与x完全无关,x完全无助于解释y的变差,那么估计的回归方程的拟合最差。
在这种情况下,SSE=1,SSR=0,则R2=0。
因此,R2的取值范围是[0,1]。
R2越接近于1,表明SSR占SST的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分也就越多,回归直线的拟合程度就越好;
反之亦然。
相关系数(r)与判定系数(R2)的关系:
r2=R2
根据这个结论,不仅可以由相关系数直接计算判定系数,而且可以进一步理解相关系数的意义。
1.相关系数与回归系数的正负号相同。
2.相关系数一定程度上说明回归直线的拟合优度。
|r|~1,表明回归直线对观测数据的拟合优度就越高。
判定系数的实际意义:
在因变量变差中,有多少是由自变量与因变量之间的线性关系来解释,或在因变量变差中有多少是由自变量所决定的。
11.2.4显著性检验
1.线性关系的检验
线性关系检验是检验自变量x和因变量y之间的线性关系是否显著,或者说。
它们之间能否用一个线性模型y=β0+β1x+ε来表示。
将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著。
方差分析表中关于线性关系显著性检验的结果解释:
在方差分析表中给出了线性关系显著性检验的全部结果(教材P279)。
方差分析表中给出了用于检验的显著性F,即SignificanceF,它是用于检验的P值。
如果Sig.F<α,则拒绝原假设,表明自变量x与因变量y之间有显著性的线性关系;
如果Sig.F>α,则不能拒绝原假设,表明没有证据证实自变量x与因变量y之间有显著性的线性关系。
2.回归系数的检验
检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著。
构造用于检验回归系数β1的统计量t。
参数估计表中关于线性关系显著性检验的结果解释:
在参数估计表中给出了用于检验的P值,检验时可直接将P值与给定的显著性水平α进行比较。
若P<α,则拒绝原假设;
若P>α,则不能拒绝原假设。
在一元线性回归中,等价于线性关系的显著性检验,即F检验和t检验是等价的。
也就是说,如果H0:
β1=0被t检验拒绝,它也将被F检验拒绝。