统计学复习.docx

资源描述

统计学复习.docx

《统计学复习.docx》由会员分享，可在线阅读，更多相关《统计学复习.docx（15页珍藏版）》请在冰豆网上搜索。

统计学复习.docx

统计学复习

统计学复习知识点

统计是收集、分析、表述、解释数据的科学；

统计方法：

1、描述统计：

研究数据收集、整理和描述的统计学分支；研究如何对现象的数量特征进行计量、观察、概括和表述的理论和方法。

2、推断统计：

利用样本数据推断总体数据。

（参数估计和假设检验）

研究如何科学地由样本去推断总体；如何科学地从总体抽出样本；怎样控制样本对总体的随机误差。

1、统计数据的分类，按照计量尺度、收集方法和时间状况

按计量尺度：

（1）分类数据：

只能归于某一类别的非数字型数据

对事物进行分类的结果，数据表现为类别，用文字来表述

例如，人口按性别分为男、女两类

（2）顺序数据：

只能归于某一有序类别的非数字型数据

对事物类别顺序的测度，数据表现为类别，用文字来表述

例如，产品分为一等品、二等品、三等品、次品等

（3）数值型数据：

按数字尺度测量的观察值

结果表现为具体的数值，对事物的精确测度

例如：

身高为175cm、168cm、183cm

按收集方法：

（1）观测的数据（observationaldata）

通过调查或观测而收集到的数据

在没有对事物人为控制的条件下而得到的

有关社会经济现象的统计数据几乎都是观测数据

（2）试验的数据（experimentaldata）

在试验中控制试验对象而收集到的数据

比如，对一种新药疗效的试验，对一种新的农作物品种的试验等

自然科学领域的数据大多数都为试验数据

按时间状况：

（1）截面数据（cross-sectionaldata）

在相同或近似相同的时间点上收集的数据

描述现象在某一时刻的变化情况

比如，2005年我国各地区的国内生产总值数据

（2）时间序列数据（timeseriesdata）

在不同时间上收集到的数据

描述现象随时间变化的情况

比如，2000年至2005年国内生产总值数据

2、参数与统计量的联系与区别

参数（parameter）

描述总体特征的概括性数字度量，是研究者想要了解的总体的某种特征值

所关心的参数主要有总体均值（）、标准差（）、总体比例（）等

总体参数通常用希腊字母表示

统计量（statistic）

用来描述样本特征的概括性数字度量，它是根据样本数据计算出来的一些量，是样本的函数

所关心的样本统计量有样本均值（x）、样本标准差（s）、样本比例（p）等

样本统计量通常用小写英文字母来表示

3、系统的内部数据、外部数据指的是什么

系统外部的数据：

（1）统计部门和政府部门公布的有关资料，如各类统计年鉴

（2）各类经济信息中心、信息咨询机构、专业调查机构等提供的数据

（3）各类专业期刊、报纸、书籍所提供的资料

（4）各种会议，如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料

（5）从互联网或图书馆查阅到的相关资料

系统内部的数据：

（1）业务资料，如与业务经营活动有关的各种单据，记录

（2）经营活动过程中的各种统计报表

（3）各种财务，会计核算和分析资料等

4、二手数据

审核的主要内容：

适用性和时效性

评估：

谁搜集的；为什么搜集的；怎样搜集的；什么时候搜集的。

4、统计数据的来源有哪些？

数据的间接来源：

系统外部和系统内部

数据的直接来源（原始数据）：

调查数据和实验数据

5、概率抽样和非概率抽样的方法有哪些？

两者的不同点在哪？

概率抽样（简单随机抽样、整群抽样、多阶段抽样、分层抽样和系统抽样）

非概率抽样（方便抽样、自愿抽样、配额抽样、判断抽样、滚雪球抽样）

概率抽样

（1）依据随机原则抽选样本

（2）样本统计量的理论分布存在

（3）可根据调查的结果推断总体

非概率抽样

（1）不是依据随机原则抽选样本

（2）样本统计量的分布是不确定的

（3）无法使用样本的结果推断总体

6、非抽样误差有哪些？

有抽样框误差、回答误差、无回答误差、调查员误差、测量误差

7、抽样误差的原因是什么？

影响抽样误差大小的因素是什么？

由于抽样的随机性所带来的误差

所有样本可能的结果与总体真值之间的平均性差异

影响抽样误差的大小的因素：

样本量的大小和总体的变异性

抽样误差可计算和控制。

8、如何确定组距，如何对数据进行分组？

9、什么是茎叶图？

树茎和树叶分别表示什么？

10、箱线图有哪5个特征值表示？

最小值、下四分位数、中位数、上四分位数、最大值

主要展示分组的数值型数据的分布（错的）。

11、集中趋势的度量指标有哪些？

各自的计算公式、特点及相互比较（适合描述哪种类型的数据、是否受极端值影响等）、平均数的性质

众数（mode）：

一组数据中出现次数最多的变量值

适合于数据量较多时使用

不受极端值的影响

一组数据可能没有众数或有几个众数

主要用于分类数据，也可用于顺序数据和数值型数据

中位数（median）：

排序后处于中间位置上的值

不受极端值的影响

主要用于顺序数据，也可用数值型数据，但不能用于分类数据

位置确定：

先排序后计算。

四分位数（quartile）：

排序后处于25%和75%位置上的值

不受极端值的影响

主要用于顺序数据，也可用于数值型数据，但不能用于分类数据

平均数：

也称为均值，一组数据相加后除以数据的个数得到的结果

集中趋势的最常用测度值，一组数据的均衡点所在，体现了数据的必然性特征。

易受极端值的影响，有简单平均数和加权平均数之分。

低层次数据的测度值适用于高层次的测量数据，但高层次的不适用于低层次。

12、左、右偏和对称分布中均值、中位数、众数的关系

左偏:

均值<中位数<众数对称：

三者相等右偏：

众数>中位数>均值

13、离散趋势的度量指标有哪些？

分别如何计算？

各自的性质？

异众比率（variationratio）：

对分类数据离散程度的测度

定义：

非众数组的频数占总频数的比例

计算公式为

用于衡量众数的代表性

四分位差（quartiledeviation）：

对顺序数据离散程度的测度

上四分位数与下四分位数之差Qd=QU–QL

反映了中间50%数据的离散程度

不受极端值的影响，没有充分利用原始数据

用于衡量中位数的代表性

极差也称全距，一组数据的最大值与最小值之差，表明总体中数据变动的范围

计算公式为R=max（xi）-min（xi）

平均差也称平均绝对离差，各变量值与其平均数离差绝对值的平均数

离散系数（coefficientofvariation）：

标准差与其相应的均值之比，对数据相对离散程度的测度，消除了数据水平高低和计量单位的影响，用于对不同组别数据离散程度的比较。

14、样本标准差、方差、标准分数的计算公式，标准分数的性质

标准分数（standardscore）：

也称标准化值，变量值与其平均数离差除以标准差后的值，可用于判断一组数据是否有离群点（outlier，用于对变量的标准化处理

15、经验法则和切比雪夫不等式

经验法则表明：

当一组数据对称分布时

约有68%的数据在平均数加减1个标准差的范围之内

约有95%的数据在平均数加减2个标准差的范围之内

约有99%的数据在平均数加减3个标准差的范围之内

切比雪夫不等式

（Chebyshev’sinequality）

如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫不等式，它对任何分布形状的数据都适用

切比雪夫不等式提供的是“下界”，也就是“所占比例至少是多少”

对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在k个标准差之内。

其中k是大于1的任意值，但不一定是整数

对于k=2，3，4，该不等式的含义是

至少有75%的数据落在平均数加减2个标准差的范围之内

至少有89%的数据落在平均数加减3个标准差的范围之内

至少有94%的数据落在平均数加减4个标准差的范围之内

16、离散系数、偏度、峰度的计算公式

17、偏度、峰度系数的意义

偏态（skewness）：

数据分布偏斜程度的测度

偏态系数=0为对称分布，偏态系数>0为右偏分布，偏态系数<0为左偏分布

偏态系数大于1或小于-1，被称为高度偏态分布；偏态系数在0.5～1或-0.5～-1之间，被认为是中等偏态分布；偏态系数越接近0，偏斜程度就越低

峰态（kurtosis）：

数据分布扁平程度的测度

峰态系数=0扁平峰度适中，峰态系数<0为扁平分布，峰态系数>0为尖峰分布

18、评估估计量的标准

无偏性、有效性、一致性

19、一个总体均值的区间估计

大样本：

小样本：

20、假设检验中的小概率原理是什么，依据是什么

什么小概率？

1.在一次试验中，一个几乎不可能发生的事件发生的概率

2.在一次试验中小概率事件一旦发生，我们就有理由拒绝原假设

3.小概率由研究者事先确定

21、假设检验的步骤

假设检验的步骤

1提出假设2确定适当的检验统计量3规定显著性水平4作出统计决策

22、如何确定原假设与备择假设

原假设：

待检验的假设，又称“0假设”，研究者想收集证据予以反对的假设

总是有等号，表示为H0

备择假设，与原假设对立的假设，也称“研究假设”，研究者想收集证据予以支持的假设总是有不等号，表示为H1

23、什么是显著性水平

是一个概率值，原假设为真时，拒绝原假设的概率，由研究者事先确定

24、假设检验中的两类错误、两者关系、如何控制

1.第一类错误（弃真错误）

原假设为真时拒绝原假设，会产生一系列后果

第一类错误的概率为，被称为显著性水平

2.第二类错误（取伪错误）

原假设为假时接受原假设，第二类错误的概率为（Beta）

25、一个总体的参数的假设检验

26、参数估计与假设检验的关系

区别：

1参数估计是根据样本资料估计总体参数的真值

假设检验是根据样本资料来检验对总体参数的先验假设是否成立

2区间估计通常求得的是以样本估计值为中心的双侧置信区间

假设检验不仅有双侧检验也有单侧检验

3区间估计立足于大概率，通常以较大的把握程度（可信度）1-去估计总体参数的置信区间。

假设检验是立足于小概率，通常以很小的显著水平去检验对总体参数的先验假设是否成立

联系

根据样本信息对总体参数进行推断；以抽样分布为理论依据；

建立在概率基础上的推断；推断结果都有一定的可信程度或风险；

对同一问题的参数进行推断，使用同一样本，同一统计量，同一分布，两者可转换。

27、什么是方差分析？

1、检验多个总体均值是否相等

通过分析数据的误差判断各总体均值是否相等

2、研究分类型自变量对数值型因变量的影响

一个或多个分类型自变量

两个或多个（k个）处理水平或分类

一个数值型因变量

3、有单因素方差分析和双因素方差分析

单因素方差分析：

涉及一个分类的自变量

双因素方差分析：

涉及两个分类的自变量

方差分析中的有关术语：

因素或因子（factor）：

所要检验的对象

水平或处理（treatment）：

因子的不同表现

观察值：

在每个因素水平下得到的样本数据

总体：

因素的每一个水平可以看作是一个总体

28、方差分析的基本原理？

两类误差？

（1）、组内误差：

因素的同一水平（总体）下，样本各观察值之间的差异

这种差异可以看成是随机因素的影响，称为随机误差

（2）组间误差：

因素的不同水平（不同总体）之间观察值的差异

这种差异可能是由于抽样的随机性所造成的，也可能是由于行业本身所造成的，后者所形成的误差是由系统性因素造成的，称为系统误差

组内误差-----随机误差

组间误差-----随机误差和系统误差

如果不同水平对结果没有影响，那么在组间误差中只存在随机误差，而没有系统误差。

这时，组间和组内误差经过平均后的数值（均方或方差）就应该很接近，比值会接近1。

不然，组间均方会大于组内均方，它们之间的比值就会大于1

29、方差分析的基本假定（条件）

（1）、每个总体都应服从正态分布

对于因素的每一个水平，其观察值是来自服从正态分布总体的简单随机样本

（2）、各个总体的方差必须相同

各组观察数据是从具有相同方差的总体中抽取的

（3）、观察值是独立的

30、方差分析的备择假设意义

设因素有k个水平，每个水平的均值分别用1,2,,k表示

要检验k个水平（总体）的均值是否相等，需要提出如下假设：

H0：

12…k

H1：

1,2,，k不全相等

31、总离差平方和（SST）、误差项离差平方和（SSE）、水平项离差平方和（SSA）之间的关系

SST=SSA+SSE

32、相关系数的计算及意义

r的取值范围是[-1,1]

|r|=1，为完全相关，r=1，为完全正相关，r=-1，为完全负正相关

r=0，不存在线性相关关系相关，

-1

|r|越趋于1表示关系越密切；|r|越趋于0表示关系越不密切

33、什么是回归分析？

回归分析与相关分析的区别

从一组样本数据出发，确定变量之间的数学关系式

对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著

利用所求的关系式，根据一个或几个变量的取值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确程度

区别：

（1）相关分析中，变量x变量y处于平等的地位；回归分析中，变量y称为因变量，处在被解释的地位，x称为自变量，用于预测因变量的变化

（2）相关分析中所涉及的变量x和y都是随机变量；回归分析中，因变量y是随机变量，自变量x可以是随机变量，也可以是非随机的确定变量

（3）相关分析主要是描述两个变量之间线性关系的密切程度；回归分析不仅可以揭示变量x对变量y的影响大小，还可以由回归方程进行预测和控制

34、线性回归模型的意义

描述因变量y如何依赖于自变量x和误差项的方程称为回归模型

一元线性回归模型可表示为

y=b0+b1x+e

y是x的线性函数（部分）加上误差项

线性部分反映了由于x的变化而引起的y的变化

误差项是随机变量

反映了除x和y之间的线性关系之外的随机因素对y的影响

是不能由x和y之间的线性关系所解释的变异性

35、一元线性回归模型的基本假定

误差项ε是一个期望值为0的随机变量，即E（ε）=0。

对于一个给定的x值，y的期望值为E（y）=0+1x

对于所有的x值，ε的方差σ2都相同

误差项ε是一个服从正态分布的随机变量，且相互独立。

即ε~N（0,σ2）

独立性意味着对于一个特定的x值，它所对应的ε与其他x值所对应的ε不相关

对于一个特定的x值，它所对应的y值与其他x所对应的y值也不相关

36、回归方程中系数的意义

0是回归直线在y轴上的截距，是当x=0时y的期望值

1是直线的斜率，称为回归系数，表示当x每变动一个单位时，y的平均变动值

37、什么是最小二乘法？

总离差平方和、回归平方和、残差平方和的关系及各自意义。

最小二乘法：

使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。

即

总平方和（SST）：

反映因变量的n个观察值与其均值的总离差

回归平方和（SSR）：

反映自变量x的变化对因变量y取值变化的影响，或者说，是由于x与y之间的线性关系引起的y的取值变化，也称为可解释的平方和

残差平方和（SSE）：

反映除x以外的其他因素对y取值的影响，也称为不可解释的平方和或剩余平方和

SST=SSR+SSE

38、一元线性回归方程参数的估计公式、判定系数

39、影响回归方程区间估计的因素有哪些？

（1）置信水平（1-）区间宽度随置信水平的增大而增大

（2）、数据的离散程度（s）区间宽度随离散程度的增大而增大

（3）、样本容量：

区间宽度随样本容量的增大而减小

（4）、用于预测的xp与x的差异程度：

区间宽度随xp与x的差异程度的增大而增大

40、多元回归模型中变量系数的意义

b1，b2，，bp称为偏回归系数

bi表示假定其他变量不变，当xi每变动一个单位时，y的平均平均变动值

41、正交试验设计正交表记号及含义（等水平、混合水平）、正交表的特点

（1）、正交表中任意一列中，不同的数字出现的次数相等；

表示：

在试验安排中，所挑选出来的水平组合是均匀分布的（每个因素的各水平出现的次数相同）——均衡分散性

（2）、正交表中任意两列，把同行的两个数字看成有序数对时，所有可能的数对出现的次数相同。

表示：

任意两因素的各种水平的搭配在所选试验中出现的次数相等——整齐可比性

42、正交实验设计的基本步骤。

（1）确定目标、选定因素（包括交互作用）、确定水平；

（2）选用合适的正交表；

（3）.按选定的正交表设计表头，确定试验方案；

（4）组织实施试验；

（5）试验结果分析。

43、正交试验设计结果的极差分析法和方差分析法原理。

极差分析法

（1）、计算极差，确定因素的主次顺序

第j列的极差

极差越大，说明这个因素的水平改变对试验结果的

影响越大，极差最大的那个因素，就是最主要的因素。

（2）确定最优方案

如果不考虑交互作用，则根据各因素在各水平下的总产量或平均产量的高低确定最优方案；如果考虑交互作用，则取各种搭配下产量的平均数，按优化标准确定最优方案。

方差分析法

基本思想与双因素方差分析方法一致：

将总的离差平方和分解成各因素及各交互作用的离差平方和，构造F统计量，对各因素是否对试验指标具有显著影响，作F检验。

展开阅读全文