应用统计学概念整理.docx

资源描述

应用统计学概念整理.docx

《应用统计学概念整理.docx》由会员分享，可在线阅读，更多相关《应用统计学概念整理.docx（14页珍藏版）》请在冰豆网上搜索。

应用统计学概念整理.docx

应用统计学概念整理

第一章：

导论

1.只能归类于某一类别的非数字型数据称为分类数据

2.只能归于某一有序类别的非数字型数据称为顺序数据

3.按数字尺度测量的观测值称为数值型数据

4.包含所研究的全部个体的集合称为总体

5.从总体中抽取的一部分的元素的集合称为样本

6.用来描述总体特征的的概括性数字度量称为参数

7.用来描述样本特征的概括性数字度量称为统计量

8.说明事物类别的一个名称称为分类变量

9.说明事物有序类别的一个名称称为顺序变量

10.说明事物数字特征的一个名称称为数值型变量

11.只能取可数值的变量称为离散型变量

12.可以在一个或多个区间中取任何值的变量称为连续型变量

第二章：

数据收集

并根据样本调查结果来推断总体特征

自下而上地逐级提供基本数据的调查方

从总体中随机抽取一部分单位作为样本进行调查，的数据收集方法，称为抽样调查。

2.为特定目的而专门组织的全面调查称为普查

3.按照国家有关法律规定，自上而下地统一布置，式称为统计报表

第三章：

数据的图表展示

1.落在某一特定类别或组中的数据个数，称为频数

2.把各个类别及其落在其中的相应频数全部列出，并用表格形式表示出来，称为频数分布

3.一个样本或总体中各个部分的数据与全部数据之比，称为比例

4.将比例乘以100得到的数值，称为百分比或百分数，用%表示

5.样本或总体中各不同类别数值之间的比值，称为比率

6.分类数据的图示：

条形图，pareto图，对比条形图，饼图

7.将各有序类别或组的频数逐级累加起来得到的频数称为累计频数

8.将各有序类别或组的百分比逐级累加起来称为累计频率

9.顺序数据的图示：

累计频数分布图，环形图

10.根据统计研究的需要，将原始数据按照某种标准划分成不同的组别称为数据分组

11.分组后的数据称为分组数据

12.把变量值作为一组称为单变量值分组

13.将全部变量值一次划分为若干个区间，并将这一区间的变量值作为一组，称为组距分组

14.在组距分组中，一个组的最小值称为下限，最大值称为上限

15.一个组的上限与下限的差称为组距

16.各组组距相等的组距分组称为等距分组

17.各组组距不相等的组距分组称为不等距分组

18.每一组的下限和上限之间的重点值称为组中值

19.用矩形的宽度和高度即面积来表示频数分布的图形称为直方图

20.由茎和叶两部分组成的，反应原始数据分布的图形称为茎叶图

21.由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的，反应原

始数据分布的图形，称为箱线图

第四章：

数据的概括性度量

1.一组数据向其中心值靠拢的倾向和程度称为集中趋势

2.测度集中趋势就是寻找数据水平的代表值或中心值

3.不同类型的数据用不同的集中趋势测度值

4.低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层

次的测量数据

5.层次由低到高：

分类-顺序-数值型

6.一组数据中出现频数最多的变量值，称为众数

7.一组数据排序后处于中间位置上的变量值称为中位数

8.一组数据排序后处于中间位置上的变量值，称为中位数

9.一组数据排序后处于25唏口75%位置上的值称为四分位数

10.一组数据相加后除以数据的个数而得到的结果，称为平均数

11.N个变量值乘积的n次平方根，称为几何平均数

12.数据分布的另一个重要特征

13.离中趋势反映各变量值远离其中心值的程度（离散程度）

14.从另一个侧面说明了集中趋势测度值的代表程度

15.不同类型的数据有不同的离散程度测度值

16.非众数组的频数占总频数的比率，称为异众比率

17.上四分位数与下四分位数之差，称为四分位差，也称为内距或四分间距

18.一组数据的最大值与最小值只差称为极差，用R表示

19.各变量值与其平均数离差绝对值的平均数，称为平均差，叶也称为平均绝对离差

20.各变量值与其平均数离差平方的平均数称为方差

21.方差的平方根称为标准差

22.变量值与其平均数的离差除以标准差后的值，称为标准分数，也成为标准化值或z分数

23.对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在平均数加

减k个标准差之内。

其中k是大于1的任意值，但不一定是整数

24.一组数据的标准差与其相应的平均数之比，称为离散系数

25.数据分布的不对称性称为偏态

26.对数据分布不对称性的度量值，称为偏态系数

27.数据分布的平峰或尖峰程度，称为峰态

28.对数据分布峰态的度量值称为峰态系数，记做K

第五章：

概率与概率分布

1.对一个或多个试验对象进行一次观察或测量的过程，称为一次试验

2.试验的结果称为事件

3.不能被分解为其他事件组合的基本事件，称为简单事件

4.随机事件（randomevent）:

每次试验可能出现也可能不出现的事件

5.必然事件（certainevent）

6.不可能事件（impossibleevent）:

每次试验…定不出现的事件：

用表示

7.一项试验所有可能结果的集合称为样本空间

8.事件A的概率是对事件A在试验中出现的可能性大小的一种度量，介于0和1之间的一

个值

9.在试验中，两个事件有一个发生时另一个就不能发生，称这两个事件为互斥事件

10.非负性：

对任意事件A,有0P（A）1

11.规范性：

必然事件的概率为1;不可能事件的概率为0。

即P（）=1；P（）=

12.可加性：

若A与B互斥，则P（AUB）=P（A）+P（B），推广到多个两两互斥

事件A1,A2,…，An,有P（A1UA2U…UAn）=P（A1）+P（A2）+…+P（An）

13.A发生或者B发生的事件，称为A与B的并

14.在事件B已经发生的条件下，求事件A发生的概率，称这种概率为事件B发生条件下事

件A发生的条件概率，记为

15.一个事件的发生与否并不影响另一个事件发生的概率，则称两个事件独立

16.某次试验结果的数值型描述，称为随机变量

17.只能取有限个或可数个值的随机变量，称为离散型随机变量

18.可以去一个或多个区间中任何值的随机变量称为连续型随机变量

19.离散型随机变量的概率分布：

列出离散型随机变量X的所有可能取值，列出随机变量取这些值的概率，通常表格来表示

20.离散型随机变量的数学期望：

在离散型随机变量X的一切可能取值的完备组中，各可能

取值xi与其取相对应的概率pi乘积之和，描述离散型随机变量取值的集中程度，计算

公式为：

E（X）XiPi（X取有限个值）

藝

E（VXiPi（X取无穷个值）

日

21.离散型随机变量的方差：

随机变量X的每一个取值与期望值的离差平方和的数学期望，记为QX），描述离散型随机变量取值的分散程度，计算公式为

-占竺

若X是离散型随机变量"则

◎©0=乞[花—西Q0「斡

二项分布：

进行n次重复试验，出现"成功”的次数的概率分布称为二项分布，设X为n次重复试验中事件A出现的次数，X取x的概率为

p{X=x}=C；/qi（x=OJA・“）

兀!

（刀一芳）！

22.泊松分布：

用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出

现次数的分布

P[X二x"代“（X三01,2，…,n）x!

—给定的时间间隔、长度、面积、体积内“成功”的平均数

e=2.71828

x—给定的时间间隔、长度、面积、体积内“成功”的次数

23.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分

布

（1）f（x）=0

-沖呦

f（xg1

面积、体积之内每一事件出现次数的分

用于描述在一指定时间范围内或在一定的长度、

布

（七）

F（x）-P（X"）寸f（t）dt

J一蓟

第六章：

抽样与抽样分布

抽样方式

概率抽样非概率抽样

简单随机抽样

\—1

分层抽样

方便抽样

判断抽样

整群抽样

系统抽样

自愿样本

滚雪球抽样

多阶段抽样1

配额抽样1

1.简单随机抽样：

从总体N个单位中随机地抽取n个单位作为样本，使得每一个容量为n样本都有相同的机会（概率）被抽中

2.系统抽样：

将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其他样本单位

3.分层抽样：

将总体单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、

随机地抽取样本

4.整群抽样：

将总体中若干个单位合并为组（群），抽样时直接抽取群，然后对中选群中的所有单位全部实施调查

5.多阶段抽样：

先抽取群，但并不是调查群内的所有单位，而是再进行一步抽样，从选中

的群中抽取出若干个单位进行调查

6.总体分布：

总体中各元素的观测值所形成的相对频数分布，称为总体分布

7.从总体中抽取一个容量为n的样本由这n个观测值形成的相对频数分布，称为样本分布

8.某个样本统计量的抽样分布，从理论上来说就是在重复选取容量为n的样本使，由该统

计量的所有可能取值形成的相对频数分布

9.样本均值的抽样分布：

在重复选取容量为n的样本时，由样本均值的所有可能取值形成

的相对频数分布

10.当总体服从正态分布N口，d2）时，来自该总体的所有容量为n的样本的均值_x也服从

正态分布，的数学期望为口，方差为d2/n。

即"~x〜N口，厅2/n）

11.中心极限定理：

从均值为」，方差为；「2的一个任意总体中抽取容量为n的样本，当n

正态分布

样本均值

正态分布

12.

充分大时，样本均值的抽样分布近似服从均值为口，方差为d2/n的正态分布

非正态分布

大样本]小样本

样本均值|样本均值正态分布非正态分布

13.样本统计量的抽样分布的标准差，称为统计量的标准误，也称为标准误差

14.当计算标准误时涉及的总体参数未知时，用样本统计量代替计算的标准误，称为估计的

标准误

15.在重复选取容量为n的样本时，由样本比例的所有可能取值形成的相对频数分布，称为

样本比例的抽样分布

16.在重复选取容量为n的样本时，由样本方差的所有可能取值形成的相对频数分布，称为

样本方差的抽样分布

17.在两个总体中，分别独立地抽取容量为n1和n2的样本，在重复选取容量为n1和n2

的样本时，由两个样本均值之差的所有可能取值形成的相对频数分布，称为两个样本均

值的抽样分布

18.在两个服从二项分布总体中，分别独立地抽取容量为n1和n2的样本，在重复选取容量

为n1和n2的样本时，由两个样本比例之差的所有可能取值形成的相对频数分布，称为

两个样本比例的抽样分布

19.在两个正态总体中，分别独立地抽取容量为n1和n2的样本，在重复选取容量为n1和

n2的样本时，由两个样本方差比的所有可能取值形成的相对频数分布，称为两个样本

方差比的抽样分布

第七章：

参数估计的一般问题

统计方法

1.…计从心

2.估计量：

用于估计总体参数的随机变量

矩估计祛

一顺序统计摧法

=戯丸似然祛厳杰二乘祛

3.点估计：

用样本的估计量的某个取值直接作为总体参数的估计值

4.区间估计：

在点估计的基础上，给出总体参数估计的一个区间范围，该区间由样本统计量加减估计误差而得到

5.置信水平：

将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信水平

6.将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称

为置信水平

7.无偏性：

估计量抽样分布的数学期望等于被估计的总体参数

8.有效性：

对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效

9.一致性：

随着样本容量的增大，估计量的值越来越接近被估计的总体参数

10.当用原始数据构建置信区间时，置信区间的计算结果应保留的小数点位数要比原始数

据中使用的小数点多一位

11.单个总体参数的区间估计

第八章：

假设检验

1.对总体参数的具体数值所作的陈述称为假设或称为统计假设

2.先对总体参数提出某种假设，然后利用样本信息判断假设是否成立的过程，称为假设检

验

3.通常将研究者想收集证据给予支持的假设称为备择假设，或称为研究假设

4.通常将研究者想收集证据给予反对的假设称为原假设，或称为研究零假设

5.备择假设没有特定的方向性，并含有符号“不等于”的假设检验，称为双侧检验或双尾

检验

6.备择假设具有特定的方向性，并含有符号“>”或的假设检验，称为单侧检验或单

尾检验

7.备择假设的方向为"<”称为左侧检验备择假设的方向为">”称为右侧检验

假设

双侧检验

单侧检验

左侧检验

右侧检验

原假设

Hf）:

m=m0

Ho:

m>m0

Ho:

备择假设

H1:

m^m0

H1:

m>m0

9.第I类错误（弃真错误）原假设为正确时拒绝原假设，第类错误的槪率记为被探为显著性水平

10.2.第n类错误（取伪错误），原假设为错误时未拒绝原假设，第n类错误的概率记为

（Beta）

11.检验统计量：

根据样本观测结果计算得到的，并据以对原假设和备择假设作出决策的某

个样本统计量

拒绝％

13.

t给定显著性水平#査表得出相应的临界

2.将检验统计量的值与a水平的临界值进行比较

3.作出决策

■双侧检验二I统计鼠Ia临界值，拒绝

u左侧检验：

统计量<・临界值.拒绝Hq

U右侧检验］统计景>临界值•拒绝地

14.

15.能够拒绝原假设的检验统计量的所有可能取值的集合称为拒绝域

16.根据给定的显著性水平确定的拒绝域的边界值，称为临界值

17.P值：

如果原假设为真，所得到的样本结果会像实际观测结果那么极端或更极端的概率

a12

拒绝汕

临界值

决策规则：

若p值＜a,拒绝H0

19.一个总体参数的检验

总体均值的检验

两个总体参数的检验

章末总结

展开阅读全文