统计名词解释.docx

资源描述

统计名词解释.docx

《统计名词解释.docx》由会员分享，可在线阅读，更多相关《统计名词解释.docx（32页珍藏版）》请在冰豆网上搜索。

统计名词解释.docx

统计名词解释

统计

第一章

一、心理与教育统计的定义与性质

定义：

在心理与教育研究中，通过调查、实验、测量等手段有意地获取一些数据，并将得到的数据按照统计学的原理和步骤加以整理、计算、绘制图表、分析、判断、推理，最后得到结论的一种研究方法。

性质：

应用统计学.

二、心理与教育科学研究数据的特点

（1）数据与结果多用数字呈现

（2）数据具有一定的随机性和变异性

（3）数据具有一定的规律性

（4）通过部分数据来推测总体的特征

三、心理与教育统计学的内容

1、描述统计（descriptivestastics）主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌，表达一件事物的性质。

包括:

A、数据如何分组、使用统计图表描述一组数据的分布情况;

B、计算一组数据的特征值（集中量数和差异量数）,进而描述一组数据的全貌;

C、表示一事物两种或两种以上属性间的相互关系（相关分析）.

2、推论统计（inferentialstatistics）主要研究如何通过局部数据所提供的信息，推论总体的情形。

包括:

A、如何进行假设检验，如z检验、t检验、卡方检验、F检验、回归分析等;

B、总体参数特征值的估计方法;

C、各种非参数检验的统计方法。

3、实验设计（experimentaldesign）主要目的在于研究如何科学地、经济地以及有效地进行实验，它是统计学近几十年发展起来的一部分内容。

四、心理与教育的基础概念

数据类型

1、从数据的观测方法和来源来划分

计数数据（countdata）是指计算个数的数据，如人口数、学校数、男女数等等.一般取整数形式；

测量数据（measurementdata）是指借用一定的测量工具或具有一定的测量标准而获得的数据，如身高、考试成绩、金钱数额、智力测验等。

2、根据数据的测量水平划分：

称名数据（nominaldata）

顺序数据（ordinaldata）

等距数据（intervaldata）

比率数据（ratiodata）

3、根据数据是否具有连续性划分：

离散数据（discretedata）

连续数据（continuousdata）

五、变量、观测值、随机变量

变量（variables）是指实验、观察、调查中想要获得的数据；

而一旦确定某个值,就称这个值为某一变量的观测值（observation），即为具体的数据；

在统计学中，把取值之前不能预料取到什么值的变量,称之为随机变量。

与变量相反的是常量，它在一定范围内其数值不会随意改变。

六、总体、样本与个体

总体（population）又称母全体、全域，指具体有某种特征的一类事物的全体;

构成总体的每个基本单元称为个体（individual）;

从总体中抽取一部分个体，称之为总体的一个样本（sample）。

七、次数、比率、频率与概率

在一项研究中,我们对随机现象进行观察试验，在一定条件下，本质不同的事物可能出现，也可能不出现,这种事情称为随机事件；

次数是指某一事件在某一类别中出现的数目，又称为频数（frequency），用f表示；

两个数的比例称为比率;

频率又称相对次数，即某一事件发生的次数被总的事件数目除，通常用比例或百分数表示；

概率又称机率、或然率（probability）用p表示，表示一事件在无限的观测中所能预料的相对出现的次数,也就是某一事件在总体中出现的比率，通常用比例表示.

八、参数与统计量

在科学研究中，我们探寻的是关于所有事物的说明和解释.能说明和解释总体特征的那些特性称之为参数（parameter），又称为总体参数;与之相对的是，样本的那些特征值称为统计量（statistics）。

参数是从总体中计算得到；一般是个常量;一般用希腊字母表示；

统计量是从样本中得到；一般随样本的变化而变化，是个变量；一般用英文字母（斜体）表示。

第二章

一、统计图表

统计表和统计图是对数据进行初步整理，以简化的形式加以表现的两种最简单的方式.

统计表具有简明、清晰、准确的特点,数据易于比较分析;统计图具有简明、直观、可视化等特点。

在制定统计图表时首先要完成最基本的两步：

a、数据排序（sortororder）是指按照某种标准，对收集到的杂乱无章的数据按照一定的顺序标准进行排序.

升序（ascending）

降序（descending）

b、统计分组是指根据被研究对象的特征，将所得的数据划分到各个组别中去。

步骤：

1）统计分组前的准备（进一步地核对和校检数据、删除受过失影响数据、删除3个标准差之外的数据）

2）统计分组应注意事项（分组要以被研究对象的本质特性为基础；分类标志要明确，既要包含数据的所有范围，同时分类不能重合）

3）分组的标志（性质类别和数量类别）

二、次数分布表

次数分布（frequencydistribution）显示初步整理后一组数据的分布情况.它主要表示数据在各个分组区间内的散布情况。

简单次数分布表（适用于计数数据）（simplefrequencytable）就是依据每一个分值在一列数据中出现的次数或总计数资料编制成的统计表。

分组次数分布表（重点）（适用于测量数据）当数据量很大时，应该把所有的数据划分若干区间，然后再按数据按其值大小划分到相应的区组内，分别统计各个组别中的个数，再用列表形式呈现出来，就构成了分组次数分布表（groupedfrequencytable）。

具体步骤如下：

A、求全距

全距（range）是指最大值和最小值两个数据之间的差距。

B、决定组距和组数

组距（interval）是指任意一组的起点和终点之间的举例，用符号i表示。

全距除以组距即为组数。

C、列出分组区间

分组区间即一个组的起点值和终点值之间的距离，又叫组限。

起点值称为组下限，终点值称为组上限,组限又可以分为表述组限和精确组限。

D、登记次数

E、计算次数

相对次数分布表

累加次数分布表

双列次数分布表（难点）双列次数分布表又称相关次数分布表，是对有联系的两列变量用同一个表表示其次数分布.

编制双列次数分布表的步骤：

首先按照分组次数分布表的编制方法，分布列出各变量的分组区间，将一列变量的分组区间竖列，将另一列变量为横列；

然后再登记、计数。

三、次数分布图

在次数分布表的基础上,若对分布进行粗略分析、动态趋势、差异细节，获得更为直观印象就要绘制次数分布图.通常使用的主要有：

1、直方图（histogram）也叫等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。

一般用纵轴表示数据的频数,横轴表示数据的等距分组点.

2、次数多边形图（frequencypolygon）是一种连续性随机变量次数分布的线形图。

绘制图时，横坐标是用各分组区间组中值表示的连续变量，纵坐标是数据的频数，连接各点，就成为一条折线。

3、累加次数分布图累加次数分布图可以分为累加直方图和累加曲线。

四、其他常用的统计图表类型

表:

A、简单表B、分组表C、复合表

图：

A、条形图（barcharts）也叫直条图，主要用于表示离散型数据资料，即计数资料。

B、圆形图（circlegraph）又叫饼图（pie）,主要用于描述间断性的资料,目的是为了显示各部分在整体中所占有的比重大小，以及各部分之间的比较。

C、线形图（linegraph）更多用于连续性资料,凡欲研究两个变量之间的函数关系，或描述某种现象在时间上的发展趋势,或一种现象随着另一种现象的变化情形，用线性图表示是最后的方法。

同时还可以在图表中画两条线或多条线，用于比较两组或多组数据资料。

D、散点图（scatterplots），它是用相同大小圆点的多少或疏密表示统计资料数量大小以及变化趋势的图。

第三章

一、集中趋势（centraltendency）和离中趋势（divergencetendency）是次数分布的两个基本特性。

数据的集中趋势是指数据分布中大量数据向某方向集中的程度；

离中趋势是指数据分布中的数据彼此分散的程度。

这两种趋势分别用集中量数（measuresofcentraltendency）和离中量数（measuresofdivergencetendency）来表示。

一）、算术平均数（arithmeticaverage），一般简称平均数或均值（mean）。

1、平均数的计算方法

（1）未分组数据的计算平均数的方法

（2）用估计平均数技术平均数

（3）计算次数分布表中的平均数

2、平均数的特点

1）一组数据中每个变量与平均数之差（离均差）的总和等于0；

2）在一组数据中，每个数据都加上C，则所得的平均数为原来的平均数加上C；

3）在一组数据中,每一个数都乘以一个常数C，所得的平均数为原来的平均数乘以C.

3、平均数的优缺点

优点：

1、反应灵敏；2、计算严密；3、计算简单；4、简明易解;5、适合做进一步的代数运算；6、较少受抽样的影响；

缺点：

1、易受极端数据的影响；2、若出现模糊不清的数据时，无法计算平均数。

4、计算和应用平均数的原则

同质性原则

平均数与个体数值相结合的原则

平均数与标准差、方差相结合的原则

二）、中数（median），又称中点数,符合Md或Mdn,它是指按顺序排列在一起的一族数据中居于中间位置上的数,即在这组数据中，有一半的数据比它大，一半的数据比它小.

中数的优缺点

优点：

计算简单快捷，容易理解，概念简单明白，不受极端值的影响；

缺点：

没有充分利用数据，反应不够灵敏;容易受抽样的影响，不如平均数稳定；不能做进一步的代数运算;

三）、众数（mode）又称范数，密集数，通常数等，用符号Mo表示，它是指在次数分布中出现次数最多的那个数的数值。

1、计算方法

直接观察法

利用公式求

2、意义

众数的概念简单明了，容易理解,但它不稳定，受样本变动的影响，不能进一步做代数运算。

四）、平均数、中数、众数三者之间的关系

在一个正态分布中,平均数、中数、众数三者相等：

M=Md=Mo；

在正偏态数据中，三者之间的关系为：

M>Md>Mo；

在负偏态数据中，三者之间的关系为：

M〈Md〈Mo。

在偏态分布中,平均数用于位于尾端，中数位于中间，众数位于首端，三者之间的关系为：

第四章

差异量数（measuresofdivergencetendency）就是对一组数据的变异性（离中趋势）特点进行度量和描述的统计量。

它反映了次数分布中数据彼此分散的程度。

一、全距

全距（range）又称两极差,用符号R表示，它是说明数据离散程度最简单的统计量.

优点：

计算简便

缺点:

是最粗糙、最不可靠的值，这种差异量数只利用了数据中的极端值，其他数据均未参与运算，因而这种差异量数不可靠、不稳定、也不灵敏,极易受到抽样变动的影响。

二、百分位数与百分位差

百分位数（percentile）又叫百分位点。

它是指量尺上的一个点,在此点以下，包括数据分布中全部数据个数的一定百分比.

由于全距容易受极端数值的影响，因此有人提出取消数据两端10%的数据,即用P10与P90之间的差距作为差异量数，即为百分位差。

1、百分位数的计算

2、百分位数与百分等级

反过来，利用百分位数的计算公式,可以求出任意数值在整个数据分布中所处的百分位置，称之为百分等级（percentilerank）。

3、四分位差

四分位差（quartiledeviation）也可以看做百分位差的一种，通常用Q来表示,指在一次数据分配中，中间50%次数的数据的一半。

也就是P75到P25举例的一半。

4、平均差

平均差（averagedeviation）是次数分布中所有原始数据与平均数绝对离差的平均值，一般用符号A。

D或M。

D表示。

5、方差

方差（variance）也称为变异数、均方，它是用原始数据与平均数的差的平方和.

6、标准差

标准差（standarddeviation）即方差是平方根，用SD或s表示。

7、差异系数

差异系数又称变异系数、相对标准差等，用CV来表示。

8、标准分数

原始量数与其平均数的差数，除以标准差所得的商,称之为标准分数。

又称为Z分数。

第五章

相关系数主要用于描述双变量数据相互之间的关系。

一、事物总是相互联系的，它们之间的关系大致有以下三种情况:

a。

因果关系：

一种现象是另一种现象的原因，而另一种现象是结果。

b。

共变关系:

表面看来有联系的两种事物都与第三种现象有关。

c.相关关系：

两类现象在发展变化的方向与大小方面存在一定的联系,但不是前面两种关系,具有相关关系的两种现象之间的关系是比较复杂的,甚至可能包含有暂时尚未认识的因果关系以及共变关系在内。

二、相关关系与相关分析