张敏强版《教育和心理统计学》1到3章读书笔记.docx

资源描述

张敏强版《教育和心理统计学》1到3章读书笔记.docx

《张敏强版《教育和心理统计学》1到3章读书笔记.docx》由会员分享，可在线阅读，更多相关《张敏强版《教育和心理统计学》1到3章读书笔记.docx（21页珍藏版）》请在冰豆网上搜索。

张敏强版《教育和心理统计学》1到3章读书笔记.docx

张敏强版《教育和心理统计学》1到3章读书笔记

《绪论》

1.什么是教育与心理统计学

教育与心理统计学是应用统计学的一个分支，是数理统计学与教育学、心理学的一门交叉学科，它把统计学的理论方法应用于教育实际工作和各种心理实验、心理测验等科学研究中，通过对所得数据的分析和处理，达到更为准确地掌握情况、探索规律、制订方案、目的，为教育与心理的科学研究提供了一种科学的方法。

2.教育与心理统计学的基本内容及本书体系。

1）描述统计学：

这一部分主要是研究和简缩数据和描述这些数据。

例如：

计算平均数、中位数、众数等，以这些参数来反映观测数据的集中趋势。

计算标准差、方差等，以这些参数来反映观测数据的离散趋势。

描述统计学主要是描述事务的典型性、波动范围以及相互关系，提示事物的内部规律。

2）推断统计学：

这部分内容主要是研究如何利用数据去作出决策的方法。

推断统计学则是一种依据部份数剧去推论全体的一种科学方法，它是进行教育与心理实验、对教育与心理研究或实验作出预测和规划的有力工具。

推断统计学的主要内容有：

统计检验、统计分析和非参数统计法。

3）多元统计分析：

这部分内容主要是研究超过两个因素的教育与心理的研究和实验。

多元统计分析的主要任务就是寻找出主要的因素，相近或相关的因素合并或归类。

多元统计分析的主要内容有：

主成分分析、因素分析、聚类分析、多元方差分析、多元回归分析等。

3.教育与心理统计学的昨天、今天和明天

1）与心理统计学的昨天：

1904年美国人桑代克写的《心理与社会测量导论》

2）教育与心理统计学的今天：

叶佩华主编的《教育统计学》，张厚粲主编的《心理与教育统计》等。

4.预备知识

1）概念与术语

<1>随机变量：

教育与心理实验或观测，在相同的条件下，其结果可能不止一个，同实验或观测所得到的数据，事先无法确定，这类现象称为随机现象。

因为可以用数字来表现，则称这些数字为随机变量。

它的特点是：

离散性、变异性和规律性。

依其性质可分为：

称名变量、顺序变量、等距变量、比率变量四种

称名变量：

用于说明一事物与其它事物在属性上的不同或类别上的差异，但不说明事物与事物之间差异的大小。

顺序变量：

指可以按事物的某一属性，把它们按多少或大小顺序加以排列的变量。

等距变量：

指变量之间具有相等的距离。

它除了有量的大小外，还具有相等的单位。

比率变量：

除了有量的大小、相等单位之外，还有绝对零点。

变量依其相互关系可分为自变量（一般将相互关系中作为原因的称为自变量）与因变量（作为结果的称为因变量）。

函数关系式y=f（x）表示，y为因变量，x为自变量。

<2>总体、样本、个体

总体是指具有某一种特征的一类事物的全体。

个体是指构成总体的每一个基本元素。

样本是在总体中按一定规则抽取的一部分个体，称为总体的一个样本。

2）常用的符号与计算

<1>连加号及运算法则

∑表示连加符号，同时表示想加的观测数值共有n个，这些数值的下标编号i从1起至n止。

运算法则如下：

①若c是一个常数，而xi是观测变量，则常与变量的乘积的连加和等于变量连加和与常数的乘积。

②设c是一个常数，则连加和等于nc.

③若xI和yi都是变量，则变量和的连加和等于各个变量连加和的和。

<2>几个常用符号。

①变量一般以大写英文字母表示，而变量中的元素则以小写英文字母表示。

②变量平均数、变量标准差、方差，一般都用大写英文字母表示。

第1章

第1节次数分布表与图（适用于描述一元连续变量的观测数据）

1.次数分布及其表达方式概述

次数分布指的是一批数据中各个不同数值所出现的次数情况，或者是指一批数据在量各等距区组所出现的次数情况。

次数分布表：

我们通常是对数据进行分组归类，考察这批数据在量尺上各等距区内的次数分布情况，并把这种情况用规范的表格形式加以体现，这就是次数分布表，若用图形来表达，那就叫做次数分布图。

2.次数分布表的编制

1）简单次数分布表

简单次数分布表，通常简称为次数分布表，其实质是反映一批数据在各等距区组内的次数分布结构。

其编制的主要步骤为：

①求全距，字母R表示。

全距等于最大值减最小值，公式为：

R=Max-Min

②定组数，字母K表示。

把整批数据划分为多少个等距的区组。

公式：

K=1.87（N-1）2/5

③定组距，字母i表示。

I=R/K

④写出组限。

（表述组限与实际两个不同的概念，但它们之间有规律性的联系；当各相邻组的组限已经相互承接而没有间断时，便认为已把表述的组限与实际的组限统一起来，且不管这里表述的实下限与实上限是整数还是小数；按照本书上述规定的组限表述方法即可形成规范的组限表述方式，并与其他学科中的区间表达方法统一起来。

⑤求组中值。

组中值=（组实上限+组实下限）/2.

⑥归类划记

⑦登记次数

3.次数分布图的绘制

次数分布图有次数直方图和次数多边图两种表达方式。

1）次数直方图（是由若干宽度、高度不一的直方条紧密排列在同一基线上构成的图形）

绘制步骤：

①以细线条标出横轴和纵轴（取正半轴即可），使其垂直相交；

②每一直方条的宽度由组距i确定并已体现在横轴的等距刻度上；

③在直方图横轴下边标上图的编号和图的题目，并检查一下图形结构的完整性。

2）次数多边图（利用闭合的折线构成多边形以反映次数变化情况的一种图示方法）

3）相对次数直方图与多边图

4）累积次数分布图

（有直方图式和曲线图式两种，曲线图式常用，它是根据累积次数分布或累积相对次数分布制作而成。

）

5）累积相对次数曲线图与累积百分数曲线图

第2节几种常用的统计分析图（散点图、折线图、条形图和圆形图）

1.散点图（适合于描述二元变量的观测数据）

散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。

绘制散点图注意：

①在平面直角坐标系中，横轴一般代表自变量，纵轴一般代表因变量；横轴既可作为连续性变量的量尺，也可作为离散性变量的量尺，但纵轴一般均代表连续变量的量尺；②点的描绘依二元观测数据而定，但在具体描绘时应注意用细线画坐标轴，用稍粗黑点描绘各个坐标点，点位置的确定按平面解析几何学中的方法；③注意图形的调和比例和必要的图注说明。

2.线形图（是以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。

）

适用于描述某种事物在时间序列上的变化趋势、描述一种事物随另一事物发展变化的趋势模式、比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系。

3.条形图（是用宽度相同的长条来表示各个统计事项之间的数量关系。

）

通常用于描述离散性变量的统计事项。

1）简单条形图（它适用于统计事项按一种特征进行分类的情况）

2）复合条形图（用两类或三类不同色调的直方长条来表示多特征分类下的统计事项之间数量关系的一种图示方法）

4.圆形图（是以单位圆内各扇形面积所占整个圆形面积的百分比来表示各统计事项在其总体中所占相应比例的一种图示方法。

）特别适用于描述具有百分比结构的分类数据。

第1章自测练习

【练习1】试比较简单条形图与简单次数直方图在制作和应用方面的异同点。

解答：

条形图和直方图都是次数分布图，但前者适用于离散型随机变量的次数分布描述，其所依据的次数分布表是离散型次数分布表。

后者则适用于连续型随机变量的次数分布描述，其所依据的次数分布表是连续型次数分布表。

这一区别决定了它们在制作上的不同。

即相应于不同类型的次数分布表，条形图中的直条对应离散变量各类别，因而直条没有宽度的要求，直条之间是间隔排列的；而直方图的直条则对应连续变量次数分布的各取值区间，宽度即组距，直条比较相连排列。

具体参照教材有关内容。

【练习2】简述散点图、折线图、条形图和圆形图这四种统计分析图的应用特点。

解答：

如上题所述，

①条形图适用于离散型变量的次数分布，是一种次数分布图；

②圆形图的适用条件与之相同。

所不同的是，圆形图使用圆中的扇面弧度来替代直条表达次数或相对次数，所有扇面组成整个圆周。

因而圆形图本身就包含有相对次数信息。

③散点图是专用于分析两个连续变量或至少是等级变量间相关关系的统计图，它用两个相关变量的配对数据分别作为散点的横、纵坐标在平面直角坐标系中描点，根据散点分布的区域的形状就可以大致判断两变量间的相关关系。

例如如果散点区域形状是一个椭圆，则变量为直线性相关，椭圆长轴的方向还可以表达相关的方向。

④折线图在教材中之牵涉到所谓的均值图，即描述某个因变量（指标）在一个离散型自变量的各水平上取值均值的统计图，将指标在自变量各水平上取值的均值作为纵坐标先描出散点，然后用线段连接这些散点构成折线，故而叫折线图。

折线图通常用在组间均值比较中帮助直观分析各均值间的差异。

第2章常用统计参数

中心位置：

用以度量一级数据的集中趋势，描述它们的中心位于何处，故对其数量化描述称为置度量数或集中量数。

离散性：

反映一组数据的分散程度，即次数分布的离散程度。

对其数量化描述称为次数分布变异特性的度量或差异量数。

参数：

总体统计特征的量数。

统计量：

样本统计特征的量数。

第1节集中量数（描述数据集中趋势的统计量。

包括：

算术平均数、加权平均数、几何平均数、中数，等。

它们的作用都是试题次数分布的集中趋势。

）

1.算术平均数

只有在与其他几种集中量数相区别时，才称它为算术平均数。

算术平均数是用以度量连续变量次数分布集中趋势的最常用的集中量数。

公式：

1）总体平均数与样本平均数。

2）加权平均数

3）算术平均数具有以下性质：

①每一个观测值都加上一个相同常数C后，计算得到的平均数等于原平均数加上这个常数；

②每一个观测值都乘以一个相同常数C后，计算得到的平均数等于原平均数乘以这个常数；

③每一个观测值都乘以一个相同常数C后，再加上一个常数d后，计算得到的平均数等于原平均数乘以这个常数c再加上常数d.

④观测值与平均数离差的总和为零

⑤观测值与任意常数c的离差平方和，不小于观测值与平均数的离差平方和。

4）算术平均数的优点：

反应灵敏、确定严密、简明易解、计算简便并能作进一步的代数演算等优点，是应用最普遍的一种集中量数。

5）算术平均数的缺点：

易受极端数据影响、出现模糊数据和存在不等质数据时无法计算算术平均数的缺点。

几何平均数（Mg）

当出现以下两种情况时需用几何平均数：

①一组数据中任何两个相邻数据之比接近于常数，即数据按一定的比例关系变化。

在教育与心理研究中，求平均增长率或对心理物理学中的等距与等比量表实验的数据处理；

②当一组数据中存在极端数据，分布呈偏态时，算术平均数不能很好的反映数据的典型情况，此时应使用几何平均数或其他集中量数（如中数、众数）来反映数据的典型情况。

公式：

公式变形：

未来情况的预测数X=x′·（）n

x′表示预测的基础。

3.中数（又称中位数，Mdn）

1）中数是指位于一组数据数列中间位置的那个数。

中数可能是观测数据中的某一个，也可能根本不是原有的数。

中位数的位置nMdn=（n+1）/2

2）当一组观测数据中出现极端数据时，或一组数据的两端有模糊数据出，此时不能用算术平均数来作为这组数据的代表值，而应求中数。

3）中数的优缺点是：

具有计算简单、不受极端数据的特点，但由于中数是根据数据的相对位置来确定的，在计算时不是每个数据都加入计算，从而有较磊的抽样误差，不如平均数稳定；同时，由于中数难以作进一步的代数运算，故而在多数情况下，中数不如平均数应用广泛。

众数（M0指次数分布中出现最多的那个数的数值）

当一组数据出现不同质的情况，或分布中出现极端数据时，也用众数作为集中量数的粗略估计。

皮尔逊计算方法：

M0=3Mdn-2

第2节差异量数

次数分布数据间彼此差异的程度称作数据的离中趋势。

它反映了次数分布的变异性。

集中量数反映次数分布的典型情况，差异量数则反映次数分布的特殊性。

平均差（AD）

方差与总体标准差

1）方差（Variance）：

也叫变异数、均方，是每个观测值与该组数据的平均数之差平方后和的均值，即离均差平方和的平均数。

2）样本方差和总体方差的计算方法和含义是一致的，但符号不同，前者用S2表示，后者用σ2表示。

3）标准差（Standarddeviation）：

即方差的平方根，样本方差常用符号S或SD表示，总体方差则用σ表示。

标准差的合成。

4.标准差的性质

1）一组数据的每一个观测值都加上一个常数C，其标准差不变。

即Yi=Xi+C

2）一组数据的每一个观测值都乘以一个常数C，其标准差为原标准差乘以常数C。

即Yi=Xi·C

3）每个观测值都乘以同一个常数C（C≠0）,再加上一个常数d，所以标准差等于原标准差乘以这个常数C。

即Sy=C·Sx

5.方差（推断统计最常用的统计量数）和标准差的意义

方差与标准差是表示一组数据离散程度的最好指标，值越大说明离散程度越大，反之亦然。

具有以下优点：

1）反应灵敏，每个数据取值的变化，方差与标准差都会随之变化；

2）有一定的计算公式严密确定；

3）容易计算并适合代数运算；

4）受抽样变动的影响小；

5）具有可加性，因此可以分解并确定出属于不同来源的变异性，并可进一步说明每种变异对总结果的影响，是以后统计推论部分常用的统计特征数。

差异系数（CV）

CV=S/*100%

第3节地位量数

原始变量在其所处分布中地位的量数，称为地位量数。

地位量数常被用来表示各种常模。

种类：

百分位分数、百分等级分数、标准分数、T分数

百分位数（Pm）。

计算公式如下：

百分等级分数（PR某个已知原始分数在其所处分布中的相对位置叫百分等级分数。

）

计算公式如下：

百分等级越小，原始数据在分布中的相对位置越低

百分等级越大，则越高。

百分位分数和百分等级分数称为百分位量表。

优点是：

计算简便，意义明确，对各种测验普遍适用。

缺点是：

它是一个顺序量表，不具相等单位，从而不能作进

一步的运算，无法作进一步的统计分析，另外，由于百分位

量表的分布呈长方形，当测验分数的分布为正态或接近正态时，百分位量表将夸大分布中间的原始分数的差异而缩小分布两端的原始分数的差异。

第4节相关分析

1.相关