体育测量学.docx

资源描述

体育测量学.docx

《体育测量学.docx》由会员分享，可在线阅读，更多相关《体育测量学.docx（40页珍藏版）》请在冰豆网上搜索。

体育测量学.docx

体育测量学

硕士研究生《体育测量评价》课程提纲

（MeasurementandEvaluationinPhysicalEducationandExerciseScience）

任课教师：

隗金水

专题一、体育测量评价学科的一般概述

一、体育测量评价的定义

二、体育测量评价学科的研究任务

三、定性和定量的区别

四、几个相关名词

五、测量与评价的关系

六、体育测量评价学科特点

（一）新兴学科。

人体测量学（Anthropometry），教育测量学（MeasurementinPedagogy）

（二）综合学科

（三）方法学科

（四）实用学科

七、体育测量评价学科发展情况

八、国外发展情况：

九、国内发展情况

十、体育测量评价学科的作用

十一、体育测量评价学科发展趋势

十二、主要参考文献：

（一）体育院系教材

高师体育测量学基础编写组.体育测量学基础（试用教材），1986

体院教材编写组.体育测量与评价.高等教育出版社，1990年

日本体育学会测定评价专门分科学会著，崔东振翻译。

体力的诊断与评价，山东体育科学研究所印，1977

杨逎军等.体育测量学.华南理工大学出版社，1990年

邢文华等.体育测量与评价.北京体育大学出版社,1985

李佑文等.体育测量与评价.苏州大学出版社，1996年

张至满.体育测量评价.台湾水牛出版社.1995年

赵秋蓉等.体育测量评价.陕西人民教育出版社,1999年

吕树庭.体育社会测量学.广东高等教育出版社,1998

谭平平.体育测量与评价.广西师范大学出版社,1996年

罗伯特.V.霍克著,张桂芬译.身体素质.武汉体育学院编印,1985年

王保成等.竞技体育力量训练指导.人民体育出版社,2001年

（美）R.麦克杰,，K.A.巴罗,叶国雄等译.体育实用测量学.湖南科学技术出版社，1993年。

MargaretJ.Safrit.Introductiontomeasurementinphysicaleducationandexercisescience:

Msbypublishingcompany.1986年

HaroldM.Barrow&RosemaryMcGee：

PracticalMeasurementinPhysicalEducationandSports,1993

（二）非体育类参考书

（美）艾尔.巴比，邱泽奇译.社会研究方法.华夏出版社,2000

（苏）顿斯柯依、扎齐奥尔斯基著,吴忠贯译，生物力学，人民体育出版社，1982

陈明达等.实用体质学.北京医科大学出版社,1993年

姜凤华.现代教育评价.广东人民出版社,2001

柯惠新.调查研究中的统计分析法.北京广播学院出版社,2000

李晶.社会调查方法.中国人民大学出版社,2003

王汉澜.教育测量学.河南大学出版社,1987

戴海崎.心理教育测量.暨南大学出版社,1999

余嘉元.教育与心理测量,江苏教育出版社,1987

戴忠恒.心理与教育测量.华东师范大学出版社,1987

袁方.社会学研究方法.北京大学出版社,1999

风笑天：

社会学研究方法.中国人民大学出版社,2001

（三）相关的参考论文

作业：

1、对本科测量内容进行课后复习

2、根据自己的专业和特点，选择一些非体育类的测量书籍进行阅读。

3、学习该课程的作用和意义

专题二测量的基础知识

一、什么是测量

（一）测量的定义：

测量就是依据一定的法则使用量具对事物的特征进行定量描述的过程。

（二）测量的分类

二、测量的要素

（一）测量对象

即指“被测量者”，可以是人，可以是物，可以是事物或现象。

（二）测量内容（指标）

即“事物的特征”，是指被测量者的某种特定属性。

如人的身高，物体运动的速度等。

（三）测量法则

即指科学规则和科学原理，也泛指在科学原理指导下利用某种测量工具进行测量的操作规程。

（四）测量参照点

有绝对参照点和相对参照点之分。

（五）数字

即表示测量结果的数字或符号。

所谓“数字（量）”不仅指事物特征的符号，而且指一种有序的量。

一般而言，“数字”具有4个特征：

１．区分性，即一个数不是另一个数，如3不是4；

２．序列性，即1<2<3<……；

３．等距性；即5-3=2，8-6=2，所以，5-3=8-6；

４．可加性，即一个数加上另一个数产生第三个数。

（六）测量单位

三、测量尺度（MeasurementScale）

（一）定义（definition）：

测量事物属性（或特征）所得数字的表述规则。

这种规则由实数列（realnumber）的诸特性所决定的，这些特性包括：

1、顺序（order）：

两个或两个以上的实数有次序之分、大小之分

2、距离（distance）：

两个实数之间的差距可以描述

3、原点（origin）：

对应于零位数的那一点（绝对零点和相对零点）

（二）分类（classification）

1、定类尺度（nominalscale）：

不含实数列的任一特性，即无顺序、无距离、无原点。

是各种测量尺度中含信息量最少、最低级的一种测量尺度。

2、定序尺度（ordinalscale）

定序尺度含有实数列的顺序特性，但无距离、无原点。

其信息量比定类尺度要丰富，属于低等级的测量尺度。

3、定距尺度（intervalscale）

定距尺度含有实数列的顺序、距离特性，但无原点。

定距尺度又较定序尺度含信息量多，属高等级的测量尺度。

4、定比尺度（ratioscale）

定比尺度具有实数列顺序、距离、原点的全部特性。

其含信息量最多，属于最高级量表。

（二）四种测量尺度的特征、功能和适用的统计分析方法表

特点

基本功能

数字特征

适用的统计方法

定类尺度

分类、标记

＝　≠

百分比，卡方检验，列联相关系数

定序尺度

顺序

可按照次序排列

＞　＜

中位数，百分位数，等级相关，非参数检验

定距尺度

距离

差距的确定与比较

＋　－

算术平均数，标准差，积差相关，参数检验

定比尺度

原点

比值的确定与比较

×　÷

几何均数

（三）四种量表之间的关系

四、测量与概念的操作化

（一）概念、变量、指标和量表

１、概念（concept）

2、变量（variable）

（1）自变量（independentvariable），应变量（dependentvariable），中介变量（interveningvarable）

（2）离散型变量（discretevariable）和连续型变量（continuousvariable）。

（3）定类变量、定序变量、定距变量和定比变量

3、指标（index）

把表示一个概念或变量含义的一组可观测到的事物或现象，称一组指标（indexes）。

指标的作用：

通过指标测试，实现从抽象层次到经验层次的测量。

4、量表（scale）

一个量表（scale）则是一种具有结构强度顺序的综合测量指标，即全部陈述或题目（或项目）都是按照一定的结构顺序来安排，以反映出所测量的概念或态度具有的各种不同的程度。

表1-3请你对下列看法发表意见（在每一行选一个方框打√）

非常同意同意无所谓不同意很不同意

1.婚事应当尽量办得简单一些

2.结婚是人生一件大事，婚事应该办得隆重、热闹，

花再多的钱也值得

3.就是有钱，婚事也不应该大操大办

4.为不让别人笑话，就是借钱也要把婚事办得象样

12345

54321

12345

54321

（1）李克特量表

李克特量表（LikertScaling）是社会学研究中用得最多的一种量表形式，属于总加量表。

它由一组对某事物的态度或看法的陈述组成，答案以五级评分的形式出现。

表1-3示例。

（2）鲍格达斯社会距离量表

如果研究者希望定量地测量人们相互间交往的程度、相互关系程度或者对某一群体所持的态度及所保持的距离，则可以采用鲍格达斯社会距离量表（Bogardussocialdistancescale），属于累加量表。

例如，要测量人们对黑人的态度，可用表1-4。

表1-4鲍格达斯社会距离量表

是的不是的

1.你愿意让黑人生活在你的国家吗？

□□

2.你愿意让黑人生活在你所在的城市吗？

□□

3.你愿意让黑人住在你们那条街吗？

□□

4.你愿意与黑人交朋友吗？

□□

5.你愿意让你的子女与黑人结婚吗？

□□

引自袁方，2001，305页

（3）语义差异量表

语义差异量表（Semanticdifferential）主要用来研究概念对于不同的人所具有的不同含义。

在体育社会学和体育心理学当中主要用于比较研究、个体及群体差异的比较研究以及人们对环境或事物的态度、看法的研究。

语义差异量表的形式由处于两端的两组意义相反的形容词构成，每对反义形容词中间分为7个等级。

欲测量的概念或事物放在量表的顶端。

例如，要了解人们对女同学的看法，可采用表1-5的量表形式。

表1-5语义差异量表示例

女同学

热情的：

+3+2+10-1-2-3冷漠的

主动的：

+3+2+10-1-2-3被动的

大方的：

+3+2+10-1-2-3拘谨的

快速的：

+3+2+10-1-2-3缓慢的

强大的：

+3+2+10-1-2-3弱小的

善良的：

+3+2+10-1-2-3邪恶的

引自风笑天，2001，100页

（二）概念的操作化（operationalization）

简单而言，操作化就是将抽象的概念转化为可观察的具体指标的过程。

1、操作化的意义

抽象层次较高的概念——可观测的具体指标

2、操作化的方法

一般而言，操作化过程包含两个方面的内容：

一是概念的理论定义；二是概念的操作定义。

（1）概念的理论定义（或抽象定义）

一是参考其他研究者对某一概念的定义。

二是确定这一概念的理论定义（或抽象定义）。

（2）操作定义

第一，用客观存在的具体事物来进行操作定义。

第二，用看得见的社会现象进行操作定义。

第三，用量表的形式来进行操作定义。

3、操作化的多样性

1960年，美国学者布拉德和沃尔夫提出了“夫妻权力”的8个指标：

1971年森特斯在上述8个指标的基础上又补充了6个指标：

1986年台湾社会学者陈明穗提出了“夫妻权力”的15个指标：

1988年大陆学者伊庆春等的研究则用这样的15项指标来进行测量：

4、举出几个概念操作化的例子

五、测量误差

（一）“测不准”原理

（二）误差的分类

1、随机误差（randomerror）

2、系统误差（systematicerror）

3、过失误差

4、抽样误差（samplingerror）

（三）误差的来源

1、测量工具（toolsorinstruments）

2、受试者（testeeorexaminee）

3、测试者（testerorexaminer）

4、测验本身（test）（举例说明）

六、经典测量理论（classicaltesttheory,简称CTT）的基本假设

（一）真值的含义

“实测值”（observedscore或obtainedscore，简称X）：

测量对象的某种测量内容（或特征）经测量后表现为一个数值。

也称“观测值”、“观测数”、“测量所得的值”、“实测分数”、“观察分数”、“原始观测数”等。

“真值”，也称“真分数”（truescore简称T）：

反映测量对象（或受试者）某种特征的真正水平（或能力）的那个数据。

T和X的关系怎样？

（二）数学模型及其假设

经典测量理论假定，实测值（X）与真值（T）之间是一种线性关系，并只相差一个随机误差（E）：

X=T+E

这就是经典测量理论（CTT）关于真值的数学模型。

根据CTT假设，很容易推导出如下关系：

作业：

1、结合SPSS简述测量尺度在统计学上的应用

2、对“三好学生”、“机关工作人员的身体素质”、“体育人口”进行概念操作

3、查文献记录几个概念操作化的例子

专题三测量的可靠性（信度）

一、可靠性（reliability）概述

（一）可靠性的一般定义：

是指测量结果的可信程度或一致性程度。

r=T/X=（X-E）/X=1-E/X

（E=0、r=？

）

（X=E、r=？

）

（R的取值范围？

）

（二）可靠性的理论定义：

可靠性乃是真值的方差（S

）与实测值方差（S

）之比。

r=S

或r=（S

―S

）/S

=1―S

（三）可靠性的统计定义：

测量的可靠性是指在相同的测量条件下，对一批受试者使用相同测量手段，重复测量结果的一致性。

二、可靠性的估价方法

（一）积差相关法

（二）方差分析法

（三）裂半法

（四）斯皮尔曼—布朗公式

（五）库德·理查森（G.F.Kuder&M.W.Richardson）法

rkR20=[k/（k-1）][1-∑pq/（S.S）]------------（用于二分法计分项目）

K：

测验题目数

P：

各题答对人数的%

Q：

各题答错人数的%

S：

各受试者各题目得分之和的标准差

rkR21=1-[0.8.M/（K-M）]/[k.（S.S）]

K：

测验题目数

M：

各人总分的平均数

S：

个人总分的标准差

（六）克郎巴哈（Cronbach，也称α系数法）------------（可用于非二分法计分的项目）

α=[K/（K-1）][1-∑（Si.Si）/∑（STST）]

K：

测验题目数

Si：

每题各受试者得分的标准差

ST：

每个受试者所得总分的标准差

（七）弗朗拉根（Flanagan）公式------------（当裂半法在两半测验分数的方差不等时用）

rxx=2[1-（Sa.Sa+Sb.Sb）/（Sx.Sx）]

Sa、Sb：

受试者在两半个测验上的得分的标准差

Sx:

全体受试者整个测验得分的标准差

（八）卢仑（Rulon）公式------------（当裂半法在两半测验分数的方差不等时用）

rxx=1-Sd.Sd/（Sx.Sx）]

Sd：

同一组受试者在两半测验上得分之差的标准差

Sx:

全体受试者整个测验得分的标准差

（九）列联系数法（参见北京体育大学学报，2000,

（2）:

218）

（电算法参见SPSS的cross-tab方法）

Ф=|bc-ad|/

------（2×2列联表，四格表）

或C=

------------（R×C列联表）

列联系数法例题1：

第一次通过

第一次不通过

小计

第二次不通过

5（a）

20（b）

25（a+b）

第二次通过

20（c）

5（d）

25（c+d）

小计

25（a+c）

25（b+d））

N=（a+b+c+d）

Ф=|bc-ad|/

=0.6**

X2=NФ2=18,

df=（r-1）（c-1）=1

X20.01（df=1）=6.63

列联系数法例题2：

第一次优

第一次良

第一次中

第一次差

小计

第二次差

第二次中

第二次良

第二次优

小计

100

通过计算得：

X2=89.513

C=0.687**

df=（r-1）（c-1）=9

X20.01（df=9）=21.66

三、可靠性分类

测量的可靠性，一般分为三类：

稳定可靠性、一致可靠性和等价可靠性。

（一）稳定可靠性

同样的重复测量，由于间隔时间不同，它可以有不同的重测信度；不同的样本含量，也可以有不同的重测信度。

因此在报告重测信度时，要说明时间间隔、样本量以及样本的有关情况。

例如，中国修订《韦氏儿童智力量表手册（C-WISC）》（戴海崎,1999）中就重测信度进行了如下说明：

（1）受试者情况——6~16岁城市儿童151名，农村儿童74名，各年龄儿童分布较为均匀）；

（2）时间间隔——2~7周；（3）相关系数——城市：

0.59~0.86，农村0.59~0.81。

检验稳定可靠性的操作步骤如下（以某班30名学生立定跳远为例）：

（二）一致可靠性

一致可靠性（stabilityreliability）指在同一时间内，在相同的测量条件下，多次重复同一测量结果的一致性程度。

也称裂半信度（split-halfreliability）、分半信度。

一致可靠性系数的估价方法主要是裂半法，也可以用方差分析法。

例：

有研究在（柯惠新,2000）亚运会期间对北京地区1220人进行了对亚运会的态度调查，态度量表中包括了12个问题，它们是：

能提高国际声望，

我感到自豪，

财政困难不该举办，

影响我也没有关系，

能振奋民族精神，

能带来经济效应，

不如把钱用于改善生活，

能显示了社会主义优越性，

有些铺张浪费，

对会后经济感到忧虑，

集资增加了人民负担，

能展现安定团结改革成就。

用裂半法计算出rhh=0.6352，rtt=0.7769。

根据这一结果，可以认为该“态度量表”的一致可靠性较高。

（三）等价可靠性

等价可靠性（Equivalencereliability）指在两个不同的时间内，对受试者实施难度相同、而方式或题目不同的平行测验（量）结果的一致性程度。

又称复本信度（Alternate-formreliability）。

这类可靠性的检验通常以“平行测验”的形式进行。

如理论测验中的A、B卷，其难度相当，但题目形式不同。

显然，等价可靠性无非是建立在“受试者在A测验中的表现应该与在平行测验B中的表现基本一致”的思维基础上。

四、影响可靠性的因素

（一）测量误差

（三）重复测量间隔的时间

（四）受试者个体差异和能力水平

（五）测量类型和测量容量

（六）测验的难度

五、提高信度的常用方法

在了解影响可靠性因素的基础上，就不难找出提高测量信度的对策。

（一）严格实施标准化的测量程序。

包括测量仪器设备的标准化，测量方法的标准化，测量实施的标准化。

这样可以减少随机误差和系统误差。

（二）适当增加测量的长度。

在运动技术测量当中，增加测量或测验的次数，在体育社会、教育心理测量中，适当增加题目的数量。

（三）适当地增加平行测验项目，可以增加对信度的检验，获得更丰富的信息。

（四）适当增加样本含量，并提高抽样的科学性（使样本具有代表性），这样可以减少抽样误差。

（五）测验的难度要适中，使受试者表现出应有的成绩差异。

（六）在选取受试者群体时，要兼顾他们的水平差异（最好接近正态）。

（七）提高测试人员的责任心、业务素质和测量技巧，以减少过失误差、系统误差和随机误差。

（八）在有些测量中，要对受试者进行必要的宣传鼓动，诱发其正确的动机和兴趣，使之事先对测量方法、要求有所了解，更好地配合测试。

尤其在机能测验和运动能力测验中，以及在量表测试过程中，正确的动机、认真的态度、全力以赴的作风将直接关系到测量结果的准确与可靠。

（九）重复测量时要考虑间隔时间的长短，以及要保证两次测验的独立性（完整性）。

（十）要注意测量时间和环境的选择。

如不要在大型赛事（如校运会）和重大节日（如国庆节）前后安排测试；测试要求适当充裕的时间；要注意考试环境的选择和控制（如噪音太大、考场纪律混乱等）。

（十一）除了对可靠性进行定量的检验外，还可以通过其它途径对信度检验进行补充和修正，例如：

受试者的平时表现、出勤、作业、回答问题等是否与测试结果有特别大的出入等等。

作业：

1、想象一下，在论文答辩中专家问及你论文数据（比如问卷或实测数据）的信度时，你如何从定量和定性两个方面进行圆满的回答？

2、在SPSS课堂上进行一些信度系数的操作计算（如积差相关法、裂半法、方差分析法、列联系数法等）

专题四测量的客观性

一、客观性概述

测量的客观性（objectivity）指测试者对受试者主观测量结果的一致性程度。

客观性实际上是测量可靠性意义的延伸和发展，所以也有人将它称为评价者的可靠性（raterreliability）或评分者的可靠性（scorerreliability）。

在社会学、教育学和心理学中所涉及的测量客观性问题不多，如在教育测验中，对问答题或作文题的评分问题属于“主观测量”问题，常常被划分为“评分者信度”问题进行简单的阐述。

二、客观性的估价方法

一些估价测量可靠性的方法，也同样适合估价测量的客观性。

如积差相关法、方差分析法、克

（一）和谐系数法（参见本科教材）

三、客观性分类

（一）多人测量客观性

（二）一人测量客观性

四、影响客观性的因素

（一）测试者水平

（二）测试者（或专家）人数

（三）测量内容

（四）测量的标准化程度

五、提高测量客观性的方法

（一）强化受试者的认真负责态度，测量过程中坚持公平公正的原则，事实求实地进行测评（或评审）。

（二）提高受试者的业务水平，选拔专业阅历丰富、经验丰富的测试者来完成测量工作。

（三）完善测量细则，细化评分标准，对规则裁判的描述要言简意赅，避免粗糙、模糊和不全面。

（四）在正式测试前，可以适当组织一定规模的“预备测试”，使测试者统一思想、掌握测试的重点和难点，同时进一步完善测量实施的规范化和标准化问题。

（五）在条件许可的情况下，采用类似高考的“双盲评分”。

这样可以避免“名片效应”

（六）适当控制测试者人数。

作业：

1、简述如何检验一名裁判（如篮球裁判、足球裁判、体操裁判等）的判罚客观性。

2、想象一下，如果论文涉及主观评分问题，你如何从定量和定性两个方面进行阐述。

3、在SPSS课堂上进行客观性系数的操作计算（如积差相关法、裂半法、方差分析法、列联系数法等）

（七）尽量实施标准化测量。

专题五　测量的有效性

一、有效性概述

测量的有效性，又称效度（validity），是指测量结果与欲测属性之间的一致性程度。

换句话说，所选择的测量手段（或测验，或指标，或测量）在测量欲测属性时的准确程度。

测量的效度有两个方面的含义：

（1）测验是测量受试对象的什么属性特征？

（2）它对该属性特征的测量有多准确？

二、效性的分类及其估价方法

（一）容有效性及其估价方法

1．内容有效性概述

内容效度（contentvalidity），也称逻辑效度，指测量内容与欲测属性的一致性程度。

即，所选择的测量内容反映欲测属性的准确程度。

显然，内容效度主要是从测量的内容上进行逻辑分析和判断的。

（二）结构有效性及其估价方法

1．结构有效性概述

结构有效性（constructvalidity）指成套测验所包含的各种属性与总体欲测属性各成分在结构上的一致性程度。

（1）结构有效性的估

展开阅读全文