1、人才测评必要的理论基础研究者可以通过以下的方法来控制效标污染 一是改变效度研究本身的 设计 二是采用部分相关的统计方法 只有尽可能地控制效标污染才能更准确地了解测量工具和效标间的真实关系 四信度和效度之间的关系 根据前面所论述的信度和效度的定义和作用可以看出信度和效度所解决的是不同类型的误差问题 信度是一致性的函数不管它是否射在靶心上只要是一种密集点状态就可以 效度是准确性的函数在这里就是射中靶心周围点的函数 失败的信度可以看作是一种随机误差失败的效度可以看作是一种系统误差缺乏信度或者效度的测量都是没有用的 可见效度是测量的首要条件信度是效度的必要条件而非充分条件 如果信度很低那么效度也不可能
2、高因为如果测量的数据不准确就不能有效地说明所研究的对象即使信度很高效度也未必高 例如如果我们想测量一个人的数学能力但是测验是用文言文出题而这个人的文言文能力很差那么测量出来的结果是 零分因为测量的方法不得当所以我们不能说这个人的数学能力很差这说明信度很高但是测量选择的方法是错误的所以效度不高 第五节 误差与常模 一什么是误差 误差是在测量中与目的元关的变量- 原因 所产生的不准确或不一致效 应任何测量都不是绝对准确的不准确的数据就有误差 误差具有两层含义一是由与测量目的元关的变因引起二是不准确或 不一致的测量结果 二误差的种类 一 随机误差 random error 随机误差又称为可变误差它由
3、与测量目的无关的偶然因素 例如外界环境测量本身难度等 引起又不易控制使多次测量产生了不一致的结果 二 系统误差 systematic error 系统误差又称为恒定误差它由与测量元关的变量引起的一种恒定而有规律的误差稳定地存在于每一次测量中测值一致但不准例如在秤陀上搞鬼就形成了系统误差系统误差只影响测值的准确性与效度有关随机误差既影响准确性又影响一致性与效度和信度都有关 三误差的来源 一 测验内部 测量工具本身 引起的误差 这包括 测验的题目较少没有代表性 测验用词存在歧义 测验题目格式设计不合理容易引起投机 测验题目的难度不均偏高或者偏低 答题时间过短等等 二 施测过程引起的误差 一是物理环
4、境如测试现场因为照明背景音乐温度噪声通风桌 椅和空间等不符合人体工程学使得被试感觉不舒服不能发挥正常的水平 二是施测者的个体因素例如言行举止方面的误导或者干扰会影响被试的发 挥 三是评分者对于一些主观题目的评分缺乏客观统一的标准或者在评分 过程中出现错误 四是由于一些客观的突然因素发生例如生病停电测验用品突然出问题等 三 被试本身引起的误差 被试由于焦虑生理经验等方面的因素也会导致测验的误差 此外还有被试参加测试的动机以及个人的教育背景 四常模 1常模的定义 常模 norm 是一组被试样本的测验成绩的分布结构它是一种可以用来向其他测验结果进行比较的标准常模通常用集中趋势和离散程度来表示 集中趋
5、势通常用平均数 mean 来表示根据所学的数学和统计知识平均 数是一个数列所有数之和除以数的个数的商 离散程度通常用标准差 standard deviation 来表示 数学上定义为一个数列各个数与平均数之差的平方和除以数的个数之商的平方根 标准差越大说明数据分散的程度越大离散度就越大 一个标准化的测评除了具有信度和效度外还需要对测评结果做出真实可靠的解释 最常用的就是将被测对象的行为特征与某种标准相比较以确定其在群体中的水平而用来比较的标准就是常模 2常模的类型 根据样本大小和来源通常有全国常模区域常模和特殊常模 根据具体应用标准和分数特征可有平均数常模百分数常模标准分常模等等 3常模的作用
6、 常模的作用就是提供一个科学可信的参照标准来说明某一测验成绩在同类被测对象中所处的 水平 例如在韦克斯勒智力测验中不同年龄阶段的个体就有不同的常模一个人答对 了10道题不能立即判断他的智力水平程度而是要把他放到相应的同龄组去判断如果 他是10岁一组年龄段的儿童和10岁组的常模比较他就达到了正常水平而如果他是6 岁以下的儿童那么对照相应的常模一比较他就是智力超常了 由此可见常模是否有效可靠是一个很重要的问题在这里第一步就是关于常模的制定 如我们需要测评现代经理人的人格特征最可靠最有效的办法当然是将所有经理人的人格特征一一加以测量然后求其平均数但实际上由于受到时间人力物力和财力等种种条件的限制我们
7、只能测量具有这个研究特征的一部分个体以它代表总体 如果我们选择的某一部分的个体所组成的样组能够代表总体那么该样组就是标准化的样组按照标准化样组算出的平均数或标准差就是常模以此可以作为解释测验分数的参照点就能使测验分数具有意义 数的相关系数t越大说明测评结果越可靠 采用这种方法分析内在一致性信度的关键在于把一个测评一分为二不足随意的而应分成尽量等值的两半 通常的做法是把题号为奇数的分作一半而题号为偶 数的作为另一半 那么信度系数rxx多高才是有意义的呢最理想的情况是rxx 1 00但是在实际的测量过程中这种情况很难达到 通过参考同类的测验我们可以设立一些测量工具的信度系数的标准例如一般能力和学绩
8、测验信度系数要在09以上才能说测量的结果是有意义的对于个性和价值观等方面测验信度系数要介于075 -O 85之间 一般来说当rxx 07时不能用测验来对个人做评价也不能在团体间做比较当rxx 0 75时可用于团体间的比较当rXX 085时可用于 鉴别个人 四影响信度的因素 1被试者的特征 被试者的特征对信度的影响主要表现在被试者在测量属性方面的个体差异上 如果一种测量工具对某种属性的测量得分的差别幅度越大那么该测量工具能区别开被测量的个体因而我们说该测量工具有较好的信度个体之间被测量的特征或者属性差别差异很小那么很难进行可靠的测量测验信度可能会很低 可见被试自身的改变是误差它将会降低信度但是我
9、们认为被试之间的差别是真实差别这种差别产生了信度因此如果被试之间的方差或者个人真实差别增大而被试自身的变化保持不变这样就会提高信度 然而在我们测量的过程中被试的个人之间的差别的幅度通常是无法控制的对于一个同质性比较强的群体来说信度系数为o 75的测量工具可以被 接受但是对于一个异质性很强的群体来说这样的信度系数就不能被接受测量者在现选测量工具的时候参考相关的经验信度系数非常重要 2测验的长度和难度 一般来说测量分数分布越广信度系数就相对越高这就好比让你来 速记一组数字随着让你观察这组数字的时间的延长你会发现你能够描述的数字的准确性和详细程度也在不断提高 一个给定的测验当增加测验的长度并且相应地
10、延长测验的时间的时候也会发生上述类似的效果 3不同信度测验方法的选择 前面我们可以看到不同的信度测量方法处理测量误差的方式都不同 这样在我们估计信度的过程中对不同方法的选择就会产生不同的估计值有 些方法倾向于对信度范围做上限估计有些倾向于做下限估计这样针对不 同特点的测验我们要学会选择估计方法 4测验过程中的误差 测试现场因为照明背景音乐温度噪声通风桌椅和空间不符合人体工程学等原因导致被试精神和身体状况的不适 或者被试由于不熟悉答题的样式答题经验的不足或者 生病等突发状况的发生都会导致测量的误差 二 测量的效度 一效度的含义和特性 效度Validity即有效性它是指测量工具或手段能够准确测出所
11、需测量的某素质特征的程度 效度是指所测量到的结果反映所想要考察内容的程度测量结果与要考察的内容越吻合则效度越高反之则效度越低 或者简单地说是指一个测验的准确性有用性 如果我们用体重秤来测身高显然这种测量工具的选择是不正确的 所以说这个测量工具没有效度 效度的操作定义是在一系列测量中与测量目的有关的真实变异数 测量目的有关的有效变异 与总变异数 实得变异数 的比率 效度的性质 1效度具有相对性 任何测验的效度是对一定的目标来说的或者说测验只有用于与测验目标一致的目的和场合才会有效 所以在评价测验的效度时必须考虑效度测验的目的与功能 2效度具有连续性 测验效度通常用相关系数表示它只有程度上的不同而
12、没有全有或全无的区别效度是针对测验结果的 效标和效标测量 效标即衡量测验有效性的参照标准指的是可以直接而且独立测量的我们感兴趣的行为 我们感兴趣的行为就是要预测的行为这是一个总的观念故必须以可操作的测量来确定才有实际意义 因此有必要把效标细分为两个层次其一是理论水平的观念效标其二是操作定义水平的效标测量 常用的效标有 1学业成就如在校成绩学历有关的奖励和荣誉教师对学生智力的评定等常作为智力测验的效标也可作为某些多重能力倾向测验和人格测验的效标 2实际工作表现是最满意的效标测量为一般智力测验人格测验和一些能力倾向测验的效标 3特殊训练成绩 4精神病诊断 5等级评定是观察者根据测验欲测量的心理特质
13、在被试身上的表现而作出的一种个人判断 6效标团体的比较即找出两个在效标表现上有差别的团体比较他们在测验分数上的差别 7先前有效的测验一个新测验与先前有效的测验的相关也经常作为效度检验的证据 二效度的类型 根据效度评估方法不同效度分为内容效度构想效度和效标关联效三种类型 1内容效度 content validity 内容效度就是检验测验的内容对所要考核范围的代表性程度 例如面试的时候对一个技术人员所掌握的技术水平的测验可以通过选取不同水平的具有代表性的技术问题来测量这样就能大致推断技术人员的技术水平 内容效度指的是测验题目对有关内容或行为取样的适用性从而确定测验是否是所欲测量的行为领域的代表性取
14、样 不同于下面的两种效度内容效度首先重点是强调新测量工具的建构而不是己有测量工具的效度设计并采用这种方法的目的是帮助确保测量工具的建构是针对所要测量的内容 这种方法主要是依靠专家根据经验来判断一个测量 工具的效度而不是依靠相关系数因此内容效度被称作一种描述性 效度 为了确保内容效度的客观可以通过以下的流程来保证 1对所测量的内容进行全面的分析尽可能地搜索到最齐全的资料 2挑选参与内容效度研究的专家这些专家应该能够承担相关测量范围的职责并且具有这些职责所具备的知识技术和能力 3瓢选测量内容 4评估颤选测量工具与被测量内容的相关性 2构想效度 construct-related validity
15、构想效度指测验能够测量到理论上的构想或特质的程度即测验的结果是否能证实或解释某一理论的假设术语或构想解释的程度如何 例如我 扪根据理论的假设结构来编制一份心理测量量表或者测验如果实际测量结果所测得的实际分数经过统计检验能够有效地解释受试者的心理特质那么我们说这个量表或者测验具有良好的构想效度 3效标关联效度 criterion-related validity 1效标与效标测量 效标是衡量一个测验有效性的参照标准效标测量就是将效标转化为某种可 以操作的测量指标效标具有四个特性多样性复杂性特殊性时间性 2效标关联效度 效标关联效度是指测验与外在效标间关联的程度即一个测验对处于特定情境中的个体行为
16、进行预测时的有效性 准确性 效标效度主要考虑的是测验分数与效标之间的关系 效标关联效度根据使用时间间隔的长短又分为同时效度与预测效度 同时效度 concurrent validity 是指收集效标材料与测验分数差不多同时进行 例如有两个智力测验A和BA实施起来很费时间而B测验时间短如果B的成绩与A的成绩有很高的相关则B可以作为A的替代测验 预测效度 predictive validity 是指收集效标材料在实际测量结束后隔一段时间再获得 区分同时效度与预测效度的标准不是时间而是测验的目的前者主要用于测量现在的状态后者主要用于预测未来的情况 例如入学考试成绩若能够很好地预测入学后的学习成绩的话这
17、个入学考试的预测效度就高 3确定效标关联效度的方法 A相关法 相关法是指计算测验结果分数与效标之间的相关得到的结果为效度系数 计算效度系数常用的相关方法是积差相关又叫皮尔森 Pearson 相关 要使用积差相关必须同时具备如下两个条件 两个变量都是由测量获得的 连续性数据即等距或等比数据 两个变量的总体都呈正态分布或接近 正态分布 一般来说相关系数必须达到统计上的显著水平如果其他情况 己定那么效度系数越高越好 B区分度 区分度是指预测源分数是否能区分由效标测量所定义的群体 操作方法是选取两种效标A和B先根据A将群体区分开来再用B将群体区分开来根据 两种效标区分的结果来判断如果A和B区分的结果一
18、致那么说明效度较高 C命中率 命中率是根据测验所做的正确决定的比率它主要用作取舍决策 某种测量工具的效度高不高主要是看做的决定是否与实际一致这就是命中率的高低 命中率包括有 总命中率 正命中率 负命中率 对于测验的效果从图2 -2中可以更直观地理解 在左下角的正确拒绝区域中我们可以看出这部分的被试是属于工作成绩和测验分数都很低的被试群体所以拒绝这些被试是正确的 左上角的区域是工作成绩高但是测验分数却相对较低的被试群体这里如果拒绝了显然是错误的 右下角的区域是属于工作成绩低但是测验分数却相对较高的被试群体如果录取了他们显然是错误的 右上角的区域是工作成绩高而且测验分数也高的被试群体录取他们显然是
19、正确的 三 影晌效度的因素 效度的大小主要受以下几方面因素影响 1测量工具本身因素 如果一个测量工具本身存在误差那么就是不可靠的这些误差越多 不可靠性就越大效度也随之降低具体表现在测量内容的难度不适当区 分度不高试题题目描述内容或选项设置存在迷惑性问题题目太多测量 内容的范围太广等这些测量工具本身的因素对效度的影响是很大的如果 不注意控制那么就无法保证测量的较高效度 2样本的因素 人是复杂的参加测试的人会受到各方面因素的影响有可能一顿油腻的早饭就能让一个参加测试的人临场发挥表现不佳 被试者的情绪动机 兴趣身体健康态度等方面的因素都会影响测试的效度 在其他条件相同的情况下被测者异质性越高效度越高
20、因为效度受到被试团体分数分布的影响 3效标污染 效标污染 contenon contamination 是指效标受到预测变量以外的变量的 影响偏见结果导致效度下降 例如当我们想考核一个员工的工作绩效的时 候如果评价者带有个人的种族性别偏见或者个人恩怨来考核下属的时候 那么效标就被污染了显然这样的考核结果肯定与实际情况相差甚远效 度也随之下降而且上述行为对效度的影响程度也是无法预知的 四心理反应一行为反应 一般来说行为背后总是有原因的行为与心理是有联系的因此我们断定可以通过对行为的测量来推断心理即用看得见摸得着的行为来推断内心 但这并不是一种绝对的对应关系当行为不能充分反映心理时测量结果就不会准
21、确 对行为的分析有多种维度如行为发生的频率反应 的强度持续的时间发生的数目意义或影响可改变程度以及情境性等在不同的测量中人们关注的是行为的不同维度 五情境反应一惯常反应 根据实施测验的环境不同我们可以判断测验针对的是被试的情境反应 还是惯常反应通常而言情境反应是可以在意识层面进行控制的而惯常反应是一种习惯是人的潜意识行为 纸笔测验的致命缺陷就是它过于情境化评价中心的情境性也比较强 而管理游戏则比较接近于真实在管理游戏中被试表现出来的基本上是他的惯常反应 正因为如此提倡在面试过程中应尤其注意观察那些真实的信息往往不是来自于被试的回答而是被试无意识的言行举止这些是被试的惯常反应是被试潜意识里的东西
22、也是被试难以一时伪装的 人才素质测评 经济及时准确 二测量理论 经典测验理论 CTT -真分数理论 人们将以真分数理论为核心理论假设的测量理论及其方法体系统称为经典测验理论 CTT 也称真分数理论 真分数理论是最早实现数学形式化的测量理论它从十九世纪末开始兴起二十世纪30年代形成比较完整的体系而渐趋成熟 年代格里克森的著作使其具有完备的数学理论形式而1968年洛德和诺维克的心理测验分数的统计理论一书将经典真分数理论发展至颠峰状态并实现了向现代测量理论的转换 所谓真分数是指被测者在所测特质如能力知识个性等上的真实值即 True Score 真分数而我们通过一定测量工具如测验量表和测量仪器进行测量
23、在测量工具上直接获得的值读数叫观测值或观察分数 由于有测量误差存在所以观察值并不等于所测特质的真实质换句话说观察分数中包含有真分数和误差分数而要获得对真实分数的值就必须将测量的误差从观察分数中分离出来 为了解决这一问题真分数理论提出了三个假设 真分数具有不变性这一假设其实质是指真分数所指代的被测者的某种特质必须具有某种程度的稳定性至少在所讨论的问题范围内或者说在一个特定的时间内个体具有的特质为一个常数保持恒定 误差是完全随机的这一假设有两个方面的含义 1测量误差的平均数为零的正态随机变量在多次测量中误差有正有负如果测量误差为正值观测分数就会高于其实际的分数真分数如果测量误差为负值则观测分数就会
24、低于其实际的分数即观察分数会出现上下波动的现象 但是只要重复测量次数足够多这种正负偏差会两相抵消测量误差的平均数恰好为零用数学式表达为E E 0 2测量误差分数与所测的特质即真分数之间相互独立不仅如此测量误差之间测量误差与所测特质外其它变量间也相互独立的 观测分数是真分数与误差分数的和 即 在上述三个基本假设的基础上真分数理论作出了如下两个重要推论 第一真分数等于实得分数的平均数T E X 第二在一组测量分数中实得分数的变异数方差等于真分数的变异数方差与误差分数的变异数方差之和即S2X S2T S2E 经典测量理论在真分数理论假设的基石上构建起了它的理论大厦主要包括信度效度项目分析常模标准化等
25、基本概念 第四节 测量的信度与效度 一信度 reliability 一信度的概念是测量结果的一致性 consistency 或者稳定性 sta-bility 程度也就是研究者对相同或者相似的测量对象进行不同形式或不同 时间的测量所得结果的一致性程度 在测量理论中信度是指一组测验分数的真变异数与总变异数的比率在实际应用中它通常以同一样本所得的两组资料的相关作为测量一致性的指标 信度能够回答测量工具是否稳定测量结果是否可以推论也就是概化能力即从一次测量来推论总体的正确程度 例如果想知道一个人的智商首先我们请对这个人熟悉的两个老师来估计一个人的估计为110另一个人的估计为150显然这种巨大的差距说明
26、叫人来估计智商是非常不可信的方法 但是用智力测量量表连续测量两次的结果差别却很小 因而我们可以说在测量智商方面用智力测量量表的方法要比叫人来估计具有更高的信度在人员测评的过程中 应该选择具有较高信度的测量工具这样才能保证测量结果的可靠性 信度-就是对随机误差的一种测量 二信度的种类 由于误差来源的不同对信度的测量也有不同的方法具体有以下四种 不同的信度类型和相应的评估方法 1再测信度 test-retest reliability 又称为稳定性系数它是指对同样的一个测验在不同的时间对相同的群 体测量两次这两次测量的分数的相关系数就是再测信度 我们通过再测信 度的相关系数可以了解测量结果在经过一
27、段时间后的稳定程度 再测信度的两次测评使用的是同一个测评工具同一种测评方式但较难把握的是两次测评间隔的时间长短 时间间隔过长被测者特征将随时间的增加而发展变化由此计算的稳定系数将失去意义 若时间间隔过短又可能产生记忆与练习效应这也将影响稳定系数 2复本信度 alternative-form reliability 又称等值性系数它是用两个假定功能相等但是内容不一样的测验复本来测量同一个群体然后求出受测者在这两个测验上得分的相关系数 如果一个测验无法施测两次那么就要通过平行测验来计算其结果的信度 复本信度虽能较好地克服再测信度的练习记忆效应但原测评中的一些技能技巧也会产生迁移效应 3内部一致性信
28、度 consistency reliability 再测信度和复本信度是对测量跨时间的稳定性和跨形式的等值性的控制 而内部一致性信度主要关注的是测验内部题目之间的关系它所考虑的问题是一个测量工具所有的维度测量的均一性 内部一致性信度包 括分半信度和同质性信度 1分半信度 split-half reliability 系数 分半信度是将一份测验按照一定的方法分成尽可能平行的两个半份测验 例如按照奇偶分半 然后计算两半之间的相关得到的相关系数即为分半 信度系数 在其他条件相等的情况下测验越长信度系数越高因此分半系数会低估信度必须进一步进行修正 三信度系数 信度系数 reliability 是真分数
29、 true score 的方差与观察分数 ob-served score 的方差的比例 r StSx 它可以解释为在实得分数的变异数中有多大比例是由真分数的变异引起的 我们可以用信度系数来表示信度的高低程度 信度是一种特殊的相关它测量的是观察值的一致性 稳定系数 稳定系数是用来估计再测信度前后两次测评与选拔结果的一致性程度通常采 用积差相关系数求得计算公式为 式中为稳定系数N为测评结果数据的个数X为被分析的测评结果数据 y为重复测评结果数据 越接近1 说明测评结果可靠程度越高反之切nu评结果可靠程度越低 例1 一次品德测评后随机抽取了其中10名被测其测评分数如下747180 857677776
30、87474再次测评后10名被测的分数依次分别是8275818982 8988848087请对这次品德测评结果的可靠性进行分析 用积差相关法求出稳定系数再对测评结果的可靠性进行分析 由抽样结果可得 X 756 y 837 x2 57352 y2 70245 xy 63369 N 10 代入公式得 经统计检验相关系数未达到显著水平因此这次品德测评的结果的信度不高 可靠性不够 等值系数 等值系数是用来估计复本信度两次等值测评结果的一致性程度它的计算与稳 定系数相似通过计算两次测评数据之间的相关系数来求得等值系数 当测评结果是分数形式时用积差相关法计算当测评结果为等级或名次时用等级相关法计算 其计算公
31、式为 内在一致性系数 内在一致性系数是用来估计不同测评项目则评数据的一致性程度且这些项目都是测评同一种素质 内在一致性系数的估计方法通常有两种一种是项目折半分析另一种是系 数分析 所谓项目折半分析是把一个测评分成等值的两半得到两组测评分数计算两组之间的相关系数再代人下列公式得到整个测评信度的系数即内在一致性系数 意志过程的差异 意志是有意识地支配调节行为通过克服困难实现预定目的的心理过程 构成意志力的稳定因素称为意志品质人们在独立性坚定性果断性和自制力等 意志品质方面存在着重要的差异 意志是有意识地支配调节行为通过克服困难实现预定目的的心理过程 构成意志力的稳定因素称为意志品质人们在独立性坚定
32、性果断性和自制力等 意志品质方面存在着重要的差异 意志的独立性是指一个人不屈服于周围人们的压力不随波逐流能根据自己 的认识与信念独立地做出决定执行决定 独立性的人对于自己的决定和执行是 经过理智思考的独立性的对立面是受暗示性受暗示性高的个体很容易受别人的 影响他们的行动不是从自己的信念和认识出发而是为别人的言行所左右 意志的果断性表现为个体有能力及时采取有充分根据的决定并且在深思熟虑 的基础上去实现这些决定 具有良好的意志果断性品质的人善于审时度势善于 对问题情境做出正确的分析和判断洞察问题的是非真伪果断性的对立面是优柔 寡断具有这种不良意志品质的人在决策时常犹豫不决在执行决定时常出现 动摇 意志的坚持性表现为长时间坚信自己决定的合理性并坚持不懈地为执行决定 而努力 具有坚持性的人具有明确的行动方向能在困难面前不退缩压力面前 不屈服引诱面前不动摇坚持性的对立面是动摇性和执拗 动摇性是遇到困难便 怀疑预定的目的不加分析便放弃对预定目的的追求动摇性高的人做事容易见异 思迁遇挫折便望而却步无法达到预定的目的而执拗的人对自己的行为不作理 智的评价总是独断专行这种人无法客观地认识形势尽管事实证明他是错的 他仍无动于衷自行其是 意志的自制力是善于控制自我的能力如善于控制自己的行为和情绪反应的能力等 有意志力的人能自我控制排除外界诱因的干扰自制力还表现为对自己的 情绪状态的调节如能很好地抑制
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1