情景性面试和行为描述性面试的.docx

资源描述

情景性面试和行为描述性面试的.docx

《情景性面试和行为描述性面试的.docx》由会员分享，可在线阅读，更多相关《情景性面试和行为描述性面试的.docx（27页珍藏版）》请在冰豆网上搜索。

情景性面试和行为描述性面试的.docx

情景性面试和行为描述性面试的

　　摘要：

情景性面试（SI）和行为描述性面试（BDI）是结构化面试的两种主要形式，但对二者哪个效度更高的问题国内外还没有形成一致的意见。

本文以68名大学生为被试，平衡设计情景性和行为描述性面试题目，采用多质-多法的验证性因素分析模型比较两种面试的构想效度，并以管理者评定为效标比较二者的效标关联效度。

结果发现BDI的因素效度更好，且BDI受评委效应和被试面试应答的社会期望性效应的影响更小；BDI和SI的效标关联效度都较高，其中BDI略好。

本研究的结论是BDI和SI都可以成为有效的人事测评工具，只是SI需要更严格的设计和控制。

　　关键词：

行为描述性面试；情景性面试；构想效度；效标关联效度；MTMM研究

　　一、问题的提出

　　面试是目前人事选拔和心理健康评估中广泛使用的方法［1］。

面试一般分为结构化面试与非结构化面试，它们的主要区别在于允许面试官所提问题的灵活性程度，而这也是导致非结构化面试的重测信度与复本信度较低的重要原因［2］。

结构化面试的效度显著高于非结构化面试，面试的效度会随着结构化程度的增加而提高［3］。

　　行为描述性面试（behaviordescriptioninterview，简称BDI）和情景性面试（situationalinterview，简称SI）是结构化面试的两种主要形式。

SI最早是1980年由Latham及其同事为改进传统的非结构化面试而提出的面试方法。

其理论基础是动机理论中的目标设置理论，这一理论认为，一个人的未来行为会在很大程度上受到他的目标或行为意向的影响，个体为自己设置的目标或意图是未来行为很好的预测指标。

基于该假设，SI的要点是给求职者设置一系列工作中可能会遇到的事件，并询问“在这种情况下你会怎么做”，以此来鉴别求职者与工作相关的行为意向，求职者对他们将来会怎么做的回答与他们将来真实的行为之间有非常大的相关性。

BDI的假设则是“过去行为是未来行为的最好预测指标”，面试中让应聘者追忆和表述过去的某种真实的行为事件，通过对这一事件的描述评定其心理素质。

BDI要求用不带有启发性的问题提问，并通过带有很高技巧性的追问来挖掘完整的行为信息。

　　SI与BDI的应用越来越广泛，很多研究发现两种面试的效度都较高，而且没有明显区别。

不少元分析研究表明SI和BDI都能预测广泛的效标行为，包括教育年限、任务绩效、组织公民行为等。

如Gibb和Taylor［4］在新西兰的社会工作者中使用匹配的情景性与行为描述性面试题目，发现SI和BDI对社会工作者的绩效都有较好的预测效度（r=.60和r=.40）。

Day和Carroll［5］以120名申请某课程的大学生为被试，以学业成绩为效标，研究发现SI与BDI对效标的预测效度同样好（r=.37，r=.36）。

Latham和Sue-Chan［6］对20个关于SI和BDI研究的元分析发现校正后的效度系数都在.50左右。

Taylor和Small［7］对30个关于SI的研究和19个关于BDI的研究进行总结，发现前者的平均效度为.45，后者为.56。

　　也有研究表明SI的效度高于BDI。

Latham和Skarlicki［8］发现只有SI与组织公民行为显著相关，BDI则不显著相关。

Klehe和Latham［9］以79个MBA学生为被试，其中男生29人，女生50人，行为描述性与情景性题目平行设置，各为9个题目，以MBA期间的团队工作成绩为效标。

结果发现SI和BDI的评分者信度分别为.83和.92，BDI的效度系数为.34，SI的效度系数为.41，二者差别不明显。

回归方程中，SI在BDI之外对团队工作绩效提供了更多的变异解释率，BDI则不然。

他们认为出现这一结果的原因是在研究设计中突出了情景性面试的4个主要特征，即注重应试者的意图、将应试者置于两难情景中、制订详细的评分细则和通过前期研究筛除没有区分性的问题。

四个月后，Klehe和Latham［9］又让同一批面试参与者用同伴评定的方法评定了每个人在团队工作中的典型绩效和最优绩效，结果发现BDI（r=.34）和SI（r=.41）都能预测典型绩效，而SI（r=.25）可以预测最优绩效，BDI则不能（r=.11）。

　　近年来有些研究者发现SI的预测效度，尤其是在复杂工作中的预测效度不如BDI。

如Pulakos和Schmitt［10］在一种复杂工作职位的申请者中实施了SI和BDI，每种面试的参与者都是108人，结果发现SI的效度为-.02，BDI的效度为.32，这使人们认为SI可能不适用于高层职位的人事选拔。

Huffcutt等［11］选择59名加拿大海军军官申请人为被试，其中男性52人，女性7人，以录取后上级对其工作表现的评价为效标，研究发现两种条件下SI的效度系数分别是.20和.02，而两种条件下BDI的效度系数分别是.47和.31，这支持了SI不适合高层职位选拔的观点。

Huffcutt等［12］对近期的54个研究进行了元分析，总样本量为5536，研究发现工作复杂性影响SI的效度，即随着工作复杂性的增加SI的效度会降低，但BDI的效度则不受工作复杂性的影响。

　　可见，国外对SI和BDI的效度问题尚存在争议。

有人认为SI的预测效度在简单工作中与BDI一样好，而在复杂工作中不如BDI［12，13］。

Klehe和Latham等则不同意这一观点，他们认为如果严格按照SI的原理设计面试，则SI在复杂职位选拔中也有很好的效度。

Klehe和Latham认为之所以在有些研究中出现SI效度不高的情况，是因为面试题目中没有设计两难处境（dilemma），或者没有充分的预备研究（pilotstudy）。

两难处境可以起到平衡社会期望性反应的作用，预备研究则有助于发现区分度不高的面试题目并加以删除。

　　SI与BDI的效度问题也开始引起我国学者的重视。

黎恒［14］发现在相对基层职位的人才选拔中，SI与BDI的效度并没有体现出明显差异；而在中层职位中，BDI的效度接近.50，SI的效度却出现了负值。

这一结果表明SI和BDI都适合简单职位的人事选拔，但是只有BDI适用于相对复杂职位的人事选拔。

但批评者［15］认为在多质-多法分析中，黎恒将测评的四个维度当做特质，将两种面试方法（即行为描述和情景）当作方法，研究结果的真实性值得怀疑：

SI与BDI各维度得分及总分间均是负相关，而且SI与效标间也是负相关，这与国外研究结果相左，令人怀疑面试的设计和评分的准确性。

杜红等［16］随机抽取了某上市公司的43位在岗中层管理人员作为面试实验对象，结果发现SI与BDI的信度系数都较高，而且没有明显差异。

SI在任务绩效上的回归系数为.35，在总体绩效上的效度系数为.364；BDI在任务绩效上的回归系数为.395，在总体绩效上的效度系数为.537。

因此可认为BDI的预测效度高于SI。

　　但与国外相比，国内关于SI和BDI的效度研究还不丰富，我们仍然不知道在中国文化背景下哪种面试更有效，及是否存在工作复杂性的调节作用等，该领域尚需要大量研究加以系统探讨。

本研究试图通过一个设计严格的模拟面试，借助先进的统计方法对此问题作出探索，希望研究结果能为我国的人事选拔工作提供建议。

　　二、研究方法

（一）被试

　　被试为某大学教育学院2005级的68名本科学生，所有学生都是自愿参加。

被试被告知参加的是一个模拟面试，面试结果只供研究之用，不对其学绩考核等产生任何影响；同时告诉他们面试过程和结果有助于其了解自身的优势与不足，为将来的工作应聘面试积累经验。

这种处理最大限度地争取了被试的合作，在保证被试较高测验动机的情况下将面试中的社会期望性反应（socialdesirabilityresponding，简称SDR）等偏差降低到最小，使研究结果更加客观真实，所发现的规律更有普遍性。

　　面试前编排被试序号，被试按照序号随机出场。

（二）面试设计与评分

　　与辅导员一起研讨哪些维度是大学生综合考评的主要依据，以及哪些维度会影响学生的学绩、职业发展、学校适应等，以此为依据选择了八项面试测评维度，分别是言语表达能力（verbal）、逻辑分析能力（reasoning）、计划组织能力（organization）、协调能力（coordinating）、建立伙伴关系（alliance）、自我管理能力（self-management）、责任心（responsibility）、应变能力（flexibility）。

在每个面试维度上都平行设计情景性和行为描述性问题各一个，并采用李克特十点量表对情景性和行为描述性面试维度分别进行评分。

面试时一半被试先提问行为描述性问题再提问情景性问题，另一半则是先提问情景性问题再提问行为描述性问题，以平衡顺序效应。

　　每个被试面试时间大约为45分钟，在10天时间内完成所有面试工作，5名评分者都参与了所有68名被试的面试和评分。

面试结束后评委即根据评分标准进行独立评分。

为保证评分准确性，面试过程中做了录音，间隔半个月后让每个评委再听录音，根据录音对初次评分进行修正。

所有评委的两次评分都是在研究者的监督下进行的，保证了每个评分都以被试的行为和情景描述为依据，并严格参照评分标准。

所有评委都是先听全部被试的行为描述性问题录音，对行为描述性问题的初评结果进行修正，再听全部被试的情景性问题录音，然后对情景性问题的初评结果进行修正。

行为描述性和情景性面试的录音评分过程中均对顺序效应进行了平衡，最大限度地减少了两类面试问题在评分上的相互干扰，使评分准确客观。

　　（三）试测和对主试的培训

　　研究发现，有经验且专业的主试可以提高面试的信度和效度［17］。

因此，本研究面试评委小组为心理测量专业的5位研究生，都有从事人事测评工作的经验，而且参加本研究前都接受了集体培训（内容包括结构化面试的要求、误差控制、面试中的人际互动等）。

在正式面试之前选择8名本科生（不属于正式被试）进行了试测。

试测时采用与正式面试相同的程序，试测后让各评委独立评分，面试结束后再讨论各自评分的依据，直到评分标准统一。

试测使各评委之间能协调一致，同时也增强了评委在面试过程中对偶然情况的应变能力。

试测后再让评委对面试中存在的问题进行研讨，进一步熟悉面试要求。

集体培训、试测及试测后的研讨时间不少于5个工作日。

　　三、结果

（一）行为描述性面试的多质-多法验证性因素

　　分析

　　本研究采用多特质-多方法（multipletraitmultiplemethod,MTMM）的设计思路编写LISREL的验证性因素分析（CFA）程序。

MTMM是探究构想效度的一种有效方法，而且在人事测评与选拔及心理健康诊断领域有较为广泛的应用。

本研究借鉴前人研究，将MTMM应用到结构化面试中。

在本研究中，程序中将5个评委对8个维度的40个评分向量定义为观测变量，定义8个面试维度为8个潜变量，即8个特质效应，5个评委定义为5个潜变量，即5个方法效应，这样共有13个潜变量，比较两套对应的数据（即由行为描述性面试和情境性面试各自获得的一套数据）与多个模型的拟合差异情况。

　　本研究在选择合适的MTMM模型时使用的是可互换方法（interchangeablemethod），即从一组高度类似的方法中随机挑选的方法。

　　本模型中，每个观测变量都同时测量一个特质因素和一个方法因素。

如评委1对维度1的评分向量被设定为在潜变量1（即面试的第一个维度）和潜变量9（即评委1的方法效应）上有载荷。

设置方法因素的依据是每个主试在评分时都存在不同程度的主观好恶，因此对每个被试评分时都会出现系统误差，这一系统误差于是被设置为方法因素。

不同主试体现出的方法因素存在程度上的不同。

　　由于行为描述性和情景性测评数据都有不同程度违反正态分布的情况，因此在计算本文中所有模型的拟合度时采用了Satorra-Bentler提出的校正卡方统计量。

　　1.行为描述性面试的模型拟合度

　　运行LISREL程序，估计出行为描述性面试多质-多法CFA模型的拟合度指标，见表1。

　　表1.行为描述性面试多质-多法CFA模型的拟合度

　　（含评委效应）模型

　　χ2

　　χ2/df

　　NFI

　　NNFI

　　CFI

　　IFI

　　RFI

　　RMSEA

　　SRMR

　　1208.44

　　1.79

　　.91

　　.97

　　.90

　　.080

　　.084

　　表2.行为描述性面试验证性因素分析的模型拟合度

　　（不含评委效应）模型

　　χ2

　　χ2/df

　　NFI

　　NNFI

　　CFI

　　IFI

　　RFI

　　RMSEA

　　SRMR

　　1433.94

　　2.01

　　.87

　　.92

　　.93

　　.85

　　.120

　　.130

　　从表1中结果可知，行为描述性面试含评委效应的CFA模型的卡方/df比率小于2，NNFI、CFI、IFI都大于.90，接近.95，唯有RMAES和SRMR大于各自的理想值.05和.06，但仍处于可接受的临界点上。

从这些拟合指数的取值判断，可认为假设模型是得到了数据的支持的。

就是说从5个评委对8个维度的评分中可以抽离出8个特质因素（即面试的8个维度）和5个方法因素（即评委效应）。

这一模型的拟合度明显好于不含评委效应的八因素模型（即只将8个面试维度设为潜变量），结果见表2。

表2中卡方、NNFI等几个指标的取值尚好，RMSEA和SRMR却大到了难以接受的地步，即使勉强认为模型拟合，也不得不承认，观测变量的协方差没有被充分地解释。

只有引入评委因素，即方法效应，模型拟合才能变得更好。

这就是说面试中特质效应和评委效应都存在，但在行为描述性面试中评委效应所起的作用并不是很大，因为两个模型间模型拟合度的差异不太大。

这一点有待下文进一步验证。

　　2.行为描述性面试的特质效应与方法效应

　　以下我们再通过计算MTMM模型中特质效应和评委效应的因素载荷系数来分析评委效应的大小，见表3和表4。

两表中所列都是标准化的载荷系数，其取值可直接比较大小，载荷的大小体现了一个观测分数受潜变量影响的程度。

从表3和表4中可以看出与方法效应相对应的载荷都不大，只有一个超过.50，且绝大多数小于特质效应的载荷。

说明面试评分更多地受特质因素影响而较少受方法因素影响，即被试在行为描述性面试中的得分较多地取决于被试在各测评维度上能力的高低，而不太受主试者评分主观因素（如感情好恶等）影响。

也就是说，方法因素是存在的，但其影响不大。

　　表3.行为描述性面试多质-多法CFA模型中各维度的评委效应（方法效应）

　　评分向量

　　评委

　　效应1

　　评委

　　效应2

　　评委

　　效应3

　　评委

　　效应4

　　评委

　　效应5

　　言语表达得分

　　.28

　　.30

　　.10

　　.16

　　.34

　　逻辑分析得分

　　.32

　　.33

　　-.01

　　.14

　　.32

　　计划组织得分

　　.18

　　.24

　　.08

　　.33

　　.35

　　协调能力得分

　　.44

　　.46

　　.22

　　.15

　　.29

　　建立伙伴得分

　　.26

　　.20

　　.11

　　.36

　　.24

　　自我管理得分

　　-.04

　　.17

　　.23

　　.28

　　.20

　　责任心得分

　　.10

　　.28

　　.73

　　.24

　　.27

　　应变能力得分

　　.42

　　.10

　　.03

　　.12

　　绝对值的均值

　　.25

　　.30

　　.21

　　.27

　　表4.行为描述性面试多质-多法CFA模型中各维度的载荷（特质效应）

　　评分向量

　　言语表达

　　逻辑分析

　　计划组织

　　协调能力

　　建立伙伴

　　自我管理

　　责任心

　　应变能力

　　评委1评分

　　.67

　　.79

　　.73

　　.66

　　.68

　　.62

　　.55

　　.61

　　评委2评分

　　.77

　　.83

　　.81

　　.69

　　.70

　　.60

　　.67

　　.70

　　评委3评分

　　.85

　　.81

　　.80

　　.79

　　.88

　　.76

　　.69

　　.80

　　评委4评分

　　.86

　　.80

　　.71

　　.78

　　.77

　　.75

　　.88

　　评委5评分

　　.88

　　.83

　　.87

　　.67

　　.79

　　.95

　　.87

　　.90

　　平均值

　　.81

　　.82

　　.80

　　.71

　　.77

　　.75

　　.72

　　.78

（二）情景性面试的多质-多法验证性因素分析

　　1.情景性面试的模型拟合度

　　采用与行为描述性面试中相同的多质-多法验证性因素分析模型，对情景性面试的结果也进行了CFA分析，结果见表5和表6。

　　表5.情景性面试多质-多法CFA模型的拟合度

　　（含评委效应）模型

　　χ2

　　χ2/df

　　NFI

　　NNFI

　　CFI

　　IFI

　　RFI

　　RMSEA

　　SRMR

　　963.32

　　1.43

　　.88

　　.93

　　.94

　　.86

　　.110

　　.200

　　表6.情景性面试验证性因素分析的模型拟合度

　　（不含评委效应）模型

　　χ2

　　χ2/df

　　NFI

　　NNFI

　　CFI

　　IFI

　　RFI

　　RMSEA

　　SRMR

　　1859.54

　　2.60

　　.82

　　.87

　　.88

　　.80

　　.150

　　.220

　　从表5中的结果可知，情景性面试（含评委效应的多质-多法模型）的因素分析结果不很理想，虽然卡方/df、NNFI等指数可以接受，但RMSEA和SRMR的取值已经超出了可容许的最大限度，就是说模型很可能是与数据不拟合的。

虽然总体上的因素结构可能是合理的，但至少有一部分观测变量间的关系没有被模型充分解释。

与行为描述性面试的多质-多法CFA结果相比，情景性面试的模型拟合度更差。

这说明行为描述性面试有与理论假设更一致的因素结构，也即有更好的构想效度（constructvalidity）。

相比之下情景性面试的因素结构则更为复杂。

　　表6中为不含评委效应的CFA模型（只将面试维度作为潜变量的八因素模型）。

对比表5和表6中的结果可知，情景性面试的验证性因素分析中，含评委效应和不含评委效应的模型拟合度都不好，但在引入评委效应后，模型拟合度有所改善。

这说明情景性面试中也存在评委效应，即方法效应，且方法效应也不太大，但大于行为描述性面试的方法效应。

　　情景性面试中即使将评委效应引入多质-多法CFA模型，模型拟合度也不是非常理想，说明除8个特质效应和5个评委效应外，可能还有其他因素影响了面试结果。

综合以往文献可知，这一因素可能是社会期望性应答因素或面试动机因素。

为对这一因素进行评估，我们在8个特质因素和5个评委因素之外设置了第14个潜变量，即SDR因素。

SDR因素被设定为在5个评委对8个面试维度的40个评分向量上都有载荷。

该模型的拟合度列于表7中，为便于对比，表7中还列出了行为描述性面试引入SDR因素后的模型拟合度。

　　表7.引入SDR因素后两类面试的模型拟合度

　　面试

　　类型

　　χ2

　　χ2/df

　　NFI

　　NNFI

　　CFI

　　IFI

　　RFI

　　RMSEA

　　SRMR

　　872.76

　　1.38

　　.89

　　.93

　　.95

　　.87

　　.076

　　.074

　　BDI

　　888.04

　　1.41

　　.90

　　.94

　　.95

　　.87

　　.078

　　.068

　　从表7可见，情景性面试在引入SDR因素后模型的拟合度很好，即使按CFI等≥0.95的严格标准，也可认为模型是拟合的，即有很好的理论构想。

这一模型与不含SDR的模型（见表5）相比拟合度发生了很大变化，说明情景性面试中SDR因素是存在的，而且起了不小的作用。

　　而行为描述性面试在引入SDR因素后模型的拟合度虽然也有改善，但改变量并不很明显，说明行为描述性面试中SDR的作用没有情景性面试中的大。

这给我们的启示是，情景性面试中更应控制SDR。

　　2.情景性面试的特质效应与方法效应

　　情景性面试中采用多质-多法CFA模型计算出的各维度的评委效应（方法效应）和特质效应见表8和表9。

　　表8.情景性面试多质-多法CFA模型中各维度的评委效应（方法效应）

　　评分向量

　　评委

　　效应1

　　评委

　　效应2

　　评委

　　效应3

　　评委

　　效应4

　　评委

　　效应5

　　言语表达得分

　　.36

　　.74

　　.33

　　.30

　　.44

　　逻辑分析得分

　　.34

　　.36

　　.34

　　.13

　　.45

　　计划组织得分

　　-.24

　　-.07

　　.44

　　.28

　　.39

　　协调能力得分

　　.08

　　.40

　　.66

　　.40

　　.32

　　建立伙伴得分

　　.19

　　.22

　　.47

　　.53

　　.66

　　自我管理得分

　　.54

　　-.16

　　.35

　　.67

　　.54

　　责任心得分

　　-.17

　　-.16

展开阅读全文