1. 引言
任何一门学科,研究方法的发展与提升无疑在其历史发展进程中发挥着举足轻重的作用。心理学之所以摆脱哲学附庸而成为一门独立学科关键在于其研究方法(实验法)的进步。现代科学技术的迅速发展为心理学的研究提供了硬件支撑,如E-prime、Presentation以及Inquisit等实验软件的开发为心理学实验研究提供了可视化平台,而ERP、fMRI等仪器的应用则使得研究者能够在更加微观的层面探寻复杂的心理世界。
然而,毛志雄等(2012)在对国内外体育运动领域心理测量研究的计量学分析中发现,2008~2011年期间,国外共发表708篇运动心理学论文,其中以心理测量为主要内容和方法的文章277篇,占39.1%,其中,以心理量表研制的论文有63篇,占22.7%,占总数的8.8%;国内共发表626篇运动心理学论文,其中以心理测量为主要内容和方法的文章166篇,占26.5%,其中,以心理量表研制的论文34篇,占20.5%,占总数的5.4%。由此认为,心理测量方法并未过时,依然是运动心理学研究的重要方法之(毛志雄,董文博,于拓,2012)。
在心理学量表或问卷编制过程中,信度与效度是不可回避的两个重要问题,信度与效度的检验也是心理学量表或问卷编制中必不可少的步骤。信度检验通常采用重测信度和内部一致性;而效度检验包括内容效度、结构效度(构想效度)、实证效度(效标关联效度)等。对于上述的各种信效度都有相应的统计方法或指标来验证,例如,可以采用克伦巴赫系数检验内部一致性,相关分析检验重测信度和效标关联效度,因子分析检验结构效度。然而,对于内容效度应该用哪种统计方法或指标来检验,国内心理测量学教材阐述较少,即便提及也是以定性方法讨论为主。在运动心理学量表编制中,对内容效度检验的忽视也是大量存在。基于此现状,本文旨在对运动心理学量表编制中内容效度的定义、意义、评定程序以及量化检验方法进行阐述,以期引起体育科学研究者的重视,促进运动心理量表研制的科学化、规范化。
2. 内容效度的定义
对于大多数读者而言,内容效度的概念及评定方法主要是从国内心理测量学教材中了解到的,关于内容效度的定义包括如下:内容效度是指测验项目对欲测的内容或行为范围取样的适当程度(郑日昌,蔡永红,周益群,2002);内容效度是指一个测验实际测到的内容与所要测量的内容的吻合程度(戴海崎,张锋,陈雪枫,2002);内容效度指一个测验的内容代表它所要测量的主题的程度(张力为,2002)。关于内容效度的评定,亦有简要阐述。张力为(2002)认为,检验内容效度可以采用4种方法,即专家判断、统计分析、再测分析以及经验评定(张力为,2002)。第1和第4种方法属于定性分析,第2和3种方法属于定量检验。前者依靠是专家的经验对测验的题目是否能够很好地反映所要测量的内容,后者虽是定量分析,实则是评价测验的信度,即利用复本信度与重测信度来推测测验的内容效度。无论是从上述内容效度的定义来看,还是从评定方法上分析,一般认为,内容效度更适用于诸如各类考试(语文、数学、英语等)的成就测验领域。因此,有学者认为,内容效度缺乏理想的数量指标,因而妨碍了信息交流和各测验间的相互比较(郑日昌,蔡永红,周益群,2002;戴海崎,张锋,陈雪枫,2002;张力为,2002)。或许也是基于此,国内心理学量表编制中较少提及内容效度的检验。那么,心理学量表编制真的不需要内容效度检验吗?或者是因为缺乏恰当的检验方法而放弃呢?
由于心理学量表往往是测量一个抽象的构念,而抽象构念具有一定的理论结构,或者是单一维度结构,或者是多维结构(大多数情况)。因此,对于心理学量表的内容效度的操作界定与成就测验中的内容效度操作界定存在一定的差异。查阅国内外相关文献,关于内容效度的定义如下:内容效度是指一个测量工具拥有适当条目样本测量其所要测量的结构的程度(Polit & Beck, 2004);内容效度是指一个测量工具所包含的条目样本是否有足够代表其所要测量的内容领域(Waltz, Strickland, & Lenz, 2005);内容效度是指当测量某一现象时,测量工具拥有足够抽样范围的程度(Wynd, Schmidt, & Schaefer, 2003);内容效度是指测量工具中的条目样本能恰当地反映所要测量概念的程度(刘可,2010)。尽管成就测验中的内容效度与心理学量表中内容效度的界定大致相似,但从上述国外文献的定义中可以发现,心理学量表的内容效度更侧重条目与结构的关系,即量表条目能够测量其所要测的潜变量(结构)的程度或量表条目与其对应潜变量的相关程度,而成就测验的内容效度更侧重整体内容,即测验题目是否涵盖其要测量的主题范围。因此,有学者将心理学量表内容效度称之为条目内容效度或条目内容相关度,因为条目内容相关度是与内容效度密切相关的效度信息(Messick, 1989)。由于心理学量表内容效度强调条目与其对应结构(维度)的匹配程度,因此,可以选择专家评价法按李克特式5点或7点计分方式对条目与结构(维度)匹配程度进行评定,从而获得量化指标。显然,由于心理学量表内容效度更侧重于条目–结构的关系评定,因此,其评定方法更易量化。
3. 内容效度检验的必要性
任何心理学量表或问卷的编制,研究者都需要严格遵循心理测量学中量表编制的研究程序,并提供该量表的信度与效度信息。在以往量表编制的效度检验过程中,研究者更加重视结构效度和效标关联效度的检验,这可以从运动心理学量表编制论文中窥见一斑。内容效度是量表或问卷编制过程最被忽视的一道程序,大多数研究通常仅用些许文字进行简要表述,如“经过有关专家评定,量表或问卷具有良好的内容效度”,诸如此类的表述在量表或问卷编制俯拾皆是。少数研究采用李克特式专家评定对量表或问卷的整体内容效度以“很好”、“较好”、“一般”、“较差”以及“很差”等等级进行评定,确定选择“较好”和“很好”等级的专家人数比例,进而以此判断量表的内容效度。显然,由于国内教材普遍对心理学问卷内容效度的量化检验缺乏详尽介绍,以致大多数研究者对内容效度的检验避而远之或者认为没有必要。内容效度的检验方法与内容效度的界定紧密相连,概念界定决定了其检验方法。从上述对内容效度的界定来看,国内教材对内容效度的界定仅适合于成就测验领域,如语文、数学、历史等课程考试,而国外文献对内容效度的界定更强调测量工具条目与其对应的潜变量(结构)或维度(分量表)的匹配程度。国外文献对内容效度的定义更适用于测量抽象概念如人格、能力、态度等心理学构念的量表或问卷。
国外研究者认为测量和报告内容效度在心理学量表编制中非常重要,它可以促进和确保结构效度(Anastasi, 1988; Haynes, Richard, & Kubany, 1995; Yaghmale, 2003)。所谓结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,或者说是指测验分数能够说明心理学理论的某种结构或特质的程度(戴海崎,张锋,陈雪枫,2002)。大多数心理学量表的结构效度都需要通过因子分析来进行检验。因子分析包括探索性因子分析和验证性因子分析,探索性因子分析时从数据出发,寻找影响条目之间的共同因子;验证性因子分析时从理论出发,检验影响量表条目之间的共同因子。在以往量表编制过程中,结构效度的检验是量表编制论文中比重最大,讨论较多的部分。同时,量表条目的修订、删除、保留也大多发生在结构效度检验过程中。如前所述,心理学量表中的内容效度检验实则就是对条目–维度匹配性的检验,其核心思想与结构效度的检验类似。不同之处在于内容效度检验是通过专家对条目–维度的匹配性进行判断,而结构效度检验是通过被试对条目的反应来找出共同因子。因此,内容效度检验可以看作是结构效度检验的预检验。良好的内容效度可以减少结构效度检验过程中由于条目的不合理或表述不清导致的条目修改或删除等问题。此外,内容效度检验不仅对条目与对应维度的匹配程度进行检验,也检验条目与非对应维度的匹配程度,通过对条目与非对应维度匹配程度的检验来修改或删除那些与2个或多个维度匹配的条目,这为后续结构效度检验中的探索性因子分析减轻了负担。因此,从内容效度检验的内容与本质来看,内容效度是结构效度中的重要组成部分。
4. 内容效度的评定程序
从国内外有关内容效度的评定方法来看,内容效度一般采用专家评价法。然而,国内教材中只是提及了采用专家评价法,至于如何评价?评价包括哪些方面?评价内容包括什么?评价标准是什么等诸如之类的信息则没有阐述。因此,对于内容效度的具体评定程序阐述尤为重要。
如前所述,内容效度评定方法为专家评价法。那么,内容效度评定的第一步则要确立谁是“专家”,哪些群体具有专家的资格?或者说如何确定专家的资格?国内研究者在编制心理学问卷或社会调查问卷时通常选取与其问卷内容相关领域的专家作为内容效度的评定专家,如运动心理学量表内容效度的评定则寻找国内运动心理学领域教授作为评定专家。然而,大多数运动心理学量表测试的群体为运动员,少数针对教练员或体育教师,因此,量表的条目是否合适,被测试的群体(运动员或教练员)具有一定话语权。Yao等(2008)认为内容效度的评定不能局限于由某一领域的专家进行判断,更需要“反应者”,即被试来进行判断(Yao, Wu, & Yang, 2008)。由此看来,运动心理学量表编制过程中内容效度的评定“专家”不仅仅局限于某一领域的教授或专家,运动员或教练员亦可作为“专家”。教练员作为运动员的导师,其对该运动项目比较熟悉(包括一些业内行话),亦对运动员具有较为深入的了解。而运动员本身作为该量表测试的对象,选择他们作为该量表的内容效度评定专家显然也具有重要意义。当然,不同类型的“专家”各有其优势与不足。运动心理学专家的优势在于其能够以专业知识(心理测量学)的角度来考虑条目的合理性,且具有该领域的相关理论知识背景,同时也理解问卷编制过程中内容效度检验的重要性,但其可能缺乏对该项目运动员的运动经历的体验或对于该项目运动训练或竞赛中的专业术语(行话)缺乏了解以及缺乏对运动员文化知识水平(言语阅读水平)的客观判断。与运动心理学专家相比,运动员与教练员可能不具备相关的专业理论知识,但他们拥有该项目的丰富运动经历与体验,可以从自身体验或经验上去判断条目内容的语词专业性。
确定了“专家”之后,即选定了哪些人群具备“专家”资格后,还需要确定“专家”的数量,即由多少数量的“专家”来对问卷的内容效度进行评定。关于专家的数量,目前尚无统一定论。但有一点可以确定,专家数量不能过少,统计学的知识告诉我们过少容易出现极端偏差。大多数研究者在量表编制过程中选择专家的数量较为随意,Lynn (1986)认为,从统计学的角度来看,专家至少应在5人以上(Lynn, 1986)。当然,从统计学的角度来看,专家数量越多越好,越有利于控制并确立极端值或偏差(Haynes, Richard, & Kubany, 1995)。
确定了“专家”及具体人数后,就进入到评定环节。在这个阶段中,首先需要为专家提供该量表的理论背景(理论结构)介绍,特别是所测构念的理论背景,这包括所测构念中每个维度(分量表)的含义。专家只有了解了该量表的理论背景及其构念结构后,才能对量表的条目作出客观的定量评价。具体而言,就是要求专家判断条目与其对应的维度(分量表)的匹配程度进行等级评价,这是内容效度检验的核心内容。这一评定过程包括两种形式,一种是在评定指导语中告知专家每个维度(分量表)所包含的条目,并要求其对每个条目与该维度的匹配程度进行等级评价;另一种是在评定指导语中省去每个维度所包含的条目信息,即专家并不知道每个维度包含哪些条目,同时要求专家就每个条目与所有维度的匹配程度进行等级评价,此种形式也就是心理学研究设计中常用的单盲研究设计。采用单盲研究设计评定内容效度可以避免由于专家预先知道条目所对应的维度导致的社会期望效应,从而提高专家评定的客观性与真实性。
除了要求专家采用李克特式等级评价方法对量表的条目–维度匹配程度进行量化评价之外,定性评价也是内容效度评定中重要部分。量化评价可以获得关于量表内容效度高低的具体数值,而定性评价则为量表编制者提出了量表或条目具体修改的方案。定性评价主要涉及对条目内容的用词、语法、语句等是否适宜进行定性评价。当然,亦可采用定量的方式对此进行评价,如护理研究领域中相关测量工具内容效度评价则采用量化的方法对条目的清晰性、简洁性以及模糊性进行等级评价(Yaghmale, 2003)。综上所述,内容效度的检验主要涉及两个主题,其一是测试工具中所包含条目与其对应的潜变量(维度)的匹配程度,其二则是条目内容本身的合理性,包括文字表述是否清晰、用词是否专业等。为此,笔者认为,对于内容效度的评定应当采用量化评定与定性评定相结合。量化评定主要从条目–维度匹配性程度上获得量化指标,而定性评定则主要从条目内容的言语表述上进行分析并提出修改建议。
总体而言,Dunn (1999)认为内容效度的评定需要注意以下几个问题:专家成员的结构;专家成员的人数;专家评定条目–维度匹配性的程序;对专家关于条目–维度匹配性评定结果的统计处理的方法选择;确立条目修改、删除或保留的标准(Dunn & Bouffard, 1999)。
5. 内容效度的量化指标及其计算方法
目前,内容效度评定已在医疗护理研究领域的测试工具中被普遍应用,该领域主要采用内容效度指数作为内容效度的量化指标(Polit & Beck, 2006; Polit, Beck, & Owen, 2007)。鉴于文章篇幅,本文仅介绍几种已被体育运动领域心理学量表编制广泛采用的内容效度量化指标,并通过实例介绍其计算方法。
正如本文第3部分介绍了心理学量表内容效度的评定程序中提到内容效度的主要评定方式是采用专家评价法,即由专家组成员对量表的条目–维度匹配程度进行李克特式等级评价计分,再进行统计分析,从而确定量表的条目内容效度。那么在实际运动心理学量表编制过程中,有哪些指标可以作为内容效度的评价指数呢?
Aiken (1985)的V系数经常被用来作为评价内容效度的效度系数,其计算公式为
。其中,n代表参与评定专家人数;c为李克特式等级数;r为每位专家对某一条目与某一维度的匹配程度的评分;lo为李克特式等级中最低等级分数;
;
。
下面以竞赛状态焦虑问卷(CSAI-2)为例,介绍Aiken (1985)的V系数计算过程。该量表包括3个维度(分量表),即认知状态焦虑、躯体状态焦虑以及状态自信心(为了行文方便,下文中中文用认知、躯体和自信代替,英文用Cog、Som和Con代替)。假设参与内容效度评定专家人数为7人,计分方式按李克特式5点计分(1~5分,1代表完全不匹配,5代表完全匹配)。7位专家对条目1与认知、躯体以及自信息维度的匹配程度计分见表1。
Table 1. Matching degree of cognitive, physical, confidence and item 1 from experts
表1. 专家对条目1与认知、躯体以及自信心维度匹配程度计分一览表
根据V系数计算公式以及表1中的数据可分别计算条目1与各位维度的匹配程度的S值(见表2)。根据S值可分别计算条目1与各维度匹配程度的V系数,结果得出:条目1–认知V系数为0.03;条目1–躯体V系数为0.93;条目1–自信心V系数为0.14。依据Aiken (1985) V系数显著表可知,r = 7,c = 5时,V > 0.75,即P < 0.05。因此,条目1与躯体维度的匹配性达到显著性。
Table 2. The matching degree S value of item 1 and each dimension
表2. 条目1与各维度的匹配程度S值
上述的例子得出的V系数只能告诉我们条目1与躯体维度匹配性达到显著性,但没有提供条目1–躯体维度与条目1–非对应维度(认知与自信心)之间是否存在差异。换言之,是否存在条目1共测两个以上维度的情况,这与探索性因子分析中某一条目在多个因子上载荷较高的情况类似。因此,需要采用Cohen (1977)的ES (效果量)来进行区分条目–对应维度与条目–非对应维度匹配程度差异。ES的计算公式为
。其中,M1指专家组成员对条目1与某维度匹配程度的平均计分,M2指专家组成员对条目1与另一维度匹配程度的平均计分;S12指M1的方差,S22指M2的方差;r12s1s2指M1和M2的协方差。依据表1中的数据可以分别算出7位专家对条目1与各维度匹配的均分、标准差、方差(见表3)。
Table 3. The statistical indicators of the matching score of each dimension and item 1 from experts
表3. 专家对条目1与各维度匹配计分统计指标汇总
同时通过计算相关系数,可以得到Rsom.cog为0.26,Rsom.con为0.73。结合表3的数据,可以计算出躯体–认知的ES和躯体–自信的ES,分别为6.68和4.82。两个ES值都远远大于0.8,因此,可以得出条目1与躯体的匹配程度显著高于认知和自信两个维度。
6. 小结
内容效度作为心理学量表编制过程中的一个重要效度指标,目前已在国际上逐步得到重视,特别是在护理研究领域。例如,国际《护理与健康》杂志对于量表编制的论文要求作者必须提供内容效度的评价程序与数据指标(Forman & Schmitt, 2003)。国际运动心理学量表编制已开始重视内容效度的检验(Zourbanos et al., 2009; Martin et al., 2011; Wiersma, 2011),然而,国内在运动心理学量表编制过程中不仅没有具体的内容效度检验,而且在量表编制过程中存在其他信效度检验问题(齐红梅,刘微娜,2013)。内容效度作为结构效度的重要组成部分,可以作为结构效度的预检验,可以减少结构效度检验中的条目删除或修改等繁琐的程度,在一定程度上促进结构效度。笔者希望通过本文的介绍,我国运动心理学量表编制过程中内容效度检验能够逐渐引起体育科研工作者的重视,也期待我国运动心理学量表编制或修订工作取得进一步发展。
基金项目
武汉体育学院“东湖学者”计划资助项目;武汉体育学院2021年度中青年科研团队资助项目(21KT06)。
NOTES
*通讯作者。