运用Delphi法构建基于计算机辅助语言评估系统一级条目的可行性分析

doi:10.12677/AP.2020.1010178

期刊菜单

运用Delphi法构建基于计算机辅助语言评估系统一级条目的可行性分析
The Delphi Method Is Used to Construct the Feasibility Analysis of the First Level Items in the Computer Aided Language Assessment System

DOI: 10.12677/AP.2020.1010178, PDF, HTML, XML, 被引量
作者: 关汉添^#, 陈嘉露, 黄咏榆, 刘韵, 谭赐生, 李佩宜：广州医科大学，广东广州；周钰^*, 黎莹：广州医科大学附属第二医院康复科，广东广州；陈卓铭：暨南大学附属第一医院，广东广州；黄祥敏：深圳市宝安中医院，广东深圳；曾庆：南方医科大学珠江医院，广东广州
关键词: 德尔菲法；语言评估；计算机化；Delphi Method； Cognitive Assessment； Computerized

摘要: 目的：运用Delphi法构建基于计算机辅助语言评估系统一级条目，发挥计算机的辅助作用，通过构建计算机辅助下的语言评估检测指标，为计算机语言智能系统量表构建提供理论基础。方法：文献查阅借鉴国内外语言量表应用情况，筛选一级指标，采用Delphi法，选取25位专家并对指标进行问卷调查和意见咨询。结果：国内外排名前三量表汉语失语检查法(ABC)、BDAE、WAB、结合(36项目)Token (筛查)，筛选出一级条目池。参与评卷专家25名(平均年龄38.41岁)，62.5%以上专家为硕士及以上学历。专家积极系数88%，意见提出率40%，Kendall’s W系数0.361，差异有统计学意义(P < 0.001)，根据专家意见集中程度筛选语言一级筛查条目是：听觉理解、自发性语言、口语表达、命名、阅读、复述。结论：专家意见集中，协调程度一致，筛选出合适的语言评估系统一级条目，为计算机构建语言评估智能系统量表提供可靠的理论基础。

Abstract: Objective: To construct a level 1 item of the computer-aided language assessment system (CATS) based on Delphi method. Methods: The first level indicators were screened by referring to the application of cognitive scale at home and abroad, and 25 experts were selected by Delphi method to conduct questionnaire survey and opinion consultation on the indicators. Results: Chinese aphasia test (ABC), BDAE, WAB, and combination (36 items) Token (screening) of the top three scales at home and abroad were selected to screen the first-level item pool. Twenty-five experts (average age 38.41 years old) participated in the marking, and 62.5% or more of them had master degree or above. The expert positive coefficient was 88%, the opinion proposal rate was 40%, Kendall’s W coefficient was 0.361, the difference was statistically significant (P < 0.001). The language level 1 screening items were auditory comprehension, spontaneous language, oral expression, naming, reading, and rehearsal according to the degree of expert opinion concentration. Conclusions: The expert opinion is concentrated, the degree of coordination is consistent, and the appropriate level 1 items of the cognitive assessment system are screened out, which provides a reliable theoretical basis for the computer to construct the intelligent language assessment system scale.

文章引用：关汉添, 周钰, 陈卓铭, 黄祥敏, 黎莹, 曾庆, 陈嘉露, 黄咏榆, 刘韵, 谭赐生, 李佩宜 (2020). 运用Delphi法构建基于计算机辅助语言评估系统一级条目的可行性分析. 心理学进展, 10(10), 1519-1528. https://doi.org/10.12677/AP.2020.1010178

1. 引言

据世界卫生组织的调查数据显示，2015年人口预期寿命达75岁(World Health Organization, 2017)，而我国60岁以上人口在2050年将达到31.1% (张文娟，魏蒙，2016)。随着社会进入老龄化的趋势不断发展，痴呆及脑卒中发病率增高，常伴随着语言功能障碍，表现在语言的理解、表达、复述、命名、阅读、书写等某一方面或几方面的功能障碍，引起语言交流受限，导致个人生活能力的严重退步，因此在DSM-5诊断标准中已将语言障碍列为痴呆的六项主症之一(刘增玲，2013)。

临床心理学家通过心理测验的方法研究大脑和行为的关系，酌情使用不同的量表。然而神经心理学测验因需要专门培训，花费时间长，且不同评测者信度不一，在临床应用中受到限制(刘增玲，2013)。随着医疗科技的发展，计算机辅助技术和虚拟语言康复逐渐应用于临床。计算机辅助下语言评估检测指标客观、检测过程严谨明了、检测操作方便、检测评估量化客观，同时，全智能化诊断并提供诊断符合率，使其能真正做到非专业人员也可使用，对缓解我国治疗师不足有重要的现实意义(谢波，康德智，郑建民等，2010)。本研究根据使用的汉语文化及特点，在既往研究基础上，利用标准量表编制流程，筛选出合适的语言评估系统一级条目，为计算机语言智能系统量表构建提供可靠的理论基础。

2. 研究对象

遴选专家小组25人，专家小组成员由采用课题小组组长推荐及所选专家推荐的方式为主，推荐对象需在此研究领域具有一定权威和经验，突出专业性和敬业性。

纳入标准(敖漫，2015)：1) 工作领域：临床医学、神经病学、语言学、神经心理学、流行病学和医学统计学。2) 医学专家必须来自三级甲等综合性医院，副高级职称以上。3) 本领域工作10年以上。4) 硕士及以上学历。5) 对此研究感兴趣，态度积极，能完成整个实验评估过程。

3. 研究方法

3.1. 语言评估系统一级指标的筛选

分析国内外使用可靠、诊断准确、应用广泛的语言评估及筛查量表，分析其构架和特点，并加以改进，确定基于计算机化语言评估筛查量表的一级指标。

3.2. 采用德尔菲法对基于计算机语言智能评估系统的指标进行评价

本课题研究以德尔菲法(曾光，1994)对指标进行评价，采取匿名方式进行函询获取专家意见，议题小组对意见汇总、修改。当查阅文献专家数量接近25人时进一步增加人数对预测精度影响很小(孙振球，2006)。

3.2.1. 成立课题小组

课题小组共3人，成员分工：1名组员负责查阅文献，初步筛选出一级指标，初步编制专家函询问卷，统计问卷结果。1名组员担任联络员，负责与专家沟通，向议题小组报告专家组意见。1名组长负责统筹及协调、遴选专家，召开小组讨论后决议。

3.2.2. 设计“基于计算机语言智能评估系统”指标的函询问卷

该函询问卷包括四部分：1) 调查说明书，阐述本课题的研究背景、目的、意义。2) 专家的基本情况，包括年龄、性别、职称、学历、工作年限。3) 正文即权威程度表：包括专家对指标判断依据，认为重要程度等级。内容：包括基于计算机语言智能评估系统的一级指标，指标的重要性程度按Likert分级评分法划分为相应级别，按照专家意见重要程度性分7个级别，并赋值。1 = 很不重要、2 = 不重要、3 = 不太重要、4 = 一般重要、5 = 比较重要、6 = 很重要、7 = 特别重要。4) 专家可以根据自己的临床实践经验提出补充和修改意见，完善量表内容。

3.2.3. 发放函询问卷并收集反馈意见

在会场中以现场评价方式由联络员向专家组发放调查问卷进行评价，回收并整理意见，统计数据，议题小组召开小组会议讨论后做出决议，完善一级指标。

3.2.4. 专家一般情况

对专家的年龄、性别、文化程度、职务、工作年限、职称等情况进行描述性分析，说明专家的专业水平及经验丰富的程度。

3.2.5. 专家积极系数

专家积极系数指的是专家对本课题关心的程度，一般以专家函询问卷的有效回收率和意见提出率表示。回收率和意见数越多，说明专家越积极，对课题的合作程度越大。如果10天之内反馈，回收率在70%以上，表示专家积极系数较高。

回收率=回收函询问卷数/发放函询问卷数。

意见提出率=提出意见专家数/发放专家数。

3.2.6. 专家意见的一致性

专家意见的一致性也称为集中程度，用专家问卷中重要性得分的均值和满分比(K_j)来表示，是维度、条目保留或删除的依据。

意见集中程度以专家对量表指标重要性评分的算数均数(M_j)来表示，M_j ≥ 3.50为较好，说明指标越重要。

mj表示参加j指标的专家数，C_ij表示i专家对j指标的分值。M_j越大说明j指标越重要。

3.2.7. 专家协调程度协调系数(Kendall’s W)

协调程度指的是所有专家对全部指标给出意见的分歧程度，用和谐系数(Kendall’s W)表示(德威利斯，魏勇刚，龙长权，宋武，2004)。W取值范围为0~1，一般在0.3~0.5之间，和谐系数需要经过显著性检验以保证其可靠和可信，W越大说明专家的意见一致性越好，结果越可信。

显著性检验–卡方检验：在SPSS中采用多个相关样本的非参数检验，可计算出c²和p值，若p < 0.05，则认为和谐系数具有显著性，

肯德尔和谐系数公式：

$W = \frac{12}{m^{2} - (n^{3} - n)} \sum_{j = 1}^{n} d_{j}^{2}$

m表示专家总数，n表示指标数。

3.3. 统计学分析

利用SPSS22完成数据统计分析。专家一般情况、积极系数、意见集中程度采用描述性统计分析方法，协调程度用肯德尔协调系数(Kendall’s W)表示，显著性检验采用卡方检验，检验水准α = 0.05。

4. 结果

4.1. 语言障碍量表文献检索

4.1.1. CNKI知识网络服务平台的查询

① 检索方式：关键词：(评估or量表or筛查) and (语言障碍or言语障碍or失语or构音障碍or语言发育迟缓or言语发育迟缓or言语失用or发声障碍or阅读障碍or理解障碍)，采用CNKI自带计量可视化分析结果显示：文献总数5190篇，表1所示文献数量呈缓慢上升趋势，逐渐成为研究热点。

Table 1. CNKI language impairment scale annual publication volume

表1. CNKI语言障碍量表年度发表文献量

在此检索结果中，改变检索方式为：(评估or量表or筛查) and (语言障碍or言语障碍or失语or构音障碍or语言发育迟缓or言语发育迟缓or言语失用or发声障碍or阅读障碍or理解障碍) and (计算机)，搜索文献总数为35篇。

4.1.2. PubMed的查询

① 检索方式：(screening [MeSH Terms]) OR (assessments [MeSH Terms]) OR (scales [MeSH Terms]) AND (comprehension disorders [MeSH Terms]) OR (dyslexia [MeSH Terms]) OR (vocalization disorders [MeSH Terms]) OR (speech apraxia [MeSH Terms]) OR (speech retardation [MeSH Terms]) OR (aphasia [MeSH Terms]) OR (speech disorders [MeSH Terms]) OR (Language disorders [MeSH Terms]) Filters: published in the last 10 years; Humans (Leydesdorff, Rotolo, & Rafols, 2012)。检索到13,190篇文献。表2所示文献数量呈缓慢上升趋势，近几年成为研究热点。

Table 2. PubMed language impairment scale annual publication volume

表2. PubMed语言障碍量表年度发表文献量

② 改变检索方式为(screening [MeSH Terms]) OR (assessments [MeSH Terms]) OR (scales [MeSH Terms]) AND (comprehension disorders [MeSH Terms]) OR (dyslexia [MeSH Terms]) OR (vocalization disorders [MeSH Terms]) OR (speech apraxia [MeSH Terms]) OR (speech retardation [MeSH Terms]) OR (aphasia [MeSH Terms]) OR (speech disorders [MeSH Terms]) OR (Language disorders [MeSH Terms]) AND (computers [MeSH Terms]) Filters: published in the last 10 years; Humans。检索到65篇文献。

国内外研究文献结果表明：一、语言障碍相关评估筛查量表逐渐成为研究热点领域。但计算机结合语言障碍量表等领域研究较少。因此，基于计算机化的语言障碍量表的研究或可成为新的研究方向。

4.2. 语言智能评估系统一级指标筛选

4.2.1. 国内语言障碍筛查量表应用情况

搜索公认的语言障碍评估筛查量表，CNKI以全文词进行检索，检索条件：时间为2010年1月1日至2019年12月31日这10年的文献。检索方式为高级检索。数据库选择为跨库(期刊、特色期刊、博士、硕士、国内会议、国际会议、报纸)，文献分类选择：所有。词频：模糊。中文文献。PubMed以All Fields搜索公认的语言障碍评估筛查量表。检索限制条件：时间：2010年至2019年。种类：人类。检索方式为高级检索。

中国知网文献查询系统中语言障碍筛查评估量表数量最多的前三位为汉语失语成套测验(ABC测验)、汉语标准失语症检查(CRRCAE)、Token测验；维普中文科技期刊数据库中文献数量最多的前三位：汉语标准失语症检查(CRRCAE)、西方失语症成套测验(WAB测验)、汉语失语成套测验(ABC测验)；PubMed检索系统文献数量最多的前三位：BDAE、WAB、SLTA。三大文献检索系统中文献数量均大于1000条的量表有：BDAE、汉语失语成套测验。均小于100条的有：语言障碍诊治仪、汉语波士顿失语症检查法、Token测验。详见表3、表4。

4.2.2. 语言量表排名前三位量表的一级指标框架

把排名前三位的语言评估量表，与中国汉语失语检查法(aphasia battery of Chinese, ABC) (汉语失语症康复治疗专家共识组，2019)、简易语言筛查量表是：36项目Token相结合，把语言量表的一级指标(维度)列出，定为第一轮专家评估内容。详见表5。

Table 3. Research literature on the language impairment screening scale in China

表3. 国内语言障碍筛查量表研究文献

Table 4. Foreign research literature on the language impairment screening scale

表4. 国外语言障碍筛查量表研究文献

Table 5. Construction of the top three language scales and simple Token Level 1 indicators at home and abroad

表5. 国内外排名前三位语言量表+简易Token一级指标构建

4.3. 采用德尔菲法对语言智能评估系统指标予评价

4.3.1. 专家基本情况

按照专家纳入标准，本研究纳入专家人数25人。第一轮发放函询问卷25份，回收22份，无效量表3份。25位专家中来自三甲综合医院19人，高等综合大学8人。教育背景均为本科以上，其中博士11人。职称有9个初级，5个中级，11个高级。专业背景：临床医学16人(9人从事神经康复专业、1人从事儿童康复医学、6个语言学专业)、神经心理学1人，特教2人，市场部1人，治疗师5人。平均年龄为38.41岁。对研究领域均为熟悉或很熟悉(表6)。

Table 6. Profile of experts (n = 25)

表6. 专家基本情况(n = 25)

4.3.2. 专家积极系数及一级指标修改建议

意见回收：第一轮专家积极系数为22/25 = 88%，有10位专家提出意见，意见提出率10/25 = 40% (表7)。专家选择的一级条目中所提意见有以下几点：自发性语言改为自发表达；听觉理解改为听理解；书面语言理解改为文字理解；听觉理解改为听；口语表达改为说；书面语言理解改为读；书写改为写。

Table 7. Positive coefficient of experts

表7. 专家积极系数

4.3.3. 语言专家意见集中程度，详见表8

语言指标的专家意见集中程度为：15项指标的平均值为：2.4。故选用听觉理解、自发性语言、口语表达、命名、阅读、复述、书面语理解。因自发性语言表达与口语表达(陈卓铭，2004)均属于语言表达内容，归为一类；按照语言神经心理(陈卓铭，2015)，将书面语言理解与阅读归为一类，在阅读的90分数档的题目中增加书面语言理解内容；其中听觉理解分为听辨认、听是否，因听指令(周钰，陈卓铭，2019)在语言题目中定向题、注意均涵盖，故听觉理解暂列出听辨认、听是否(陈卓铭，2004)题目。按照专家意见，语言一级指标为：听理解、自发性表达、命名、阅读、复述。本研究依据专家意见对条目进行删改、调整，最终形成了语言一级条目。

Table 8. Concentration of language experts’ opinions

表8. 语言专家意见集中程度

4.3.4. 语言一级指标专家意见协调程度，见表9

专家意见协调程度对单个一级指标用变异系数表示，所有专家对全部一级指标的协调程度用Kendall’s W (宋铁，代吉亚，吴发好等，2014)表示。第一轮语言一级指标的统计结果的协调系数Kendall’s W为0.361，协调系数经检验后具有显著性，p = 0.000，说明专家协调程度好。

Table 9. Level of coordination of the views of language experts

表9. 语言专家意见协调程度

5. 讨论

语言交流是一种复杂的心理活动，涉及人对语言信息的获取、转化、贮存、衍生及表达。在语言交流过程中任何一个环节的损害均可导致语言功能的缺失，出现语言障碍。所以尽早对痴呆、脑功能障碍的患者在这种情况下，进行积极、相对准确的语言功能障碍的评估，制定合理的治疗方案(陈卓铭，2015)，尽早改善患者的语言交流能力，促进参与日常生活和社会实践活动，减轻家庭及社区负担。

分析国内外语言障碍量表文献检索情况，可得出以下两点：1) 结合中国文化及语言特色，国内应用最多的语言障碍评估量表是汉语失语成套测验(ABC测验)、汉语标准失语症检查(CRRCAE)；国外应用最多的语言障碍评估量表BDAE、WAB，虽然BDAE已在国内汉化，但因为语言文化在国内不融合，在国内尚未普及应用。2) 构建语言障碍评估指标仍需借鉴国内外应用较广的语言评估量表，在既往研究基础上，根据中国汉语文化及语言特点进行构建。目前传统的语言障碍评定主要依赖于治疗师使用检测表的主观判断，无法进行定量分析。随着计算机科学的发展，特别是多媒体技术、模糊数学、语音识别等技术的应用(陈卓铭，2004)，目前语言障碍的临床诊断评定进入了一个新的时代。

国外有Parrot software (Kambeyanda, Singer, & Cronk, 1997)系列产品，其主要基于英语语言康复训练。国内暨大陈卓铭团队自主研发并转化临床使用的计算机辅助汉语失语症评估软件包括：语言障碍诊治仪ZM2.1、失语症计算机评测系统、语言语言训练评估系统等。语言障碍ZM2.1诊断设计是基于语言链中每一个环节检测及计算机智能运算的基础之上，通过优选各种失语症检查方法的敏感指标，结合汉语和计算机应用的特点设计，实现病历管理–检测评估–各残存功能显示–康复建议–康复实施等程序化管理。该检查可实现自动分析量、语速等语音参数，并根据汉语特点设计了利手检测。通过对听、视、语音、口语表达四部分共65题检查，囊括表达、理解、复述、命名、阅读等失语症检测的各项指标。进行了信校标研究(陈卓铭，李巧薇，唐桂华等，2006；陈卓铭，林玉萍等，2005)，王红等(李涛，王红等，2003)进行了相关性研究，其检测结果可用于失语症患者语言理解功能的评估，并为其语言康复治疗提供理论依据。

Delphi法，又称专家调查法，通过反馈匿名函询，就一定的问题向相关领域的专家进行咨询，然后对专家的答复意见进行系统的总结归纳，最终形成意见趋于集中、可靠性较强的意见。本研究首先通过国内外文献查询，把排名前三位的语言评估量表，与中国汉语失语检查法(aphasia battery of Chinese, ABC) (汉语失语症康复治疗专家共识组，2019)、简易语言筛查量表是：36项目Token相结合，把语言量表的一级指标(维度)列出，作为Delphi专家咨询法第一轮专家打评内容，运用统计学方法对专家积极系数意见集中程度及协调程度进行统计分析。本研究根据专家建议修改意见及神经心理通路(Vallila-Rohter & Kiran, 2013)，选用听理解、自发性表达、命名、阅读、复述为一级指标，相应的题目在视觉上呈现最终形成了语言一级条目，能较全面反映语言各维度变化，研究方法科学可靠。

本研究在文献分析、专家咨询及基于计算机的基础上，结合选题规则，遵循科学的量表编制原则和统计学分析方法，完成语言智能评估系统的一级指标的初步构建。相对于翻译修订国外的量表，本量表植根于中国本土文化，更具有中国特色，被试更容易理解，同时更符合中国的国情和实际情况。

参考文献

[1]	敖漫(2015). ICU后综合征评估量表的编制研究. 硕士论文, 荆州: 长江大学.
[2]	曾光(1994). 现代流行病学方法与应用. 北京: 北京医科大学、中国协和医科大学联合出版社.
[3]	陈卓铭(2004). 言语治疗. 见: 黄东锋(编). 临床康复医学(下册) (页908-1021). 广东: 汕头大学出版社.
[4]	陈卓铭(2015). 汉语语言心理加工与失语症评估. 中国康复医学杂志, 30(11), 1091-1094.
[5]	陈卓铭, 李巧薇, 唐桂华, 等(2006). 语言障碍诊治系统ZM2.1诊断亚项的正常范围研究. 中华物理医学与康复学杂志, 28(3), 194-196.
[6]	陈卓铭, 林玉萍, 等(2005). 语言障碍诊治仪ZM2.1对失语症患者语言功能评定的效度和灵敏度. 暨南大学学报(医学版), 26(4), 552-555.
[7]	德威利斯, 魏勇刚, 龙长权, 宋武(2004). 量表编制: 理论与应用. 重庆: 重庆大学出版社.
[8]	汉语失语症康复治疗专家共识组(2019). 汉语失语症康复治疗专家共识. 中华物理医学与康复杂志, 41(3), 161-169.
[9]	李涛, 王红, 尹义臣, 等(2003). 计算机测定失语症语速的相关分析. 中国康复, 18(6), 341-343.
[10]	刘增玲(2013). 无痴呆型血管性认知障碍患者认知功能量表与外周血炎性标志物的研究. 硕士论文, 苏州: 苏州大学.
[11]	宋铁, 代吉亚, 吴发好, 等(2014). 基于德尔菲法和层次分析法的疾控机构应急能力评估. 华南预防医学, (1), 1-6.
[12]	孙振球(2006). 医学综合评价方法及其应用. 北京: 化学工业出版社.
[13]	谢波, 康德智, 郑建民, 等(2010). 计算机辅助语言评定系统的编制及其灵敏度和特异度检测. 中国临床神经外科杂志, 15(8), 471-473.
[14]	张文娟, 魏蒙(2016). 中国人口的死亡水平及预期寿命评估——基于第六次人口普查数据的分析. 人口学刊, 38(3), 18-28.
[15]	周钰, 陈卓铭(2019). 精准璟云平台语言训练治疗语言障碍合并失语症病例报告. 康复学报, 29(4), 54-60.
[16]	Kambeyanda, D., Singer, L., & Cronk, S. (1997). Potential Problems Associated with Use of Speech Recognition Products. Assistive Technology, 9, 95-101.[CrossRef] [PubMed]
[17]	Leydesdorff, L., Rotolo, D., & Rafols, I. (2012). Bibliometric Perspectives on Medical Innovation Using the Medical Subject Headings (MeSH) of PubMed. Journal of the American Society for Information Science & Technology, 63, 2239-2253.[CrossRef]
[18]	Vallila-Rohter, S., & Kiran, S. (2013). Non-Linguistic Learning in Aphasia: Effects of Training Method and Stimulus Characteristic. American Journal of Speech-Language Pathology, 22, S426-SS427.[CrossRef] [PubMed]
[19]	World Health Organization (2017). Global Health Observatory (GHO) Data.

为你推荐

友情链接