1. 引言
正如乔姆斯基所说,通晓一种语言意味着有能力产生或理解以前从未遇到过的话语 [1] 。这种能力不仅适用于句子水平,而且适用于词语水平。人们对词汇语言能力的研究被称为形态学,语素是形态学最主要的组成部分,是语言中最小的有意义的单位,它被灵活地组合起来创造更大的语法和词汇结构,并允许语言使用者传达无限数量的想法,因此语素一直是语言学和心理语言学非常重要的成分 [2] 。
形态学有基于语素和基于词的两种不同的语言学方法,基于语素的形态学 [3] ,如结构主义形态学,是传统的语言学观点,声称语素是构词最基本的组成部分,形态规则在此过程中起指导性作用。而基于词的形态学方法,如词与范式(word and paradigm)形态学是近期出现的一种方法,该方法认为形态分析的中心单位是词而不是语素,新词通过构词法规则应用于已存在的单个词组合构成。
在过去的二十年中,心理学家、认知神经科学家也对形态学进行研究并发现,词汇形态结构影响词汇在大脑心理词典中的存储和加工方式。如识别“darkness”等这类形态复杂词汇,既受其整词频率的影响,又受其组成语素频率的影响 [4] [5] ,这些发现表明,形态复杂词的加工在某些加工阶段涉及分解加工(词干和词缀的分解),并被反映在其心理表征的结构之中 [6] 。另一种观点认为,形态复杂词以整体形式存储和加工,但是保留最基本的形态结构 [7] [8] 。
还有一些学者强调,形态复杂词是整体加工还是其组成语素来加工主要是形态复杂词的语义组合性、词缀的产生力(productivity)、语素频率等因素起重要作用 [9] [10] ,尤其是频率影响词汇加工的最重要因素之一。他们认为低频词是分解加工,则高频词是整体加工 [11] 。目前与词汇加工密切相关的两个频率变量是词基频率(base frequency, BF)和词缀产生力(affix productivity)。词基频率指的不是形态复杂词本身的频率,而是构成这个词的基础或词干的频率。与此同时词缀产生力(affix productivity, AP)指的是给定语素出现的单词数量 [12] 。当一个语素出现在许多词中时就认为产生力高,如果相反就认为产生力低。这些对立的观点在心理语言学、认知神经科学领域仍有积极的争论。
本文的主要目的是论证语言学家提出的形态学的心理现实性。维吾尔语形态复杂词在大脑心理词典中的存储、表征和加工形式是以词为中心还是以语素为中心?词汇形态结构是否影响词汇在心理词中的表征和存储形式,维吾尔语形态复杂词在心理词典中是以整体形式表征还是由其组成的语素分解表征,或两种形式都存在?词汇频率、语素频率和词汇长度等因素如何影响词表征?因此我们在本实验中主要控制维吾尔语屈折词(inflectional word,由屈折变化所构成的词,屈折变化是为了限定某词的语法功能而添加词缀或改变词形)和派生词(derivative word,由词根加前缀或后缀的词缀构成的词)的词基频率(base frequency),研究不同频率的词汇对词汇加工和表征的影响。
2. 对象与方法
被试为北京各个高校的27名维吾尔族大学生,其年龄在20到25之间,平均年龄M = 23.52岁,SD = 2.33岁,其中12名女生和15名男生,均出生于新疆维吾尔自治区的维吾尔族家庭,母语为维吾尔语,系统地学过维吾尔文。由于维吾尔族大学生的教育背景比较复杂,分为民考民(从小以母语授课),民考汉(从小在汉族学校上,全部课程以汉语授课),双语班(理、工科课程以汉语授课,文科类课程以母语授课)等不同的教育背景,后两者系统地学过维吾尔文,因此在选被试时要求被试为民考民或双语班的学生。实验前被试通过爱丁堡左、右利手测试,测试结果均为右利手0。实验之前每名被试签署知情同意书,并且知晓实验过程及注意事项。被试裸视或矫正视力正常,无阅读障碍和失语症,且无精神病症状。参与本次实验的每一位被试均获得120元人民币的报酬。此外,由于本实验考察快速呈现词语时被试的反应时间,因此词汇呈现时间比较短,若未系统地学习维吾尔文,在如此短的呈现时间中很难做到准确快速的反应,本实验对被试身份要求比较高,使得我们寻找被试更加困难。
3. 实验材料及实验设计
由于目前没有一个公开的维吾尔语大规模语料库,因此本实验很难选择现成语料库进行实验材料的挑选工作,因此我们自己建立了大规模语料,主要是通过天山网、人民网维吾尔语版等一些网站上爬虫大量的生语料。但为了挑选符合我们的实验需求,我们对生语料做了进一步的预处理。然后通过Mofessor切分。Mofessor是赫尔辛基大学(University of Helisinki)神经网络研究中心(Neural Networks Research Center)的Creuz,Lagus等人开发的基于数据驱动的无监督统计切分,是提取语素(morphs)信息的一种开源词切分工具。因为芬兰语是典型的黏着语,最初用于芬兰语的统计形态分析。Mofessor的主要切分方法是分解法,所以无需了解语言学的相关知识,即与语种无关,不依赖于任何语言,在任何形态丰富的高屈折性语言(High-inflection language)的切分工作中均可使用该方法。因此本实验中的语素提取主要使用了此软件工具。
语素切分后对已切分的语料进行词频统计,最后获取符合实验需求的实验材料。语料中按照频率挑选了100个派生词(50个高频基词和50个低频基词)和100个屈折词(50个高频基词和50个低频基词),总共200个词,还包括同样条件下的200个假词为填充词,假词通过替换真词中的一到两个字母构成,但是遵守维吾尔语语音系统的基本规则。根据前人的研究结果,实验材料中排除了两个语素结合时发生语音变化的词语。
实验设计采用2 ´ 2两个因素被试内实验设计,第一个自变量是派生词有两个水平(高频和低频),第二自变量是屈折词有两个水平(高频屈折词、低频屈折词),所有的被试均完成同一个实验任务。实验材料的频率、词长和音节等因素相互匹配,并严格控制(如表1所示)。实验材料按照四个水平均衡录入到E-prime刺激呈现程序。实验中同时纪录脑电数据和行为数据。
表1. 实验材料
4. 实验过程
整个实验在消音实验室进行,且每个被试均进行单独的实验。实验之前使用E-Prime软件编程,实验材料分成5个block,每一个block里面有不同条件的80个刺激材料,将所有实验材料进行依次呈现。实验分成两个部分,第一部分是练习部分(练习部分有不同条件的80个刺激),目的是让被试熟悉实验方法和流程。第二部分是正式实验。正式实验开始之前被试至少做三次练习实验,让被试尽量熟悉实验目的,这样很容易进入正式实验部分。
实验开始时显示器屏幕中央显示“+”注视点,呈现时间为800 ms,提醒被试看注视点,然后出现目标词,呈现时间为400 ms,目标词的出现顺序是随机的,其次出现判断界面“??”,呈现时间为1500 ms,判断界面的出现同时要求被试尽快且尽可能正确地判断屏幕中央出现的目标词是不是维吾尔语里的词,如果被试判断为真,即屏幕上出现的词是维吾尔语词汇,则按下游戏柄右侧按钮,反之则按游戏柄左侧按钮。整个实验延续30 min左右,每5 min让被试休息一会儿,然后接着做下面的实验。
5. ERP (Event-Related Potential)数据记录与分析
脑电实验仪器采用德国BP公司的直流式64导诱发脑电位仪,实验利用Brain Vision Recorder Version 1.05脑电记录仪和64导电极帽收集被试的脑电数据。按照国际10-20脑电纪录系统,用标准化的电极纪录64通道的EEG。参考电极为FCz,前面Gnd电极接地,并以水平眼电(HEOL和HEOR)和垂直眼电(VEOL和VEOU)监测眼电变化。脑电信号由放大器放大,滤波带通为0.05~40 Hz,采样频率为500 Hz,离线分析处理ERP数据。各电极点头皮电阻均为10 ΚΩ以下。利用Brain Vision Analyzer Version 1.05脑电分析软件,完成连续记录脑电后离线处理数据,对连续记录的原始数据进行预处理:剔除对实验中反应错误或信号干扰严重的脑电事件,不予统计分析。脑电纪录后的诱发电位原始数据经离线分析技术进行处理,词语刺激模块采样从刺激呈现前的200 ms持续至刺激呈现后的800 ms,在叠加中剔除由眼动及其它因素引起的波幅超过50 μV的波形,自动校正HEOG和VEOG,充分排眼电、肌电等伪迹,并在实际的脑电分析中删除伪迹过多和记录数据不全的被试数据。
6. 实验结果
本实验中2名受试者的判断错误率比较高,因此没有纳入最后的分析中。其它参与本次实验的25名受试者的平均理解准确率很高,表明参与者仔细阅读并正确判断实验材料。按照本实验目的我们总共选取了9个电极进行总平均。它们分别是额叶处的F3、F4和Fz,顶叶处的C3、C4和Cz,枕叶处的P3、P4和Pz。(如图1所示)。所有数据输入SPSS 17.0统计包进行方差分析。
![](//html.hanspub.org/file/10-2910311x9_hanspub.png)
Figure 1. Potential waveforms induced in the processing of Uyghur derived words and inflectional words
图1. 维吾尔语派生词和屈折词加工中诱发的电位波形图
对脑电数据主要分成的两个时间窗口进行方差分析,分别是300~500 ms和500~800 ms时间窗口,分别对形态性(屈折词和派生词)、频率(高频、低频)、脑区(前、中、后脑),半球(右半球、左半球)之间的脑电数据进行重复测量方差分析。
300~500 ms时间窗口:
我们对形态性(派生词和屈折词),频率(高频、低频),脑区(右半球、中央、左半球)之间进行重复测量的方差分析。
数据分析结果是:形态性(派生词和屈折词)主效应显著F(1, 34) = 10.7,p < 0.05,屈折词在300~500 ms时间窗口引发的负波比派生词大,频率主效应显著F(1, 34) = 27.9,p < 0.05,形态性×频率之间交互作用显著F(1, 34) = 38.9,p < 0.05。因此我们进一步对每一个因素的不同水平上进行重复测量方差分析发现,派生词频率差异主效应不显著,F(1, 68) = 0.4,p > 0.5,派生高频词和派生低频词加工水平上差异不大,但是屈折词频率差异主效应显著,F(1, 68) = 67.8,p < 0.05。低频词频率差异主效应显著,F(1, 68) = 48,p > 0.5。派生高频词和屈折高频词主效应不显著F(1, 68) = 1.3,p > 0.5。
我们发现屈折词和派生词之间有明显的负波。屈折词在两种条件下引发出比较明显的N400效应。
其次被试、条件和脑区之间进行重复测量方差分析,派生词×左右脑区之间进行重复测量方差分析,发现派生词左/右脑区之间的交互作用不显著F(1, 56) = 0.76,p > 0.5。屈折词和左/右脑区之间的交互作用不显著F(1, 56) = 0.04,p > 0.05。我们进一步在前、中、后脑区进行了比较(如图2所示)。
我们采用重复测量方差分析方法对派生词和脑区,屈折词和脑区之间进行比较发现,派生词×脑区
![](//html.hanspub.org/file/10-2910311x10_hanspub.png)
Figure 2. Two time windows under different frequency conditions of the brain topographic map
图2. 两个时间窗口不同频率条件下的大脑地形图
(前、中、后)之间主效应不显著F(2, 32) = 0.173,p < 0.05,屈折词×脑区之间主效应不显著F(2, 32) = 0.010,p < 0.05。
500~800 ms时间窗口
我们在500~800 ms时间窗口对被试、条件和电极之间进行重复测量方差分析,数据分析结果是:派生词频率主效应不显著,F(1, 68) = 1.08,p > 0.5,派生高频词和低频词在500~800 ms时间窗口出现的正波没有显著性差异,但是屈折词频率主效应显著,F(1, 68) =67.78,p < 0.05。屈折词在500-800 ms时间窗口出现的正波明显大于派生词。低频词频率主效应显著,F(1, 68) = 41.443,p < 0.5。派生高频词和屈折高频词主效应不显著F(1, 68) =1.3,p > 0.5。
我们进一步对因素和脑区之间进行重复测量方差分析,派生词×左/右脑区之间进行重复测量方差分析,发现派生词左/右脑区之间的交互作用不显著F(2, 32) = 0.36,p > 0.5。屈折词´左/右脑区之间的交互作用显著F(2, 32) = 47.2,p < 0.05。
7. 反应时间
反应时间(或反应时,简称RT)是刺激施于有机体之后到明显反应开始时所需要的时间,也被称为反应的潜伏期。反应时间往往以毫秒(ms)为单位,它将纪录人脑处理和加工语言任务所需要的时间。反应时间是在理论上真实地反映了人类无法直接了解的人脑对语言认知加工的过程,反映了大脑处理语言信息数据的快慢。从而间接地体现了人脑语言信息认知的内在机制,正因为如此,反应时间被普遍应用于语言认知研究的实验研究中,是语言认知研究用来研究认知过程的三大手段之一。
词汇判断任务主要是通过各种词汇变量对词汇加工和提取时间的影响来讨论词汇表征的性质。而且词汇判断任务的原理与心理词汇的内部组织结构紧密相关。一般词汇判断任务的反应时间反映了对该词进行提取加工的快慢程度,从而间接地反映了心理词汇的组织结构及心理词汇中词汇存储的性质。
因此,我们使用SPSS 20.0统计软件对被试和因素的平均反应时间进行重复测量方差分析,得出高/低频派生词、高/低频屈折词的平均反应时间(如表2所示)。
我们首先对被试的反应时间进行重复测量方差分析,并发现形态性(派生词和屈折词)主效应显著F(1, 24) = 37.64,p < 0.05,被试对派生词的反应时间比屈折词快,频率主效应显著F(1, 24) = 17.76,p < 0.05,总体上看高频词的反应时间比低频词快。形态性×频率交互作用显著F(1, 14) = 5.07,p < 0.05。
因此下一步我们对每个因素的不同水平之间进行被试内配对样本t检验,观察不同条件下的反应时间差异,高频派生词和低频派生词间的差异没有达到显著水平t(4.9) = 22,p > 0.5,被试在这两组词汇的判断时间差异几乎不显著(如图3所示)。但是高频屈折词和低频屈折词之间差异效应显著t(3.09) = 22,p < 0.05,低频屈折词的反应时间比高频屈折词长。
8. 错误率
用同样的方法对错误率进行配对样本t检验,发现派生词错误率不显著t(1.3) = 22,p > 0.05,但是屈折词错误率显著t(5.11) = 22,p < 0.05。
因此本次实验的脑电数据和行为数据符合我们的实验预期,维吾尔语派生词和屈折词在心理词典中的表征和加工是相互独立的一个过程。而且词基频率对派生词的加工没有太大的作用,但是对于屈折词来说起一定的作用,低频率派生词的加工比高频率派生词慢。
![](Images/Table_Tmp.jpg)
Table 2. Reaction time (variance) and error rate (variance)
表2. 反应时间(方差)和错误率(方差)
![](//html.hanspub.org/file/10-2910311x11_hanspub.png)
Figure 3. The average response time (ms) of the derived word and the inflectional word at different levels
图3. 派生词和屈折词在不同水平上的平均反应时间(ms)
9. 结论与讨论
很多与语言认知神经科学的有关研究显示,词汇形态结构影响其表征和加工形式。形态复杂词受整词词频和其组成语素频率的影响。至于这方面的研究有些学者通过规则和不规则动词以实验材料来解释形态变化复杂多语素词的加工形式。对于不规则复杂动词的加工及存储形式几乎没有太多的分歧,大部分的实验证明不规则动词在某种程度上被整体形式存储。但是规则动词和派生词的加工问题上意见不同。有些研究显示词基频率影响规则动词的加工方式,即词基频率高的规则动词是整体加工,词基频率低的规则动词是分解加工。还有一些研究证明只要词中的频率超过7/106的词是整体加工,频率低于7/106的词是分解加工,没有一个一致的结论。因此我们用形态变化非常丰富的黏着语—维吾尔语派生词和屈折词来研究这个问题。
本研究的主要目的是通过视觉词汇判断范式来研究维吾尔多语素词词基频率对维吾尔语为母语者词汇表征及加工方式的影响。实验材料由派生词(高频、低频)和屈折词(高频、低频)组成,主要控制两组材料的词基频率、音节和词长等因素。实验过程中主要观察派生词(高频、低频)和屈折词(高频、低频)引发的ERP成分及被试对不同频率的派生词和屈折词反应时间的差异。实验结果显示母语为维吾尔语者在加工不同词基频率的派生词和屈折词时大脑对其引发的反应不同。
我们把实验结果分成脑电实验和行为实验两个部分进行分析。脑电实验部分(如图1所示)分成两个时间窗口进行分析,发现刺激呈现的早期阶段就出现形态效应。在300~500 ms时间窗口我们发现屈折高频词和低频词诱发向上增加的ERP负波(N400)效应,其在后脑部分的电极上最为明显,在左右脑半球具有均衡分布(如图2所示),而且屈折词引发的波幅比派生词明显要大。因此我们对此窗口的N400成分进行方差分析,发现屈折高频词和低频词在此时间窗口上的差异具有显著性,但是派生词在此时间窗口上的差异不显著,这说明以维吾尔语为母语者在加工派生词和屈折词时采用完全不同的加工方式。屈折词诱发的负波说明屈折词比派生词加工负荷和难度更大,但是派生词在不同词基频率条件下诱发的脑电波没有显著性差异,说明词基频率对派生词加工的影响不大,但是对屈折词来说词基频率对词汇加工有一定的影响。
根据脑电波形图的基本趋势,我们选自500~800 ms时间窗口对脑电数据进行分析,发现屈折高频词和低频词在500~800 ms时间窗口诱发连续延迟的正波(P600),其波幅明显大于派生词。屈折词诱发的P600效应很可能反映由于更大的形态句法(morphosyntactic)加工需求而导致的延迟加工过程,或者反映了基于不同类型信息的更苛刻的语言再分析的过程。
为了证明脑电实验结果的有效性,进一步对所有被试的行为数据进行分析,主要是观察被试在加工不同词基频率的派生词和屈折词加工时的反应时间。我们对派生低频词、高频词和屈折高频词、低频词分别进行配对样本t检验。检验结果显示派生词频率效应不显著,被试对高频和低频派生词的反应时间没有显著差异。但是屈折词t检验结果显著。这表明屈折词的加工速度比派生词慢。屈折高频词的加工速度比屈折低频词快。
词汇判断任务是形态复杂词汇加工研究中最为常用的实验范式之一。词汇判断任务被认为由两个连续的处理阶段组成,分别是:词汇访问阶段、访问后检查和整合阶段,词汇访问阶段是词汇加工的前期阶段,如果词汇形态结构影响词汇加工的前期阶段就会出现词汇加工的前期效应,要是词汇形态结构影响词汇加工的后期阶段就会出现后期效应。
本实验的脑电和行为实验数据显示,维吾尔语屈折词在词汇加工的前期阶段和后期阶段均出现词汇加工有关的ERP成分,屈折词前期阶段的ERP成分(N400)表明,屈折词词干和词缀的分解阶段,后期的ERP成分(P600)词干和词汇的整合阶段,因为有关词汇加工的研究证明词汇加工的后期成分是在形态和句法层面上对组合(整合)过程的困难很敏感。而且行为数据中的被试反应时间进一步证明词汇加工中的组合过程。
时间相关电位(ERP)非常适合描述语言理解的时间认知进程,以及参与语言理解和非语言信息的认知神经过程,它在这方面具有很大的潜力,它以毫秒精度反映语言处理相关的神经认知活动。语言理解研究表明与语义、语用和句法信息相关的语言信息诱发出一系列不同特征的ERP脑电成分。
基金项目
本课题得到国家自然科学基金重点项目“汉语认知加工机制与计算模型研究”(61433015)、国家社会科学基金重大项目“汉语非字面语言大脑加工的神经机制研究”(14ZDB154& 15ZDB017)、教育部人文社会科学研究青年基金“中国手语空间隐喻加工神经机制的ERP研究”(14YJC740104)、清华大学自主科研项目两岸清华大学专项“汉语和汉语手语的不同脑认知机制的研究”(20161080056)等项目资助。