1. 引言
1) 情绪
在众多情绪分类中,基本情绪是指人类最底层和最原生态的情绪,这些年来,众多研究者提出的基本情绪从两种到二十种不等。Ortony和Tumer (1997)将这些观点整理如表1所示。
2) 声音情绪及其可信度
随着社会信息传递方式的改变,越来越多的人通过电话、微信语音等以声音为载体的媒介沟通交流。在脱离面孔等其他视觉线索的情况下,单从语音通道对陌生人进行相关的人格特质(如可信任度、胜任力、攻击性、受喜欢程度等)推断的信息加工过程变得越来越频繁。而在其中,语音起到的主导地位是显而易见的。人们可以根据声音,大致地推断讲话者的性别、年龄、身份和情绪状态(Banissy et al., 2010; Sauter et al., 2010; Meyer, 2007),还可以对声音的吸引力(Attractiveness)、可信度(Trustworthiness)和支配性
![](Images/Table_Tmp.jpg)
Table 1. The basic sentiment categories of Ortony and Tumer
表1. Ortony和Tumer的基本情绪分类
(Dominance) (Willis & Todorov, 2006; Vukovic et al., 2011)等进行快速评价,进而做出相应的社交行为决策。被信任方的可信度是影响他人信任判断的主要因素之一(Mayer & Schoorman, 1995)。其中,对于通过电话或语音沟通的陌生人群、盲人群体,声音可信度是影响第一印象形成的重要因素。目前国内有关语音的研究也越来越多,但是我国学者对于声音的研究主要集中在听觉异常、声音识别、听觉词加工机制等方面(贾竑晓,周勇,朱虹,2016;罗元,孙龙,2016),包括国外学者有关声音的研究也都集中于语音的吸引力方面,鲜有人涉及有关语音可信度方面。
语音可信度一般也是由被试的评价而来,它代表被试基于所听到的声音,对讲话者的可信任程度做出的评估(Zuckerman & Sinicrops, 2011; Rezlescu, Penton, & Walsh, 2015)。一直以来,研究者把人的声音识别、面孔识别进行类比,并认为这两者的发生机制相似(Belin et al., 2011; 彭少灵,莫雷,2014;Bruce & Young, 1986; Belin et al., 2004, Yovel & Belin, 2013)。面孔是人们社会交往中的重要信息源,人们可以由面孔快速形成他人印象,进而做出相应的行为决策。人们可以快速地评估面孔的多维特质,比如可信度和攻击性。比如给被试呈现38 ms的中性情绪表情,就可以形成一个特质推理任务(Willis & Todorov, 2006; Bar, Neta, & Linz, 2006; Phelps & LeDoux, 2005)。特质推理即观察者从他人行为中推论其人格特质的过程,是印象形成的核心部分(朱新秤,焦书兰,1998) 。近年来,研究者们使用面孔图片作为实验材料,通过错误再认范式得出了特质推理与面孔绑定的结论(Todorov & Uleman, 2002, 2003)。从他人的面孔中可以推论的人格特征是多维度的,包括可信任度、胜任力、攻击性、受喜欢程度等。
类似于面孔,人们倾向于将积极/消极的特质与特定的声音联系在一起(Berry, 1990, 1992; Zuckerman et al., 1990)。Zuckerman et al. (1990)曾请200名被试阅读一段标准化的文本或随机选择的文本,然后请另一批被试对他们的声音进行评价。结果发现,那些被评价为更有吸引力声音的被试,他们在后续的评价中,被认为是更加亲切的。后续的研究者对此进行了重复,并发现声音与面孔的吸引力对特质评价的影响同样重要(Berry, 1990, 1992; Zuckerman et al., 1990)。人类的语音中不仅承载着年龄、性别和情感状态等信息线索(Belin et al., 2011; Yovel & Belin, 2013),语音还会引起语音接收者的好奇心去探索说话者可能有怎样的人格特质。早期在这个领域的研究是受到无线电广播的发展的影响。Pear通过英国的电台,开展了第一个基于声音的印象形成研究。他搜集了4000个听众对于9个读者的多项特质评价,结果发现人们通过声音对于性别和年龄的判断正确率最高。
3) 国外情绪语音库的建立
国外语料库:
不同年龄的声音数据库。这个数据库主要为如何通过声音判断讲话者年龄的计算机技术提供支持。探索如何基于年龄和声音质量这两个维度,自动识别人的声音技术的算法(Kelly, Drygajlo, & Harte, 2013) 。
蒙特利尔大学的情感声音数据库(The Montreal Affective Voice)。该数据库通过声音搜集(让演员用不同的情绪对法语元音[ah]进行表达)、声音评价和数据分析三个步骤,筛选出有5男5女扮演的,具有高兴、悲伤、恐惧、愤怒、中性、厌恶、中性等情绪的声音各10段,每段声音都具有较高的唤醒度和情绪效价(http://vnl.psy.gla.ac.uk/)。该研究团队还研发了一系列的非语音刺激材料,包括动物的叫声、人造的声音等声音素材,开展了广泛的研究。
日内瓦面孔和声音数据库(The Geneva Faces and Voices Database)。该数据库由111个“刺激参与者”(61女,50男)的面孔和声音刺激组成,刺激参与者的年龄18~35岁之间,均为欧洲人,母语为法语,不吸烟,没有任何形式的口吃。研究者请他们说“Bonjour. Ilest deux heures moions dix”(hello. It’s ten to two);播放傻笑声音的时候,自由表达自己的情绪,目的是记录微笑的表情;国际音标字母中的六个元音发音(/ɜ/, /i/, /a/, /o/, /u/, /y/)。整个过程用摄像机记录,最终筛选出145个片段,包括10个表演者的对12种情绪的10种表达。
国内情绪语音库的建立情况:
国内关于“情绪”(或“情感”)的语音研究可以追朔到赵元任先生,徐世荣、沈炯、劲松等都有文章涉及,吴宗济先生近年更是着手于用“模块移调理论”合成情。情绪语音的研究在国内研究领域,清华大学和中国科学院心理研究所合作录制ACCorpus汉语情感数据库,中国科学院自动化研究所录制CASIA汉语语料库,中国社会科学院语言研究所的根据吴宗济先生的“模块移调理论”建立的CASS-EMC语音库,北京航空航天大学录制的汉语双模情感语音库等(景少玲,毛峡等,2015)。也有研究根据前人研究基础上进行改进建立具有民族特色的情感语音库的,如孟辉(2017)选取了11种典型的情感,分别设计了语境式激发、对话式激发、和孤立式激发三种激发3种录制方式。最终的语音材料包括1920句有效的的维吾尔族情感语音库。为实用情感语音数据库建立提供方法和指导。但是,这些语音库对于可信度的研究还是存在不足。例如,CASIA语音库中语音是由专业人士朗诵,语料都是单句并且长度适中,该句子中语义的情感可塑性很大,不同语境可以诱导出不同的情感,这样会对情绪语音可信度的判断产生一定的影响,所以要建立适用一些情景的情绪语音库。
4) 声音情绪的跨文化识别
声音韵律可以有效地反映说话者的情绪状态。通过对声音的听辨,个体对不同情绪的识别准确率也存在差异。在Pell,Paulmann,Dara,Alasseri和Kotz (2009)的研究中,被试分别对由英语、德语、印地语和阿拉伯语母语者朗读的、表达6种情绪的声音(生气、厌恶、害怕、伤心、高兴和惊喜)进行知觉(语义内容无具体意义)。实验结果表明,被试对生气、伤心、害怕情绪的识别正确率高,对厌恶和嘲讽的识别率较低。Paulmann和Uskul (2013)在说中国普通话的个体上也得到了一致结果。不同文化背景下,个体在声音情绪知觉上的差异也是研究热点之一。研究者比较了不同文化背景下个体对声音情绪的知觉差异,得出了不尽一致的结论。有研究表明,声音情绪的识别存在跨文化的一致性(Bryant & Barrett, 2008),且不同文化下的个体对情绪的识别均高于几率水平(Pell et al., 2009)。但是,也有大量研究表明,声音情绪知觉存在跨文化差异。较非母语者而言,母语者对声音情绪的识别准确性更高,即存在组内优势(Mandal, 2008)。组内优势是指情绪被同一国家、种族或地区的人表达和接受时,情绪识别的准确率更高(Elfenbein & Ambady, 2002)。有关声音情绪的研究大多是欧美洲等地区,关于中国本土特色的语音研究则是甚少。情绪汉语的韵律是世界各语系中最复杂的之一,仅汉字本身就有四种声调。王异芳(2014)等人的研究发现,个体判断声音中的情绪类型和评定情绪强度存在组内优势,母语为汉语的被试对汉语情绪声音材料的知觉显著好于波兰被试。针对这种声音情绪的跨文化差异,要建立适合中国人本土的情绪语音库,才能进一步展开其他研究。
本研究从比较有价值、可控和鉴别力较强的2种情绪高兴、愤怒,以及以中性情绪作为基点,以蒙特利尔大学的情感声音数据库(The Montreal Affective Voice)的建立模式为参考,通过征集一些有播音主持背景的在校大学生,分别用高兴、愤怒、中性三种情绪录制中文拼音“a”,来探讨中国大学生对国内外情绪语音及可信度的判断的特征。
2. 实验1:基于国外情绪语音可信度的判断
2.1. 实验设计
2 × 3的被试内设计,自变量为性别(两个水平:男、女)和3种不同情绪的声音(3个水平:高兴、愤怒、中性),因变量为被试对情绪语音的可信度评分。
2.2. 被试
共50名被试参与实验1,年龄在19~30岁之间,其中男生33人,女生15人,要求听力良好,无听力方面的疾病,均接受所有的实验处理。
2.3. 实验材料
蒙特利尔大学的情感声音数据库(The Montreal Affective Voice)。实验1中采用高兴、愤怒、中性共3种情绪的声音各10段,每段声音大致2 s左右,共30段语音进行可信度判断。
2.4. 实验程序
通过E-prime软件编程将30段语音编入程序,让被试对30段语音进行可信度1~7分(1表示最不信任的,7表示最值得信任的)的判断。实验中,让被试在安静的实验室中,端坐在电脑前,仔细理解指导语,练习阶段后,主试再询问被试是否理解实验过程,被试理解后正式开始实验。如图1所示,高兴、愤怒、中性这3种情绪随机播放,让被试对每一种情绪的可信任程度1~7分按键盘(1~7键)进行打分。得出结果后采用SPSS对被试的结果进行统计分析。
2.5. 实验结果与分析
剔除2名被试的无效数据后,共有48名被试的实验数据进行SPSS16.0统计分析。
对被试的可信度判断进行统计学分析发现(见表2),不同情绪语音的可信度判断的平均分都比较接近,高兴的可信度判断得分最高(3.67),其中愤怒的可信度分值最低(3.18);3种情绪语音的可信度判断分值在性别上没有差异,详见表3和表4。愤怒和高兴的可信度得分有显著差异(p < 0.05, η2 = 0.51);中性和高兴、愤怒的可信度得分差异不显著(p > 0.05),详情见表5。
![](//html.hanspub.org/file/11-1131331x9_hanspub.png)
Figure 1. Experimental flow chart of experiment 1
图1. 实验1的实验流程图
![](Images/Table_Tmp.jpg)
Table 2. Statistical analysis of the reliability of different emotional speech
表2. 不同情绪语音可信度的统计学分析
![](Images/Table_Tmp.jpg)
Table 3. Statistical analysis of the evaluation of emotional speech credibility of different genders
表3. 不同性别情绪语音可信度判断的统计学分析
![](Images/Table_Tmp.jpg)
Table 4. Gender differences in phonological credibility of different emotions
表4. 不同情绪语音可信度判断的性别差异
![](Images/Table_Tmp.jpg)
Table 5. Paired sample t-test results of different emotional speech reliability
表5. 不同情绪语音可信度的配对样本t检验结果
3. 实验2:中国情绪语音库的建立
3.1. 情绪语音文件的编制
3.1.1. 被试
参照MAV情绪语音库的建立程序,情绪语音的收集需要20名被试(10男10女),均为在校大学生,都有播音基础或者语言表演的经历。
3.1.2. 采集语音
在安静的隔音房间里,请被试坐在电脑前面,将话筒放到嘴的合适的位置。控制好嘴和话筒的距离,避免录入太多的呼吸声从而影响语音的质量。然后,请被试分别用高兴、愤怒、中性3种情绪语调读一下汉语拼音“a”,采用Audacity软件单声道录音,采样率44100 Hz记录被试的语音。要求被试的发音时间尽量控制在2秒左右。为了控制后续实验的时间,删除少于1秒,超过4秒的语音片段。
3.1.3. 语音检查
仔细检查每个语音片段,确保每段语音的发音清楚,没有模糊,没有停顿和沉默的部分,如有问题请被试补录,确保得到60个“a”的语音片段。记为初始语音数据库,即初始语音文件。
3.2. 情绪语音文件的评定
3.2.1. 被试
50名19~30岁的大学生,确保没有参加过之前的与情绪语音有关的实验,听力良好。
3.2.2. 语音材料
即经过检查筛选过的初始语音库,其中包括高兴、厌恶、中性3种情绪,每种情绪男女生各录有10段,总计60段语音数据库。
3.2.3. 评价维度
采用李克特量表在符合度上进行5点量表评分法。符合度:被试在听取每段语音的时候,被试觉得其符合或不符合所表达的情绪,符合程度越高,评分越接近5分,不符合程度越高,评分越接近1分。
3.2.4. 实验程序
使用E-Prime软件呈现60段不同情绪的语音,每个语音的持续时间都为2 s左右。实验在安静的环境下进行,正式实验前被试端坐在电脑前,要求被试认真阅读指导语,根据自身的真实情况按键1~5分评分,一种情绪的语音听完后可以适当的休息一会,然后进行下一种情绪的语音的评分,如图2所示。
3.2.5. 结果与分析
共收集到60段情绪语音,其中1~10的语音编号都为男性语音,11~20的语音编号都为女性语音。剔除5名被试的无效数据,共45名被试的数据进行分析。
1) 男/女性高兴情绪语音评分的平均值和标准差由表6可见。从表中可以观察到积极情绪语音的均分都在2分以上且最高均分达到了4.38分。其中,分别在男女性高兴情绪语音中挑选出均分排在前五的语音,即5-高兴(4.2 ± 1.12),7-高兴(3.87 ± 1.04),8-高兴(3.98 ± 1.15),9-高兴(4.31 ± 1.02),10-高兴(3.91 ± 1.2),11-高兴(4.27 ± 0.81),13-高兴(4.11 ± 0.88),15-高兴(4.09 ± 0.97),18-高兴(3.98 ± 0.99),20-高兴(4.38 ± 0.91)作为高兴情绪语音库。
2) 对男/女性愤怒情绪语音评分的平均值和标准差由表7可见。从表中可以了解到愤怒情绪语音的均分都大于2分且最高均分为4.40分。根据表3得到的数据,分别在男女性愤怒情绪语音中挑选出均分排在前五的语音,5-愤怒(3.6 ± 1.05),6-愤怒(3.44 ± 1.18),9-愤怒(4.40 ± 0.99),10-愤怒(4.18 ± 0.98),11-愤怒(3.89 ± 1.03),16-愤怒(3.24 ± 1.05),17-愤怒(4.11 ± 1.07),18-愤怒(3.44 ± 1.08),19-愤怒(3.13 ± 0.99),
![](//html.hanspub.org/file/11-1131331x10_hanspub.png)
Figure 2. Flow chart for judging the degree of emotional speech expression
图2. 情绪语音表达程度判断流程图
![](Images/Table_Tmp.jpg)
Table 6. Statistical analysis of male/female happy mood voice score
表6. 对男/女性高兴情绪语音评分的统计学分析
![](Images/Table_Tmp.jpg)
Table 7. Statistical analysis of male/female anger voice scores
表7. 对男/女性愤怒情绪语音评分的统计学分析
20-愤怒(3.87 ± 0.81)作为愤怒语音库。
3) 男/女性中性情绪语音评分的平均值和标准差由表8可知。从表中可以观察到中性情绪语音的均分都超过2分且最高均分为4.36。根据表6的数据,分别在男女性中性情绪语音中挑选出均分排在前五的语音,1-中性(3.62 ± 1.21),4-中性(3.82 ± 0.94),5-中性(3.91 ± 1.04),9-中性(4.36 ± 1.05),10-中性(3.87 ± 1.04),11-中性(4.11 ± 1.01),15-中性(3.84 ± 1.04),17-中性(4.17 ± 1.05),19-中性(3.91 ± 1.94),20-中性(4.11 ± 0.88)作为中性情绪语音库。
4. 实验3:中国情绪语音可信度的判断
4.1. 实验设计
采用2 × 3的被试内实验设计;自变量为情绪语音(3种:高兴、愤怒、中性)和性别(2种:男、女),因变量为对情绪语音可信度判断的分值。
4.2. 实验被试
35名19~30岁的大学生确保没有参加过之前的与情绪语音有关的实验,听力良好。
![](Images/Table_Tmp.jpg)
Table 8. Mean and standard deviation of male/female neutral voice score
表8. 对男/女性中性情绪语音评分的平均值和标准差
4.3. 实验材料
实验2初步建立的中国情绪语音库中的高兴、愤怒、中性情绪语音库(表9~表11),男生5段,女生5段,总计10段语音作为语音材料。
4.4. 实验程序
如图3所示,使用E-Prime软件呈现30段不同情绪的语音,每个语音的持续时间都为2 s左右。实验在安静的环境下进行,正式实验前被试端坐在电脑前,要求被试认真阅读指导语,根据自身的真实情况,对情绪语音的可信度进行1~7分(1分表示最不值得信任的,7分表示最值得信任的)的判断。
4.5. 结果与分析
剔除7名被试的无效数据后,共有28名被试的实验数据进行SPSS16.0统计分析。
![](Images/Table_Tmp.jpg)
Table 9. Happy mood phonetics library
表9. 高兴情绪语音库
![](//html.hanspub.org/file/11-1131331x11_hanspub.png)
Figure 3. Experimental flow chart of experiment 3
图3. 实验3流程图
对被试的可信度判断进行统计学分析发现,不同情绪语音的可信度判断的平均分都比较接近,高兴的可信度判断得分最高(4.38),其中愤怒的可信度分值最低(3.28)详见表12;对被试的可信度判断进行性别的独立样本t检验发现,高兴语音和中性语音的可信度判断分值在性别上没有差异,见表13,愤怒的可信度判断分值在性别上差异显著(p < 0.05, η2 = 2.30),详见表14;对被试的可信度判断进行配对样本t检验发现,高兴语音和愤怒语音的可信度得分有显著差异(p < 0.05, η2 = 1.16);中性语音和高兴语音、愤怒语音的可信度得分没有显著差异(p > 0.05),详见表15。
5. 总讨论
本研究通过三个实验探讨中国大学生被试对情绪语音可信度的判断,结果表明,中国大学生被试都能够区分出高兴、愤怒、中性的情绪语音,并且能够根据自身经验做出可信度判断。说明人的语言的声音韵律可以有效地传达情绪。过去的研究从不同的角度证实了声音作为线索指导情绪判断的有效性(Mill, Allik, Realo, & Valk, 2009)。也说明声音会影响可信度,这与以往研究一致(McAleer, Todorov, & Belin, 2014)。但个体对国内外情绪语音的知觉程度上和基于情绪语音做出可信度判断还是有一定的差异,说明声音情绪判断在不同文化之间存在差异性(王异芳等,2014)。
实验1中呈现的国外情绪语音库,被试试验后主观报告“听着不是中国人的声音”“听起来很别扭”
![](Images/Table_Tmp.jpg)
Table 12. Statistical analysis of the reliability of different emotional speech
表12. 不同情绪语音可信度的统计学分析
![](Images/Table_Tmp.jpg)
Table 13. Statistical analysis of the evaluation of emotional speech reliability of different genders
表13. 不同性别情绪语音可信度判断的统计学分析
![](Images/Table_Tmp.jpg)
Table 14. Gender differences in speech reliability evaluation of different emotions
表14. 不同情绪语音可信度判断的性别差异
![](Images/Table_Tmp.jpg)
Table 15. Paired sample t test of speech reliability judgment of different emotions
表15. 不同情绪语音可信度判断的配对样本t检验
等感受,说明不同文化背景下发声者的声音特质会影响个体对情绪语音的判断,但是由于声音的情绪程度明显,被试仍能够辨别出是何种情绪,并根据自己的知觉经验做出信任程度的判断。其中高兴语音是最值得信任的,愤怒语音是最不值得信任的,表明在印象形成过程中,积极地情绪语音更能获取他人的信任,消极的情绪语音较不能获取他人的信任感,进一步说明个体在加工情绪声音的过程中存在着一种比较稳定的个人化的情绪认知模式(孙丹,2013)。
实验2和实验3在参考国外MAV情绪语音库的基础上建立适合中国大学生的国内情绪语音库,并探讨中国大学生对国内情绪语音库的可信度判断,进而与国外情绪语音库作对比。发现被试能够更好地识别中国的情绪语音,并根据自身经验做出适应性判断。3种情绪都会影响被试对可信度的判断,其中高兴语音和愤怒语音在可信度判断上差异显著,说明个体更能对情绪效价极端的声音做出辨别和判断,在印象形成中,语音是人类的“听觉面孔”,也是形成第一印象的重要线索(Yovel & Belin, 2013)。情绪效价极端的语音能够被更好地识别出来,一方面因为极端的情绪能够很快地被识别出来,另一方面在人际交往过程中我们能够更容易地判断处于情绪效价极端的情绪来适应人际交往。和积极情绪的表情类似,积极的情绪语音也会使人愉悦,更易信任他人;相反,消极的情绪语音给人以不好的感受,更不易使人信任。基于讲话者的声音,人们可以对讲话者的性别、年龄和人格特质等进行推断,以此来获得对方的个人信息,调整后续社交行为。
6. 结论
国内外情绪语音可信度的判断有差异,个体更能够辨别出中国文化背景下的情绪语音并作出判断。
积极效价的情绪语音较消极效价的情绪语音,更能使被试判断为是可信的,对人际交往有一定的指导作用。
参考文献