1. 引言
语料库(corpus或corpora),McEnery等学者认为语料库是按照严格取样标准选取的真实的机器可读的口语或书面语电子文本的集合 [1] 。自20世纪60年代布朗语料库建立以来,随着科学技术的进步,语料库语言学也逐步发展壮大,相关研究成果颇丰,在词典编撰 [2] 、语言教学 [3] [4] 和话语分析 [5] 等方面发挥着重要作用。甄凤超 [6] 、张继东和陈文 [7] 以及刘霞等 [8] 国内学者也对近些年语料库语言学研究进行综述,多集中于国内和国际语料库语言学单方面综述,国内外语料库语言学开展可视化对比考察研究较少,如华正雷 [9] 。因现有研究中少有学者对国内外语料库语言学研究进行对比综述,可视化对比国内外语料库语言学研究现状。故研究主要借助CiteSpace文献计量软件,选取CSSCI (中文社会科学引文索引)和SSCI (社会科学引文索引)收录期刊论文文献,细致地对2011~2020年国内外语料库语言学的研究现状和研究热点进行可视化分析,以期系统对比国内外语料库语言学研究现状并追踪发展趋势。
2. 数据来源与研究方法
2.1. 数据来源
本研究选取的国内文献数据来源于CSSCI期刊。国内文献检索条件为:选择“关键词”选项,检索字段为“语料库”,类型为“论文”,检索文献年限为2011~2020年,研究学科为语言学,共检索到566篇文献。研究选取的国际文献数据源自Web of science数据库的SSCI子库。国际文献检索条件为:选择“主题词”选项,检索字段为“corpus”和“corpora”,检索字段之间的关系为“or”,文献年限选为2011~2020年,研究类别为linguistics和language linguistics,文献类型选择学术论文,共检索到5406篇学术论文。
2.2. 研究方法
自科学知识图谱于2005引进中国以来,该新颖科学计量学方法在我国迅速蓬勃发展 [10] 。知识图谱为科学地计量可视化相关研究数据提供了便利。其可快捷处理海量的大型数据,采取可视化方式呈现相关数据结果,绘制知识图谱,简单明了地揭示海量数据的特征。目前,文献计量软件有Pajek、Vosviewer、HistCite、CiteSpace和Bibliometrix等,这些软件在知识图谱的绘制上各有优势 [11] [12] [13] 。本研究主要运用CiteSpace软件,以时间切片为1年和阈值为Top N = 30呈现的知识图谱形式,可视化作者、机构以及关键词等相关信息,便于清晰地识别2011~2020年国内外语料库语言学领域研究现状和发展趋势。
3. 发文趋势
期刊论文的产出量是衡量领域知识发展水平的重要指标 [14] 。研究运用Excel统计2011~2020年国内外语料库语言学的年度文献数量,从时间角度呈现国内和国际语料库语言学领域发文数量的动态变化,利于把握发展的整体趋势。
![](//html.hanspub.org/file/33-2912310x7_hanspub.png?20230914094406727)
Figure 1. Line chart of the annual publication volume of corpus linguistics in CSSCI and SSCI
图1. CSSCI和SSCI语料库语言学年度文献数量
如图1所示,CSSCI收录的2011~2020年语料库语言学发文趋势增长态势不足,整体略微缩减趋势,而SSCI收录的2011~2020年语料库语言学发文量一直保持整体增长趋势。这说明在2011~2020年期间,国际语料库语言学的相关研究继续蓬勃发展,而国内学者对语料库语言学的研究热度相对平稳,国内学者对语料库语言学研究的关注度稍逊于国际学者。
3.1. 主要作者和机构分析
作者和机构合作网络知识图谱可方便研究者迅速发现研究领域的核心作者和主要研究机构,结点越大的圆圈说明作者和机构的发文量和影响力越高。研究将对2011~2020年CSSCI和SSCI语料库语言学研究文献开展高产作者、高被引作者以及高产机构可视化分析。
3.2. 高产作者和高被引作者分析
CSSCI高产作者合作网络知识图谱网络密度(D = 0.0026)略高于SSCI高产作者合作网络密度(D = 0.002),这说明2011~2020年国内外语料库语言学研究比较分散,作者间合作较少,合作关系不够紧密,但国内语料库语言学高产作者间合作网络紧密度略高于国际语料库语言学。如图2所示,2011~2020年CSSCI语料库语言学文献的高产学者有王克非,胡开宝,卫乃兴,庞双子和张威等人,王克非教授是发文量最高学者。2011~2020年SSCI语料库语言学文献的高产作者主要有Biber,Gries,Speelman,Liu HT和Hyland等,发文量最高学者为Biber。这些国内外学者为语料库语言学的发展做出了重要学术贡献。
一般情况下,文献被引频次体现学术影响力。研究对2011~2020年CSSCI和SSCI语料库语言学高被引作者开展分析。分析结果如图3所示,这些高被引作者为2011~2020年国内外语料库语言学高影响力学者。CSSCI语料库语言学研究中前五的高影响力作学者为王克非,Biber,卫乃兴,Baker和胡开宝。SSCI语料库语言学研究中前五的高影响力作学者为Biber,Anonymous,Hyland,Sinclair和Quirk。
![](//html.hanspub.org/file/33-2912310x9_hanspub.png?20230914094406727)
Figure 2. Knowledge map of high-yield author of corpus linguistics in CSSCI and SSCI
图2. CSSCI和SSCI语料库语言学高产作者知识图谱
![](//html.hanspub.org/file/33-2912310x11_hanspub.png?20230914094406727)
Figure 3. Knowledge map of highly-cited author of corpus linguistics in CSSCI and SSCI
图3. CSSCI和SSCI语料库语言学高被引作者知识图谱
![](//html.hanspub.org/file/33-2912310x13_hanspub.png?20230914094406727)
Figure 4. Knowledge map of high-yield institution of corpus linguistics in CSSCI and SSCI
图4. CSSCI和SSCI语料库语言学高产机构知识图谱
由图2和图3可知,在国内语料库语言学文献中,王克非学者不仅发文量最高,且影响力最高,其于2006年率先提出语料库翻译学概念,是该领域领军人物。在国外语料库语言学文献中,发文量和被引量最高学者为Biber,其致力于语体变异、语法及语篇类型的研究,在语料库语言学领域造诣颇高。
3.3. 高产机构分析
CSSCI高产机构合作网络知识图谱网络密度(D = 0.0011)小于SSCI高产机构知识图谱网络密度(D = 0.013),这表明国内研究机构没有形成较为密切的合作关系,研究机构间交流也不够紧密,国际研究机构间的合作关系网比国内研究机构合作关系网更为密切。
由图4可以直观发现,2011~2020年CSSCI语料库语言学前三的高产研究机构有北京外国语大学、上海交通大学和上海外国语大学;2011~2020年SSCI语料库语言学发文量前三的高产研究机构有比利时Ghent University (根特大学)、英国Lancaster University (兰卡斯特大学)和西班牙Universitat de València (瓦伦西亚大学)。在2011~2020年,这些机构处于国内外语料库语言学研究领先地位。
4. 高被引文献分析
文献共被引分析知识图谱可以清晰展示该领域的高影响力文献,便于读者清晰了解领域内的核心文献。由图5可知,2011~2020年国内语料库语言学CSSCI前五的高被引文献有王克非(2008),胡开宝(2010),王克非(2009),秦洪武(2009)和黄立波(2012)。
![](//html.hanspub.org/file/33-2912310x15_hanspub.png?20230914094406727)
Figure 5. Co-citation network map of literatures of corpus linguistics in CSSCI and SSCI
图5. CSSCI和SSCI语料库语言学文献共被引知识图谱
王克非和胡显耀对翻译汉语词汇特征进行语料库研究,对比研究翻译汉语和汉语本身,探讨了翻译共性的问题,对语料库翻译研究提供不少借鉴 [15] 。胡开宝和陶庆详细介绍其团队建立的国内首个英汉会议口译语料库(CECIC)的创建与应用,突出口译研究的重要性,为后续国内汉英会议口译相关研究做出了重大贡献 [16] 。王克非和秦洪武从宏观视角描述和分析CEPC内英译汉文本的总体特征 [17] ,同年,两者还分析CEPC中英译汉文本词汇特征,发现汉语翻译文本的词类和词的组合上与汉语原创文本存在差异 [18] 。黄立波是国内最先探索译者风格的领军学者,其与朱志瑜运用葛浩文与戴乃迭的翻译作品建成平行语料库,来考察两者的翻译风格,对Baker“译者风格”方法论提出质疑,指出仅语料库软件统计的标准类/形比等参数不能有效区分译者风格,认为译者风格研究分S-型和T-型,将源文本考虑在内的S-型研究对翻译研究更有意义 [19] 。
2011~2020年国际语料库语言学高被引文献前五的文献有Anthony (2014),Bates (2015),Baayen (2008),Davies (2008)和Goldberg (2006)。Anthony教授研发了免费简单高效的单语语料库检索分析工具AntConc软件,广泛应用于语料库语言学研究 [20] 。Bates介绍了其研发的免费开源程序R语言内lme4包,为语言学相关研究数据的统计分析提供计算机技术支持,推动语料库语言学进一步发展。 [21] Baayen开创线性混合模型,为语料库语言学的量化研究提供统计学技术支持 [22] 。而Davies创建的COCA语料库是世界上最大免费英语在线语料库,操作简单且时效性强,为语料库语言学研究提供了强大语料库数据支持 [23] 。Goldberg更深刻阐述语言概括的本质,论证构式语法理论对语言习得的解释力 [24] ,是语言科学的一项重大进展 [25] 。
由CSSCI和SSCI高被引文献可知,国内外语料库语言学都注重语料库创建。不同之处在于国内侧重于语料库翻译等应用研究,而国际语料库语言学侧重于语料库语言学技术性和理论性研究。
4.1. 研究热点
关键词一定程度上表征文章的核心内容,表达文献主题内容,属于文献计量研究的重要内容。关键词共现分析可突显研究领域的关键结点,展现一定时间内该领域的研究热点,有助于把握这段时间内相关研究的整体概况。
![](//html.hanspub.org/file/33-2912310x17_hanspub.png?20230914094406727)
Figure 6. Keyword co-occurrence network of corpus linguistics in CSSCI and SSCI
图6. CSSCI和SSCI语料库语言学关键词共现知识图谱
如图6所示,CSSCI语料库语言学共现频次最高的关键词为语料库,其共现频次为305次,中心度为1.06。共现频次较高的关键词还涉及平行语料库、语义韵、语料库翻译学、批评话语分析、译者风格和短语学等。因此,2011~2020年国内语料库语言学研究热点涉及平行语料库研究、语义韵研究、语料库翻译学研究、批评话语分析研究和短语学研究等,这说明语料库研究运用到翻译学和话语分析等更多领域中。
SSCI语料库语言学共现频次最高的关键词为corpus,其共现频次为609次,中心度为0.17。共现频次第二的关键词为English,说明国际语料库语言学研究语言主要为英语。除了英语外,Spanish、French和Chinese等关键词共现频次也较高,西班牙语、法语和汉语相关研究也不少,这表明近些年国际语料库语言学学者们对西班牙语、法语和汉语等语料库研究关注度较高。discourse、acquisition、construction、grammar和genre等关键词共现频次也较高,即2011~2020年国际语料库语言学的研究热点涉及语篇,语言习得、语言结构、语法以及体裁等。
4.2. 研究前沿
突显词图谱突出了研究热点关键词的演变过程,便于发现研究领域的新兴热点,可观察研究发展趋势,追踪研究前沿。由图7突显词知识图谱可知,2011~2020年,国内语料库语言学文献的突显词有21个,突显度较强的关键词为英语写作和语料库语言学。由突显词的演变时间可知,及物性,语料库方法和第三语码等为国内语料库语言学的近几年研究热点,即2011~2020年国内语料库语言学研究前沿涉及及物性和语料库翻译学等。
![](//html.hanspub.org/file/33-2912310x18_hanspub.png?20230914094406727)
Figure 7. Keyword burstiness map of corpus linguistics in CSSCI
图7. CSSCI和SSCI语料库语言学关键词突显词图谱
SSCI语料库语言学文献的突显词图谱清晰显示了2011~2020年国际语料库语言学领域的研究热点演变。国际语料库语言学文献的突显词有25个,其中突显强度较强的关键词为语用学(pragmatics)和复杂度(complexity)。且由突显词演变时间可知,国际语料库语言学的研究前沿为法语(French)、德语(German)、模型(model)以及词束(lexical bundle)等研究,这说明近年来关于法语、德语、模型和词束等的研究较为活跃。
5. 结论
本研究借助CiteSpace对2011~2020年间国内外语料库语言学文献开展可视化分析,较为充分展示和追踪国内外语料库语言学的研究现状和发展趋势,可为后续相关研究一定参考。在发文量方面,国际语料库语言学发展态势强劲,国内语料库语言学年度文献量则整体略呈下降态势;在机构和作者方面,国际语料库语言学研究机构间合作关系网更为密切;在高被引文献方面,国内学者侧重语料库应用研究,国际学者侧重语料库技术性和理论研究;在研究热点和研究前沿方面,国内外研究有所不同,国内语料库语言学侧重平行语料库和翻译研究等,第三语码和及物性为发展方向;国际语料库侧重于语言习得、语言结构等研究,法语、德语、模型和词束等为发展方向。基于本研究的发现,国内语料库语言学研究的增长态势有待加强,国内学者间和机构间的交流合作应更深入,加强合作,构建紧密合作关系,以及国内语料库语言学的技术性和理论性等方面研究有待进一步发展。
参考文献