当代汉语词汇的音节发展趋势及词法模式研究
Research on the Syllabic Development Trends and Morphological Patterns of Contemporary Chinese Vocabulary
摘要: 汉语词汇的双音节化是汉语词汇发展的重要特点,一直以来都备受学界关注。本文基于数据挖掘方法,考察当代汉语尤其是新世纪以来(2010~2022)的音节分布及发展趋势,并探讨双音节化过程中的词法模式问题。
Abstract: The disyllabic trend in Chinese vocabulary is a significant feature of its development and has long attracted scholarly attention. This paper, utilizing data mining methods, examines the syllabic distribution and development trends of contemporary Chinese, particularly from the new millennium (2010~2022). Additionally, it explores the morphological patterns associated with the disyllabic process.
文章引用:胡皓翎. 当代汉语词汇的音节发展趋势及词法模式研究[J]. 现代语言学, 2024, 12(7): 948-959. https://doi.org/10.12677/ml.2024.127643

1. 引言

汉语词汇的双音节化是汉语词汇发展的一个重要特点。双音节化问题自上世纪30年代起就一直受到学界的关注,郭绍虞(1938) [1]、王力(1944) [2]、高本汉(1949) [3]、吕叔湘(1963) [4]、赵元任(1968) [5]、冯胜利(1998) [6]、董秀芳(2002) [7]等多位学者都进行过探讨。

就汉语词汇的音节发展趋势而言,王力先生(1957) [8]指出,五四运动以后,“现代汉语新词的产生,比任何时期都多得多……从词汇的角度来看,最近五十年来汉语发展的速度超过以前的几千年。”北京师范学院中文系汉语教研组的研究报告(1959) [9]提到:词向双音、多音发展,是汉语构词发展的一个基本规律。词的继续双音化并开始多音化,是五四以后汉语构词的一个新的发展。

较多的研究已经发现新词在音节上表现出多音节化的倾向,如朱永锴,林伦伦(1999) [10]观察到:现代汉语新词语的特点首先是音节趋向多音化,三音节化、四音节化甚至多音节化的词语成了汉语造词的新趋势。随后,不少学者通过统计新词词典中的音节数,观察多音节词的占比情况,认为当代汉语新词语的音节发展趋势是由双音节向多音节方向发展(张淑敏,1995 [11];田宇贺,2003 [12];刁晏斌,2006 [13])。

近年来,一些学者开始从历时角度观察汉语词汇的音节发展趋势,如陈衡(2016) [14]运用多种计量方法分别考察了近一千年和近两千年汉语文本的词长分布。结果发现,汉语词长分布有着非常显著的历时演化规律,平均词长增加。张聪(2017) [15]通过对文言、北京官话和现代汉语书面语三个不同时期《马可福音》译本的量化调查,考察了近160年汉语书面语的历时演化情况,认为音节复杂化是汉语书面语历时演化过程中的一个重要趋势。

然而,目前对汉语词汇音节发展趋势的研究还存在以下不足:一是对当代汉语尤其是新世纪以来的词汇音节变化关注不足;二是对这一现象的观察多是词典统计,缺乏大规模语料库的验证;三是使用的统计方法有限,缺乏具有统计学意义的检验。因此,本文将基于数据挖掘方法,观察当代汉语(2010~2022)的音节分布及发展趋势,并探讨双音节化过程中的词法模式问题。研究结果将有助于我们对这一现象有更科学、深入的认识,也便于之后的追踪式考察,这对汉语教学、词典编纂具有较大应用价值。

2. 材料与方法

本文使用的语料来自国家语言资源监测语料库。该语料库由国家牵头,五大高校共建,语料自2005年起持续更新,因此较为权威、稳定。语料库每年定期在《中国语言生活状况报告》中发布上一年的《词语表》1,能够反映汉语词汇使用的年际变化。经过统计,2010~2022年间,《词语表》中汉字词的词型平均在2万6左右,词例约为5亿。历年的词语规模如表1所示。本文将对2010~2022年间《词语表》中的汉字词进行分析,考察新世纪以来音节的分布及发展趋势。

Table 1. The scale of Chinese character words in the Word Lists from 2010 to 2022

1. 2010~2022《词语表》中汉字词的规模

年份

词型(type)

词例(token)

2010

25,546

549,087,393

2011

26,023

565,671,739

2012

26,352

569,876,169

2013

27,035

576,577,880

2014

27,887

540,311,574

2015

27,743

526,228,396

2016

27,342

515,869,678

2017

28,397

490,397,385

2018

27,076

481,350,833

2019

25,366

513,377,283

2020

22,945

420,853,689

2021

24,131

540,014,406

2022

23,388

574,276,610

在研究方法上,本文采用数据挖掘的方法。数据挖掘法是一种从大量数据中提取有价值信息和知识的方法。它结合了统计学、机器学习、人工智能和数据库技术,通过自动或半自动的方式,识别数据中的模式、关系和趋势。本文使用的数据挖掘分析方法主要有:时间序列分析、变点分析、语义相似度计算、聚类分析等。

3. 当代汉语词汇音节的分布及发展趋势

3.1. 总体音节分析

图1图2所示,当代汉语在词型上,双音节词占绝对优势,约占70%,其他依次是三音节词(约13%)、单音节词(约10%)、四音节词(约6%),五音节及以上的词所占比例很小,13年间音节分布基本无波动。而在词例上,音节分布基本呈现单调递减模式,单音节词所占比重最大,约为60%,其次是双音节词,占10%左右,但13年间单音节词和八音节词波动较大,具体表现为单音节词比例下降,八音节词比例就上升,二者存在明显此消彼长的关系。进一步查看后发现,这其实是由于某个八音节词(“中国特色社会主义”)的使用频次极高导致的。

变点分析(Change-Point Analysis)用于检测数据序列中结构变化的点。这些变点标志着数据生成过程中的显著变化,例如均值、方差或趋势的突然改变。相比词型,13年间的各音节词例变化较大,因此我们使用变点分析检测各音节词例的所占比重有无明显变化,以及在何时变化(见图3)。结果发现,三类音节词中存在明显的变点。其中,单音节和八音节词的变点都在2017年开始,而四音节词的变点在2020年开始。观察具体的词语之后发现,四音节词的词例增加是因为受新冠肺炎疫情影响,一些新产生的四音节词和与疫情有关的四音节词在短时间内使用频次极高,如“新冠肺炎”“新冠病毒”“确诊病例”“复工复产”“核酸检测”“疫情防控”等。八音节词的词例增加则是因为“中国特色社会主义”一词的频繁使用,进而也导致单音节词的词例下降。其中,两次高峰分别对应2012年党的十八大召开,提出坚持和发展“中国特色社会主义”;2017年,党的十九大召开,宣布“中国特色社会主义”进入新时代。

Figure 1. Syllable distribution of Chinese word type and token from 2010 to 2022

1. 2010~2022汉语词型和词例的音节分布2

Figure 2. Changes in syllable words in terms of type (top) and token (bottom)

2. 各音节词在词型(上)和词例(下)上的变化

Figure 3. Change-point analysis of each syllable word token (from top to bottom: monosyllabic, tetrasyllabic, octosyllabic)

3. 各音节词词例的变点分析3 (从上到下依次是单音节、四音节、八音节)

由总体音节分析可知,当代汉语各音节的词例变化波动较大,容易受重大事件(新冠肺炎疫情、政治宣传等)影响,而词型变化比较稳定,不易受外部因素影响。

3.2. 高频音节分析

所谓高频音节,指的是单、双、三、四音节,这些音节的词在汉语中占大多数,较为稳定,五音节及以上的词仅占很少一部分,因此我们又单独对这四个主要音节的词进行分析,并利用线性回归拟合它们的发展趋势,见图4~6

Figure 4. Distribution of high-frequency syllables in Chinese word type and token from 2010 to 2022

4. 2010~2022汉语词型和词例的高频音节分布

Figure 5. Changes in word type for monosyllabic, disyllabic, trisyllabic, and tetrasyllabic words

5. 单、双、三、四音节在词型上的变化

Figure 6. Changes in word token for monosyllabic, disyllabic, trisyllabic, and tetrasyllabic words

6. 单、双、三、四音节在词例上的变化

图4显示,汉语词汇在词型和词例的高频音节分布上,仍然呈现出钟形分布和单调递减模式,但值得注意的是,随着年份的增加,在词例上,单音节词的比重逐渐下降,双音节词的比重逐渐上升。图5显示,在词型上,双音节词呈现下降趋势(k = −0.19, p < 0.05, R2 = 0.83),三、四音节词呈上升趋势(k = 0.1, p < 0.05, R2 = 0.64)。图6显示,在词例上,单音节词呈下降趋势(k = −0.65, p < 0.05, R2 = 0.88),双音节(k = 0.38, p < 0.05, R2 = 0.92)、三音节(k = 0.15, p < 0.05, R2 = 0.79)、四音节(k = 0.23, p < 0.05, R2 = 0.85)都呈现上升趋势。

词型是静态的,能够反映构词能力,词例是动态的,能够反映词的使用。对高频音节的分析能够在一定程度上说明:在当代汉语中,三、四音节词的能产性逐渐提高;单音节词的使用率不断下降,双音节词的使用率不断上升,说明汉语词汇的双音节化进程仍在继续。

4. 双音节化过程中的词法模式分析

上文已经发现汉语词汇的双音节化进程仍在继续,表现为单音节词的使用不断减少,双音节词的使用不断增加。更进一步,我们好奇的是究竟哪部分单音节词的使用在稳步递减,哪部分双音节词的使用在稳步递增?这些词有什么特点?首先,我们提取了13年间的共有词汇近1万8千个,其次对每个词语拟合它的词频变化,最后通过限制斜率k、显著性p值和拟合优度R2来确定使用减少的单音节词和使用增加的双音节词。如图7,我们最终确定的符合条件的单音节词有400个,双音节词有414个。

从词例稳定减少的单音节词来看,由于“是”“了”“一”“不”“有”这几个百万词频的词使用率下降了,因此导致单音节词下降的速率约为双音节词增加速率的两倍。从词例稳定增加的双音节词来看,经过标注,我们发现并列式复合词(约占40%)和偏正式复合词(约占30%)是其中最主要的词法模式。而在并列式复合词中,VV式又是最主要的,约占62%,在偏正式复合词中,AN式是最多的,约占58%。

Figure 7. Monosyllabic words with steadily decreasing usage and disyllabic words with steadily increasing usage over 13 years

7. 13年间使用稳步减少的单音节词和使用稳步增加的双音节词4

有关并列复合词,我们的这一发现证实了董秀芳、尹会霞(2021) [17]指出的“汉语是复合法发达的语言,并列式复合词较多也是汉语复合词的一个特点,同时也体现了东亚语言的一个区域性特征……汉语中由动词构成的并列式复合词在由动词构成的所有复合词中占有相当高的比例,这就表明由动词作为构成成分组成的并列式复合词在汉语中是比较突显的。”此外,孟凯(2023) [18]研究认为,并列式近二十年在新词语中的比重不断下降,已不算当代汉语双音节中能产的造词模式,而在多音节中表现出了较强的能产性。我们对此要做的补充是:虽然并列复合词的能产性有所下降,但使用率其实还在不断增加,持续推动汉语双音化进程。

并列复合和偏正复合之所以能成为双音化进程中强势的词法模式,是因为前者中两个意义相近的语素容易结合成词,后者中形容词和名词之间的语义组配灵活多样。为了进一步观察使用率稳定递增的双音节词在语义上有何特点,我们基于OpenHowNet5对VV式并列复合词和AN式偏正复合词分别进行语义相似度计算,并采用K-means聚类算法输出合适数量的语义簇,最后结合人工经验归纳出它们的语义特点。

4.1. VV式并列复合词的语义

在这类词中,主要有以下6种语义类(图8):

1) “聚合”类:聚合、凝聚、集聚、聚焦、融合

2) “引领”类:引领、引导、指引、指示、指导

3) “建构”类:构建、打造、搭建、设置、建构

4) “开展”类:开展、开放、部署、运营、履行

5) “通告”类:印发、申报、报送、发布、告知

6) “研究”类:研究、探索、验证、辩证、甄别

4.2. AN式偏正复合词的语义

在这类词中,主要有以下4种语义类(图9):

1) “结构”类:要素、构件、内核、分部、中枢

Figure 8. Semantic clustering of VV coordinative compound words

8. VV式并列复合词的语义聚类

2) “度量”类:深度、精度、广度、横向、纵向

3) “性质”类:柔性、共性、活性、常态、优质

4) “转指”类:红利、高地、基石、流程、流量

Figure 9. Semantic clustering of AN attributive-noun compound words

9. AN式偏正复合词的语义聚类

“转指”类也体现在NN式并列复合词中,如山川、巾帼、标杆、根基、枢纽、路径等,以及动宾复合词中,如抓手、牵头、亮眼、投身、扎根、干事、落地等,多与身体部位有关。

总的来说,我们发现词例上稳定增长的双音节词在结构上多为并列复合词或偏正复合词,其中又以VV式并列及AN式偏正居多;在语义上整体体现出聚合性、结构性、消息性、转指性。

5. 结论

本文基于数据挖掘方法,观察当代汉语(2010~2022)的音节分布及发展趋势,并探讨了双音节化过程中的词法模式问题,主要以下三点发现:

1) 由总体音节分析可知,当代汉语各音节的词例变化波动较大,容易受重大事件(新冠肺炎疫情、政治宣传等)影响,词型变化相对稳定,不易受外部因素影响。

2) 由高频音节分析可知,一方面,在当代汉语中,三、四音节词的能产性逐渐提高。另一方面,单音节词的使用率不断下降,双音节词的使用率不断上升,汉语词汇的双音节化进程仍在继续。

3) 词例稳定减少的单音节词中,由于“是”“了”“一”“不”“有”等百万词频的词使用率下降,导致单音节词下降的速率约为双音节词增加速率的两倍。词例稳定增长的双音节词在结构上多为并列复合词或偏正复合词,其中又以VV式并列及AN式偏正居多;在语义上整体表现出聚合性、结构性、消息性、转指性。

NOTES

1国家语言资源监测语料库中的语料来自平面、有声、网络三种媒体。平面媒体语料来源包括国内几十家报纸每年1月1日至12月31日的全部文本,如《北京青年报》《齐鲁晚报》等;有声媒体语料来源包括中央电视台等电视台及中央人民广播电台等广播电台的节目转写文本;网络媒体语料来自新浪、腾讯的新闻网页。对每年覆盖率达95%的词语,去除其中的时间表达式、数字表达式、专有名称后,形成《年度媒体高频词语表》,附于每年的《中国语言生活状况报告》中[16]。虽然《词语表》自2006年起就开始发布,但一开始语料的抽取比例并不十分一致,直到2010年之后的语料抽取比例开始保持稳定(三种媒体的语料量比例约为5:1:4),因此本文选取2010~2022年的《词语表》作为研究对象。

2此处的词例(token)使用的是平均词频,即某音节词的词频之和/某音节词的数量。图中的折线颜色越深代表年份越近。

3使用变点分析器(Change-Point Analyzer)进行分析。https://variation.com/product/change-point-analyzer/

4p ≤ 0.05,R2 > 0.8,k > 0或k < 0;词云中字体的大小代表该词语平均词频的大小。

5OpenHowNet [19]源自语言知识库知网(HowNet)。知网的构建秉承还原论思想,即所有词语的含义可以由更小的语义单位构成,而这种语义单位被称为“义原”(Sememe),即最基本的、不宜再分割的最小语义单位。知网构建了包含2000多个义原的精细的语义描述体系,并为十几万个汉语和英语词所代表的概念标注了义原。

参考文献

[1] 郭绍虞. 中国语词之弹性作用[J]. 燕京学报, 1938(24): 1-34.
[2] 王力. 中国语法理论[M]. 上海: 商务印书馆, 1944.
[3] Karlgren, B. (1949) The Chinese Language: An Essay on Its Nature and History. The Ronald Press Company.
[4] 吕叔湘. 现代汉语单双音节问题初探[J]. 中国语文, 1963(1): 10-22.
[5] Chao, Y.R. (1968) A Grammar of Spoken Chinese. University of California Press.
[6] Feng, S. (1998) Prosodically Motivated Passive Bei Constructions in Classical Chinese. In The 1998 Yearbook of the Linguistic Association of Finland, 41-68.
[7] 董秀芳. 词汇化: 汉语双音词的衍生和发展[M]. 成都: 四川民族出版社, 2002.
[8] 王力. 汉语史稿[M]. 北京: 中华书局, 1957.
[9] 北京师范学院中文系汉语教研组. 五四以来汉语书面语言的变迁和发展[M]. 北京: 商务印书馆, 1959.
[10] 朱永锴, 林伦伦. 二十年来现代汉语新词语的特点及其产生渠道[J]. 语言文字应用, 1999(2): 18-24.
[11] 张淑敏. 汉语新词语构成情况的一个考察[J]. 社科纵横, 1995(5): 46-49+42.
[12] 田宇贺. 当代汉语新词语的构成方式及音节发展趋势[J]. 南通师范学院学报(哲学社会科学版), 2003(4): 77-80.
[13] 刁晏斌. 现代汉语词的音节及其发展变化[J]. 南开语言学刊, 2006(1): 40-46+165.
[14] 陈衡. 汉语词长的计量研究[D]: [博士学位论文]. 杭州: 浙江大学, 2016.
[15] 张聪. 汉语词频的历时演化研究[D]: [博士学位论文]. 杭州: 浙江大学, 2017.
[16] 郭熙, 主编. 中国语言生活状况报告[M]. 北京: 商务印书馆, 2023.
[17] 董秀芳, 尹会霞. 从类型学视角看汉语中并列式复合词的特点[J]. 河北师范大学学报(哲学社会科学版), 2021, 44(5): 101-108.
[18] 孟凯. 当代汉语并列式复合词的能产性及其解释[J]. 清华语言学, 2023: 161-177.
[19] Dong, Z.D. and Dong, Q. (2003). HowNet—A Hybrid Language and Knowledge Resource. Proceedings of International Conference on Natural Language Processing and Knowledge Engineering, Beijing, China, 26-29 October 2003.