1. 引言
汉语方言的一个最明显的分野是北方官话和东南诸方言的对立,即南北对立。本文从《汉语方言地图集》 [1] 的词汇卷和语法卷选取16个词汇、语法项目,模拟DNA序列用MEGA (Molecular Evolutionary Genetics Analysis 分子进化遗传分析)软件进行分析(MEGA的操作可参看 Hall 2008 [2] ),并加以必要的检验,目的是探讨在汉语方言分区研究中引入词汇、语法标准以及借助生物学软件进行辅助分析的可行性。
2. 数据处理
本文选取的16个词汇、语法项目在《汉语方言地图集》里的词形分类往往都比较复杂,例如词汇卷014图(简称为LV014)“面儿玉米~,辣椒~”的词形有4大类30小类,可转写如表1(略去代表各类词形的符号,“=”表示同音字)。
本文立足于南北对立,将表1的30种词形概括为两类:“面”及其派生形式为一类,剩下的其他形式为另一类。即A、C为一类,B、D为一类,各有15小类。本文只区分大类,不区分小类。本文对选取的16个词汇、语法项目所做的词形分类如表2所示。“地图集分类”斜线前后的数字分别为《汉语方言地图集》的大类数和小类数。
词形二分法的设计目的是凸显北方的特点。因此凡碰到兼用南北不同词形或南北词形合璧时,都一律归入北方型。例如词汇卷179“痛~疼”(兼用南北词形)归为“疼”类,而不归为“其他”。词汇卷101“房子~屋”、“房子~屋子”、“房~屋”、“房~[屋—]”(兼用南北词形)以及“房屋”、“房屋~屋”、“厝~房厝”(南北词形合璧)归为“房”类,而不归为“其他”。
《汉语方言地图集》共设930个方言点。根据每个方言点对16个词汇语法项目Y/N的不同反应,可以得到930个YN序列。以北京、南京和广州为例(见表3,第一行为16个词汇语法项目的编号)。
即北京、南京、广州的特征序列分别为:YYYYYYYYYYYYYYYY|YYYYYYYYYYNYYYYN|NNNNNYNNNNNNNNNN。其中北京对16个项目的反应都是Y,南京除了对11、16两个项目的反应是
![](Images/Table_Tmp.jpg)
Table 1. The classification of word forms for “powder” on Map 014 of LACD vocabulary volume
表1. LV014的词形分类
![](Images/Table_Tmp.jpg)
Table 2. The word-form classification of 16 lexicon-grammar items
表2. 16个词汇、语法项目的词形分类
![](Images/Table_Tmp.jpg)
Table 3. Examples of feature sequences
表3. 特征序列举例
N外都是Y,广州只有第6个项目的反应是Y,其他都是N。每个序列含16个Y/N信息,930个序列含14,880个Y/N信息。这些信息都是笔者目视《汉语方言地图集》手工转写的,做了两遍校对,但个别差错仍或难免,不过当不至影响总体结论。
用人工手段处理930个序列不仅耗时费力,还容易出错。因此笔者在逐点查检16个项目的Y/N信息时即利用Access2003直接建立数据库,然后进行归总。930个序列可以归纳出240种不同的序列,各序列所辖的方言点数多寡不同。16个词汇语法项目的排列顺序完全依据《汉语方言地图集》。如果改变项目的排列顺序,序列的形式就会发生变化,不过不会影响序列种类的数量,因为930个方言点对既定项目的Y/N反应是相同的。
在240种不同的序列里,81种为官话所独有,不见于东南方言;152种为东南方言所独有,不见于官话;7种既见于官话,也见于东南方言。南北共用的7种序列本文按官话和东南方言分开,因此共得247个序列,见表4。
表4里的名称由方言属性和编号组成,N代表官话,S代表东南方言,点数指序列所辖的方言点数,序列由对16个词汇语法项目的Y/N反应组成,例如N001-116表示官话1号,辖116个方言点,其序列为YYYYYYYYYYYYYYYY,即对所有的项目都是Y反应;S001-084表示东南方言1号,辖84个方言点,其序列为NNNNNNNNNNNNNNNN,即对所有的项目都是N反应。先排官话独有序列(N001~N081),然后是南北共用序列中的官话部分(N082~N088),再后是东南方言独有序列(S001~S152),最后是南北共用序列中的东南方言部分(S153~S159)。四类序列都一律按所辖方言点数降序排列。南北共用序列的名称都用浅蓝色的字。其中:
3. 进化分析
为了便于观察,本文先进行小样本量的计算。选取的序列为:N001~N032 (所辖方言点数多于1的官话独有序列,辖306个方言点)、N082~N088 (见于官话的所有南北共用序列,辖9个方言点)、S001~S060 (所辖方言点数多于1的东南方言独有序列,辖462个方言点)、S153~S159 (见于东南方言的所有南北共用序列,辖12个方言点)。总共是99种、106个序列。其中官话39个序列,辖315个方言点,东南方言67个序列,辖474个方言点。官话序列的方言点数占官话方言点数的87% (315/364),东南方言序列的方言点数占东南方言点数的84% (474/566),两者合计占总方言点数的85% (789/930)。
106个序列按DNA序列的FASTA格式进行转写后导入MEGA (本文用第6版)即可进行计算。采用ME法(Minimum Evolution最小进化法),进行1000次构树测试,以S001-084为树根(下文的计算都采用同样的方式,不再一一说明),用曲线形树和环形树两种形式输出进化树,分别如图1和图3所示。因为输入的序列并非真正的DNA序列,而且样本数也比较大,因此本文一律忽略自展值(bootstrap values),它们实际上都很低。
本文关注的是进化分析所呈现的宏观分组态势,而非序列的具体进化细节。我们用四条彩线在图1里分出四个区:(1) A线区为官话独有序列,高频序列(旁标蓝点者)都集中在这一区;(2) B线区为官话独有序列和南北共用序列(旁标粉红色的⊐)的错杂分布区,以官话独有序列为主;(3) C线区为东南方言独
![](//html.hanspub.org/file/7-2910241x9_hanspub.png)
Figure 1. The phylogenetic tree in curve style
图1. 曲线形进化树
有序列和南北共用序列的错杂分布区,以东南方言独有序列为主;(4) D线区为东南方言独有序列,高频序列(旁标红点者)主要集中在这一区。如果笼统一点,B线区和C线区也可以概括为一个区,即官话独有序列、东南方言独有序列以及南北共用序列的错杂分布区。图1的这种分布态势可以说明官话和东南方言的词汇、语法“基因”大体上是南北有别的。A线区、B线区可以归为官话序列(A线区是典型的,B线区是非典型的),C线区、D线区可以归为东南方言序列(D线区是典型的,C线区是非典型的)。树根(S001-084)是最典型的东南方言序列(即对16个词汇语法项目都是N反应),而官话的三个高频序列几乎都集中在树梢,离树根最远。
南北共用序列的存在说明表现为官话序列的方言不一定就是官话,同样,表现为东南方言序列的方言不一定就是东南方言。造成这种情况的主要原因是由方言接触引发的“基因重组”(Gene recombination)。以N088-001/S158-001序列NNYYYNYYYNYYYYYY(B线区第一个标⊐的序列)为例,它只辖铜陵县(吴语宣州片)、芜湖市(江淮官话洪巢片)两个方言点。宣州片吴语大多处在江淮官话的包围之中,因此铜陵县吴语受江淮官话的冲击导致“基因”变异再明显不过。同样,C线区的N085-001/S155-002序列NNNNYNYYYNNYYYYN辖郴州(西南官话)、株洲(湘语长益片)、湘潭县(湘语长益片)三个方言点。郴州所在的西南官话桂柳片湘南小片主要通行于郴州市和桂阳县,北边是赣语耒资片,南边是湘南土话,西南官话桂柳片湘南小片可谓被东南方言南北合围,因此其词汇、语法“基因”向东南方言趋同完全在情理之中。
从图1还可以看到,A线要比D线短很多,B线、C线则长短大致相当。官话高频序列(116、51、43,占58%)与低频序列(最大值为7)落差较大,而且几乎紧挨在一起。东南方言高频序列(84、83、31,30、22、20,占48%)和低频序列(最大值为14)的落差较小,分布也不集中。这些情况可以说明:东南方言的“基因变异”范围较大,而且存在明显的非中心化(decentralization)趋势。
从结构上看,图1有一个明显不合理的地方。即有一个南北共用序列位于C线区的南端(NNNNYNYNNNNNNYNN, N086-001/S153-003),而在它的北边还有1个东南方言的高频序列,即S004-030(NNNNNNYNNNNNNYNN)。C线区南端的南北共用序列辖耒阳、洪江、麻阳、凤凰四个方言点。它们的方言归属见表5(向左的箭头表示同左)。即《汉语方言地图集》 [1] 承袭《中国语言地图集》 [3] 的处理,耒阳划归赣语耒资片,洪江、麻阳分归湘语的长益片和娄邵片,凤凰划归西南官话黔北片。到了《中国语言地图集》第二版 [4] ,除耒阳仍划归赣语耒资片外,其他三个点都有程度不同的改变:洪江划归西南官话湖广片怀玉小片,麻阳、凤凰划归西南官话湖广片湘西小片。洪江、麻阳由划归湘语改成了划归西南官话,凤凰则由西南官话黔北片调整为湖广片湘西小片。
按照图1的结构,比较好的办法是不仅洪江、麻阳仍应留在东南方言里,凤凰也应划归东南方言(这里不讨论其具体的归属)。这样一来,图1的D线就可以一直延伸到C线标有红杠的地方(在S156-001和S027-003之间),从树根到最远的高频序列这一范围内就不会再出现南北共用序列。事实上,检视凤凰方言的音韵,其白读层所呈现的特性属于东南方言是确凿无疑的(参看项梦冰2017 [5] )。它之所以会被归到西南官话里去,跟《湖南方言调查报告》 [6] 中的凤凰音系仅仅反映其文读层有很大的关系。
![](Images/Table_Tmp.jpg)
Table 5. The classification of Leiyang, Hongjiang, Mayang, and Fenghuang dialect
表5. 耒阳、洪江、麻阳、凤凰的方言归属
官话、东南方言序列的不同在于:前者Y值(Y的频度值,即每个序列出现Y的次数)较高,后者Y值较低(参看表6)。
从方言点数看,A线区、D线区是大头,构成了典型的两头大、中间小的哑铃型结构。说明16项词汇语法特征对于区分官话和东南方言是基本有效的。或者说,词汇语法的南北“基因”确实是明显有别的。官话、东南方言Y值和方言点数的匹配情况(如图2所示)也可以直观地说明这一点。
图3所呈现的语言景观跟图1相同,无需赘述。
![](//html.hanspub.org/file/7-2910241x10_hanspub.png)
Figure 2. The match between Y frequency values and numbers of dialect locations of northern mandarin and southeastern dialects
图2. 官话、东南方言Y值和方言点数的匹配(106个序列789个方言点)
![](//html.hanspub.org/file/7-2910241x11_hanspub.png)
Figure 3. The phylogenetic tree in circle style
图3. 环形进化树
4. 检验
下面将进行三方面的检验工作。(1) 不同计算方法的对比。(2) 主坐标分析。(3) 247个序列的完整计算。
4.1. 不同计算方法的对比
MEGA总共提供了5种不同的建树方法。这5种方法可分为两组。第一组:1. Maximum Likelihood (最大似然法,简称ML)。2. Neighbor-Joining (邻接法,简称NJ)。3. Minimum Evolution (最小进化法,简称ME)。第二组:4. UPGMA (Unweighted Pair-Group Method with Arithmetic Means,非加权组平均法)。5. Maximum Parsimony (最大简约法,简称MP)。通常远缘序列选择ML、NJ、ME,近缘序列选择UPGMA或MP (多用MP)。
本文对106个序列用5种方法分别计算了3次(其中MP在HP-DX2710SFF-E5200台式机上计算一次需耗时两个多小时),然后按计算方法逐一比对3棵树,发现即使是同一种计算方法,虽然每次输出的树所反映的大趋势是相同的,但细节并不完全一样(各区段的长短、序列的排列顺序都可能存在不同)。说明序列样本越多,进化路径的可能性越多。或者说,由于自展值非常低,几乎不存在优选项,因此MEGA只能从计算结果中随机抓出一棵树来。南北共用序列本文都按方言的性质(官话或东南方言)分开,多数情况下,被人为分开的同一种南北共用序列会聚集在进化树的同一个内部节点(internal node)下,但有时也会被分开。就本文的目的而言,同一种序列会被分开的计算结果自然要加以排除。本文从ML、NJ、UPGMA、MP的三次计算中各选一棵树作为对比,见图4、图5。
从图4、图5可见,每棵树都有蓝色线段区(A)和红色线段区(D),官话和东南方言的高频序列分别集中在这两个线段区。ML树和MP树跟图1的ME树一样,也有绿色线段区(B)和橙色线段区(C),而NJ树和UPGMA树则只有紫色线段区(BC)。当然并非BC绝对不能分为B和C,而是说其层次不是很分明,勉强分开意义也不大。除了三区(NJ、UPGMA)、四区(ML、MP)的区别外,线段的长短(代表序列的多少)、序列的具体排列顺序每棵树也不一样。如果立足于宏观,可以说图1、图4、图5所给出的五棵进化树都代表了官话和东南方言大致二分的格局,不同计算方法所得结果的本质并无不同。对比表6和表7可知,ME树的层次最为分明(分四区段,各区段的Y值表现最符合预期)。
![](Images/Table_Tmp.jpg)
Table 6. The comparison between different sections of the phylogenetic tree
表6. 进化树不同区段的对比
![](Images/Table_Tmp.jpg)
Table 7. The comparison between different sections of phylogenetic tree
表7. 进化树不同区段的对比
![](//html.hanspub.org/file/7-2910241x12_hanspub.png)
Figure 4. The phylogenetic trees in curve style with ML and NJ methods
图4. 用ML和NJ法构建的曲线形进化树
![](//html.hanspub.org/file/7-2910241x13_hanspub.png)
Figure 5. The phylogenetic trees in curve style with UPGMA and MP methods
图5. 用UPGMA和MP法构建的曲线形进化树
4.2. 主坐标分析
本文采用NTSYSpc2.10e进行主坐标分析,以三维散点图检验MEGA的计算结果是否合理。NTSYS的全称为“数值分类和多元分析系统”(Numerical Taxonomy and Multivariate Analysis System)。NTSYS在汉语方言学里的运用可参看项梦冰2015 [7] , 2016 [8] 。把106个序列按NTSYS所要求的0 1值格式进行转写后进行分步计算,最后可得到如图4所示的三维主坐标散点图。官话和东南方言用阿拉伯数字分别标出前三个和前六个高频序列(参看表4),南北共用序列则用小写字母标出。由于视角的关系,可能存在一定程度的叠置,因此图中的序列数目也许无法算足106个。
从图6可见,106个序列大体在一个半环带上高低错落地分布,一头是纯粹的绿圆(官话序列),一头是纯粹的红三角(东南方言序列),高频序列大体都落在半环带的两端,南北共用的序列不仅数量少(约占7%),而且主要分布在半环带的中段位置。值得注意的是,尽管7个南北共用序列的排列顺序图6和图1和图3不太一样,但两个极端完全相同,即N086-001、S153-003 (NNNNYNYNNNNNNYNN)在七种南北共用序列的“西端”,N088-001、S158-001 (NNYYYNYYYNYYYYYY)在七种南北共用序列的“东端”。N086-001(凤凰)已经深入东南方言独有序列的“腹地”,前文已指出,它本来就是东南方言。
![](//html.hanspub.org/file/7-2910241x14_hanspub.png)
Figure 6. The 3d principal coordinates plot of 106 feature sequences
图6. 106个特征序列的三维主坐标图
可见,图6和图1和图3尽管表现形式不同,但所反映的南北序列的分类大势则完全相同。与MEGA不同的是,NTSYS的重复计算结果一定相同。这大概要归因于MEGA的进化关系取向和NTSYS的相似性取向的不同。在NTSYS的计算结果里,南北共用序列必定是叠置的,不会分开。
4.3. 表4的247个序列的完整计算
前文的计算放弃了官话独有序列和东南方言独有序列中只辖1个方言点的序列,分别为49种和92种,合计141种,数量比计算用到的99种序列(因为7个南北共用序列按方言性质分开实际上是106个序列)还要多,因此还需要做完整的计算,看看加入141种低频序列后会是一种什么结果。采用ME法,计算4次,每次约需3个小时左右。本文选第3次计算结果,以环形图输出。
图7和图3的结构大致相同,也可分为4个明显的区段,南北共用序列分布区的两端依然是N088、S158和N086、S153(分别在B区和C区)。图7的B区只出现1个南北共用序列,其他6个都分布在C区,这跟图3的2、5分配法不同(N086-001、S153-003实际上不是南北序列)。图7中东南方言序列的
![](//html.hanspub.org/file/7-2910241x15_hanspub.png)
Figure 7. The phylogenetic tree of 247 feature sequences in circle style with ME method
图7. 用ME法构建的247个特征序列的环形进化树
非中心化趋势比图3更为明显,除S001在树根位置外,有4个高频序列几乎都集中在D区的另一端,而且还有1个高频序列(S005-022)深入到C区,在C区所有南北共用序列之外。可见,加入141个低频序列后,进化树的结构合理性会受到一定程度的影响。当然这也取决于我们如何看待高频序列。S005所辖方言点数仅为22,跟S007-014比只多8个方言点,而根据图7的表现,我们也可以把S005排除在高频序列之外,何况它毕竟还落在C区,没有跑到B区,并不算太出格。
247个序列的Y值的统计见表8,Y值和方言点数的匹配见图8。表8、图8跟表6、图2所呈现的南北二分景观可以说相当接近。此外,我们还可以从大方言的角度进一步统计出各方言的区段分配和Y值情况,如表9所示。
![](Images/Table_Tmp.jpg)
Table 8. The comparison between different sections of phylogenetic tree
表8. 进化树不同区段的对比
![](Images/Table_Tmp.jpg)
Table 9. The section distribution and Y frequency value statistics according to the different dialects
表9. 各方言的区段分配和Y值统计
![](//html.hanspub.org/file/7-2910241x16_hanspub.png)
Figure 8. The match between Y frequency values and numbers of dialect locations of northern mandarin and southeastern dialects
图8. 官话、东南方言Y值和方言点数的匹配(247个序列930个方言点)
表9以平均Y值降序排列,方言分类只是一种便宜的处理,晋陕官话即晋语。兰银、北京官话只分布于A区,东北、胶辽、晋陕、冀鲁官话分布于A区和B区,西南官话四个区都有分布,江淮官话分布于A、B、C三区。徽语、客家话只分布于D区,湘语、平话、土话、闽语、粤语分布于C区和D区,赣语、吴语分布于B、C、D三区。根据区段分布和平均Y值大体可以说:西南官话和江淮官话具有较多的东南方言色彩,而兰银官话至中原官话都是典型的官话;湘、赣、徽、吴具有较多的官话方言色彩,而平话、土话、闽语、粤语、客家话都是典型的东南方言。这种格局显然跟西南官话、江淮官话及湘、赣、徽、吴处在南北交接地带有关。
4.4. 表4的247个序列的主坐标分析
用NTSYSpc2.10e进行主坐标分析得到的三维主坐标图如图9所示。
图9和图6具有完全相同的结构。247个序列大体在一个半环带上高低错落地分布,一头是纯粹的绿圆(官话序列),一头是纯粹的红三角(东南方言序列),排在前三位的序列大体都落在半环带的两端。在半环带的中段,红三角和绿圆或叠合(共有序列),或穿插,呈现出相当复杂的局面。高频序列、南北共用序列的排列位置跟图6完全一样(为了使图面简洁,图9东南方言的高频序列只标前三位)。
几乎可以说,图9是在不动图6的基础上,再把141个序列按相对关系一一插入而已。由此可以再一次看到相似性取向和进化关系取向的不同。相似性取向的特点是数据相同、计算方法相同,结果就一定相同。或许有人会因为每一棵进化树可能存在的细节差异而产生不踏实感,可是进化树的好处也是非常明显的:它十分有利于我们做切分,而且可以方便地根据进化树所呈现的面貌做各种数据检验,从而挑选出最好的树。而面对图9这样的三维图,不仅切分要如何进行实在有些无计可施,而且标注也势必造成大量的图文叠置而无法观看,不利于各种数据检验。
5. 结论
本文的实验说明,在汉语方言的分区工作中引入词汇和语法标准是有意义的。不过词汇、语法标准的引入并不会根本改变汉语方言分区以音韵标准为主的基本格局。“因为汉语方言的差异以语音为最是一个客观事实,人们历来也是这样看的。这一事实相信将来也不会改变”(王福堂,1999: 46 [9] )。在具体
![](//html.hanspub.org/file/7-2910241x17_hanspub.png)
Figure 9. The 3d principal coordinates plot of 247 feature sequences
图9. 247个特征序列的三维主坐标图
的操作上,可以把每一个方言对不同分区特征的具体反应比拟为生物学里的一个个DNA序列,从而借用生物学的MEGA软件来辅助分析。当然方言学里的所谓“特征序列”并非真正的DNA序列,而用MEGA来进行大样本计算时,自展值低也是正常情况,重要的是从中观察进化树所体现的分组趋势。
致谢
本文得到国家社科基金重大项目“基于中国语言及方言的语言接触类型和演化建模研究”(项目编号:14ZBD102)的资助,谨致谢忱。