1. 引言
方言地图,作为一种方言信息的存储载体,能精确且全面地描写区域语言特征,并以空间可视化的形式展示方言范围分布及方言特征的地理分布[1]。传统的方言地图,根据研究专题问题的不同特点,主要包括方言定点符号图和方言范围图两类,还包括一些特殊类型,如方言同言线图、方言接近率图、方言动线图等[2] [3]。在20世纪60年代至70年代之间,计算机开始普及并用于地图制图。19世纪后期以来,世界众多国家如法国、德国、英国、美国、意大利、丹麦、捷克、加拿大、日本、菲律宾、泰国等均投入巨大力量,调查、编写、出版了本国的方言地图[4],如吉叶龙(Jules Gilliéron)的《法国语言地图集》(1902~1914, 1920),芮德(F.Wrede)等的《德国语言地图集(1926~1956)》,日本国立国语研究所的《日本言语地图》(1966~1974)和《方言文法全国地图》(1989~2006),等等。并且很多国家陆续从20世纪末期开始,在语言地图的信息化、数字化方面,已经进行了许多开创性的工作。在当今数字化和智能化的时代背景下,方言地图正朝着满足方言地理信息系统、方言知识图谱、以及方言信息挖掘分析等多方面应用的方向演进[5] [6]。
我国语言地图的绘制工作起步较晚,并且很多早期的语言地图都是采用手工绘制。直到20世纪80年代,才出现了较为规范的全国性分布范围地图集《中国语言地图集》(1987),该图集对中国境内语言的分布状况分省和分语进行了详细介绍。随后,一些学者陆续开展了有关方言地图绘制的理论与方法的研究[7] [8] [9]。然而,遗憾的是,迄今为止,仍然缺乏规范的县域级别的微观尺度分布图,至于精确到乡镇级或更小地理尺度的语言地图则更为罕见,这限制了人们对语言信息的精细感知。另外,随着国家现代化、城镇化的推进,不同语言文化之间的相互影响,特别是标准语的普及,导致很多地方方言的使用范围不断萎缩,甚至逐渐走向濒危的态势[10]。因此,在国家大力提倡语言资源保护与开发的大背景下,对各地方言进行微观尺度的普查,并利用信息化手段,实现对国家语言状况的即时了解和动态监测,已成为当下社会的迫切需求。
为此,从满足多种应用的角度出发,提出了方言微观范围地图的研制的一些新思路与方法,并以江西省为例,进行了实践应用,制图数据成果不仅能满足日常用图、图集出版的需求,还能支持方言数据的集成应用、语情监测以及语音地域识别等。研究成果有利于推进国家语言资源的科学保护与开发,对各省区方言微观范围地图的研制具有一定的参考价值。
2. 设计思路与原则
方言微观范围地图用于展示乡镇级或更精细的地理尺度内的方言情况。这种地图通常会标注出不同的方言区域,并详细描述每种方言的详细信息,如方言分布、语言特点、使用情况等。与现有的宏观方言范围图相比,方言微观范围图能提供更精细的观测颗粒度,实现对方言的微观体察与监测。制作这种图的前提必须基于对各乡镇方言的田野调查,采集方言的基础数据,包括单字、词汇、语法和口头传统等音像图文一体化的多模态语料数据。同时,通过实地调研或文献调查获取权威的地理、历史、人口等地理人文信息。然后对所有调查数据进行数据处理和建库,最后根据运用需求构建语言地理信息系统,并制作方言范围地图。这种地图旨在通过地图形式展示乡镇或更小尺度地区方言的分布和语言特征,以支持地方语言的监测,并促进方言文化资源的保护与开发。考虑到方言微观范围地图的尺度特性及其数字化应用,制图时应遵循以下基本原则:
(1) 可靠性:地图的原始方言数据应来源于可靠的方言实地调查数据。调查者必须具备丰富的语言田野工作经验,并经过统一的调查与工作规范培训,严格遵循科学的调查方法,确保调查数据的真实性与规范性。
(2) 全面性:地图需要覆盖整个语言监测区域,尽可能地收录各乡镇、甚至村落的方言。设计的方言知识信息相对全面,满足语情监测的需要。
(3) 互动性:呈现方言地图的同时,应当提供一些交互功能,让用户可以主动选择不同区域和方言进行了解和学习,满足方言信息的智能查询。
(4) 现势性:由于语言发展与使用的动态变化,地图的数据内容也需要动态更新,确保最新的区域和方言数据更新到现有方言地图。
(5) 美观性:地图在展现信息的同时,从颜色、符号、图例、指北针、比例尺、版面布局等方面进行精心设计,力求美观、清晰、易读。
(6) 通用性:制作的专题地图和数据成果应适用于多种用途和不同的用户,包括但不限于论文插图、工作用图、地图集出版和语情监测应用。
遵循以上的设计原则,方言微观范围地图将能够更好地为使用者提供方言信息服务,实现方言活力的动态感知,有效满足我国方言文化资源的保护与开发需求。
3. 数据内容与关键数据结构
方言微观范围地图的研制所使用的数据主要包括基础地理信息数据、方言专题信息数据和社会专题属性数据等。其中,基础地理信息数据通常为权威部门发布的标准地图数据;方言专题信息数据主要通过对方言区域的实地调查获得,涉及区域的单字、词汇、语法和口头传统(民间故事、歌谣、传统习俗等)等多模态语料数据;社会专题属性数据主要是指省、市、县、乡镇的历史、人口、经济和教育状况等方面的数据,用于方言分布与变化的综合分析。具体的地图数据内容如表1所示。
Table 1. Data content of dialect range map
表1. 方言范围地图的数据内容
数据名称 |
数据类型 |
数据格式 |
备注 |
县行政区划 |
基础地理信息 |
ESRI Shapefile |
面状要素 |
乡镇行政区划 |
面状要素 |
县界线 |
线状要素,依据“县行政区划”处理生成 |
乡镇界线 |
线状要素,依据“乡镇行政区划”处理生成 |
水系 |
线状要素 |
山脉 |
面状要素 |
方言分布范围 |
专题地理信息 |
ESRI Shapefile |
依据调查的语情绘制,面状要素 |
语情概况 |
专题属性信息 |
docx |
以县为单位,依据调查或收集的数据撰写而成 |
单字 |
方言语料数据 |
xls |
语言特征 文本记录 |
词汇 |
语法 |
话语 |
概况 |
调查点、发音人信息 |
单字音频 |
wav |
发音音频 |
词汇音频 |
语法音频 |
话语讲述音频 |
单字视频 |
mp4 |
发音视频 |
词汇视频 |
语法视频 |
话语讲述视频 |
人口 |
社会专题信息 |
docx |
数字型数据 |
经济 |
GDP数据 |
教育 |
平均受教育年数 |
其中,为了支持方言的空间查询与分析,需要对方言分布范围(图层)的属性数据结构进行特别的设计,如表2所示。另外,在县行政区划、乡镇行政区划数据中设置字段存储与行政区域相对应的人口、经济、教育信息。
4. 地图研制的关键方法
下面主要以江西省的县域方言分布地图为例,介绍方言微观范围地图研制的关键方法。这种地图以乡镇或村落方言调查数据为基础,利用地理信息系统(GIS)软件,例如ArcGIS,或GIS开发工具进行地图的制作与开发应用。为确保制作出质量高和效果好的方言范围分布地图,本文在制图过程中综合考虑了江西省内方言的特殊性、复杂性对地图呈现效果产生的各种影响,同时也兼顾地图的大众审美需求和数字化互动应用等。以下将从地图制作规范、地图符号设计和区域轮廓形状的处理方法等三个方面具体介绍地图制作的关键方法。
Table 2. The primary attribute fields for dialect distribution range data
表2. 方言分布范围数据的主要属性字段
字段名 |
字段类型 |
字段意义 |
所属市 |
NVARCHAR (50) |
方言分布的地级市 |
所属县 |
NVARCHAR (50) |
方言分布的县市 |
所属乡 |
NVARCHAR (50) |
方言分布的乡镇 |
方言种类 |
NVARCHAR (100) |
方言种类名称及濒危情况 |
分布 |
NVARCHAR (300) |
方言分布的具体乡镇 |
使用人口 |
NVARCHAR (200) |
范围内说方言的人口数 |
语料资源 |
NVARCHAR (200) |
方言语料资源链接地址URL |
备注 |
NVARCHAR (500) |
涉及的史实资料 |
4.1. 地图制作的规范
4.1.1. 数据规范
数据的规范性主要从以下三个方面进行约束和规定:数据内容、数据格式以及数据坐标系。原始地图数据包括县级行政区划数据、乡镇行政区划数据和河流数据,统一采用ESRI公司提供的Shapefile文件格式,这是一种矢量数据格式。并且所有的地图数据均采用统一的地理坐标系CGCS_2000 (China Geodetic Coordinate System 2000)。
4.1.2. 图面要素的规范
鉴于日常打印出图(工作用图)、书籍插图和地图集出版等多方面的需要,经过试验发现1:250,000制图比例尺(出图比例尺)的地图能够较好兼顾展示方言分布细节和其他图面要素的配置,为此,规定制图比例尺为1:250,000。制图版面则根据制图区域的地理范围进行动态调整,在ArcMap软件“页面和打印设置”菜单中对地图页面大小的参数进行设置。地图的整饰要素包括图名、指北针、图例、比例尺条和比例尺文本等,按照正常地图版面进行放置,其中特别注意的是图例中内容的顺序,为了突出方言的属性,将方言种类始终靠前,其余河流、县界线和乡界线依次摆放。注记方面,通过将乡镇行政区划中的标注转注记到数字地图中,尽量保证注记在乡镇图斑中居中显示。根据行政区划的大小和形状对细节进行适当调整,以输出的地图图片放置到word文档(A4纸张)中文字保持清晰为原则。
4.2. 地图符号的设计
在地图符号设计中,人们可以利用色彩表现多种多样制图对象的空间分布、数量、质量特征,增大地图信息载负量。合理运用彩色可以丰富内容、增加层次结构、美化地图并提高表现力和使用价值,而如果地图色彩搭配欠佳则会使图面出现色彩不协调、内容要素不能充分体现、读图困难、艺术效果差等情况[11] [12]。现有的省级方言范围地图在符号颜色使用上相对简单,欠缺对色彩的深层次研究与应用,其色彩设计难以满足方言微观地图内容的分类、分级及人文性表达的需求。为此,本文对方言微观范围地图符号进行了创新设计,符号用色方面既考虑到方言的分类、分级表达,又考虑了色彩的历史人文性表达,赋予了地图颜色更深层次的含义。兼顾了地图的清晰易读性和艺术性,实现了地图色彩配色形式与地图表示内容的协调统一。针对方言范围符号颜色,本文提出了以下四项原则:(1) 舒适性原则:地图用色力求清爽、淡雅,给人予舒适的感觉;(2) 差异性原则:不同方言种类用色要体现差异性,使用不同色系加以区分,同一大类方言下的方言小片,使用同一色系下的不同颜色,体现层次性;(3) 统一性原则:各县区方言分布同一方言种属,统一使用同一种色系进行表达;(4) 人文性原则:符号色彩除考虑视觉感受、方言差异性表现外,还要兼顾考虑颜色对于不同方言(地区)历史人文性的表达。
根据历史资料并结合实地调查,现江西省内有七大语种,将用七种色系来分别表示,具体的方案如下:赣语用黄色色系,主要有以下三点考虑:一是黄色从色调来看,属于冷色和暖色的中间色,也是一种过渡色,这与赣语的历史区位特点相一致;二是黄色是土地的颜色,表达了赣地人民敬土重农以及笃实勤劳的文化精神;三是黄色是红色和绿色的混合,这也对江西作为革命老区以及山清水秀的地理风貌做出了恰当的表达与诠释。客家话使用客家人最为钟爱的蓝色(也叫“客家蓝”),客家人具有蓝色情节,蓝色代表了客家文化的精神内核,透露着客家人的素雅与灵性,象征了客家人对和平的向往与自信。另外,在色系搭配中,蓝色作为黄色的互补色,在使用过程中常与黄色相配,两种色系相配也能很好地表达赣语和客家话的密切关系。其他还包括:官话使用了代表优雅、庄重和高贵的紫色色系;吴语使用了代表成长和希望的绿色色系;而闽语作为最为古老的汉语方言之一,本文选择了最适宜表达古典气息的褐色作为主色,同时也加上了闽南人最喜欢的红色作为调和色;徽语使用了代表谦逊与平和的灰色色系;湘语使用了代表勇敢和热情的红色色系。以上均在一定程度上考虑了颜色对于方言地理以及历史人文的表达。
由于同一种方言下可能还存在多个方言小片,需要对方言小片进一步划分层级,可以对小片的人口数量排序来形成不同的层级,利用不同饱和度的同一种色调的颜色来呈现。如果区县境内只有一种赣语,即下面不再分方言小片,则使用层级1;如果某区县境内的赣语下分三个方言小片,则根据方言小片的使用人口数量排序依次使用层级1、层级2、层级3,依此类推。此外为了避免行政区划边界线与方言分布范围边界线发生混淆,将方言分布范围边界线设置为无色。根据江西省现有的方言分布数据情况,并综合以上设计方案,设计的方言范围符号的各个参数如表3所示。
Table 3. Design of Jiangxi dialect range symbols
表3. 江西方言范围符号设计
语种 |
色系 |
层级 |
符号及其颜色参数 |
赣语 |
黄色 |
1~8 |
1, RGB (255, 255, 235) |
2, RGB (255, 255, 200) |
3, RGB (255, 240, 180 |
4, RGB (255, 246, 155) |
5, RGB (253, 235, 120) |
6, RGB (235, 193, 84) |
7, RGB (244, 182, 74) |
8, RGB (204, 142, 34) |
客家话 |
蓝色 |
1~2 |
1, RGB (200, 238, 238) |
2, RGB (143, 230, 255) |
官话 |
紫色 |
1~3 |
|
|
|
1, 中原官话, RGB (253, 220, 254) |
2, 江淮官话, RGB (251, 196, 253) |
3, 西南官话, RGB (250, 175, 252) |
吴语 |
绿色 |
1 |
RGB (211, 255, 190) |
徽语 |
灰色 |
1 |
RGB (225, 225, 225) |
续表
闽语 |
褐色 |
1 |
RGB (119, 23, 41) |
湘语 |
红色 |
1 |
RGB (255, 60, 0) |
除了方言范围符号的设计,还需对基础地理图层(包括县界线、乡界线、河流和山脉等)的样式设计,首先考虑制图和应用需求,以更好地展示基础地理图层,使其更有利于研究分析。其次,考虑舒适性和象征性原则,将应用和人文性表达融合,以确定符号的具体样式设计。最终,得到了基础地理图层的样式符号,如表4所示。
Table 4. Feature symbols of the basic geographic layers
表4. 基础地理图层的要素符号
图层名称 |
几何类型 |
颜色、线条参数 |
样例 |
县界线 |
线状 |
颜色:RGB (156, 156, 156) 线宽度:3 |
|
乡界线 |
线状 |
颜色:RGB (178, 178, 178) 线宽度:0.4 |
|
河流 |
线状 |
颜色:RGB (115, 223, 255) 线宽度:3 |
|
山脉 |
面状 |
轮廓颜色:无色 填充颜色:RGB (38, 142, 19) |
|
为了高效地制图,在ArcMap软件中将设计好的江西方言范围符号和基础地理图层的要素符号存放到指定的符号库文件(*.style文件),以创建方言专题符号库,方便制图时直接使用以及共享。
4.3. 区域轮廓形状的处理方法
4.3.1. 区划边界线的概化
由于现有的县级行政区划边界线要素在指定的比例尺下呈现出较为复杂的碎部特征,这在一定程度上影响了方言微观范围地图的美观性。在特定比例尺下,容易出现边界线不清晰,甚至局部区域形成块状区域。为了规避上述影响,于是对图层中的行政区划边界线进行一定程度的简化和圆滑处理。首先,利用ArcMap中的面转线工具(Polygon To Line)将县区的面状行政区划数据(乡镇级别)转化为线要素,示意效果如图1(a)所示,然后再通过线简化工具(Simplify Line)将得到的线要素进行简化,如图1(b)所示,随后使用平滑线工具(Smooth Line)将简化后的线要素进行圆滑处理,如图1(c)所示,并对一些不必要的边界线进行删除,进一步优化边界线。以上操作能有效避免对面要素直接进行简化、圆滑处理导致的图斑之间出现缝隙的问题。
将经过简化、圆滑处理后得到的要素利用编辑器中的融合功能(Merge)进行合并,然后将此结果再经过要素转线工具(Feature To Line)最后得到县界线。如图1(d)所示,经过优化后的县界线更有利于制作方言范围分布图,从而提高地图的易读性和美观度。
(a) 面要素转为线要素 (b) 线要素的简化处理
(c) 线要素的圆滑处理
(d) 县界线制作
Figure 1. Boundary generalization process
图1. 边界线概化过程
4.3.2. 分区线分割与圆滑
为了使方言分布范围的边界线能更好地符合实际情况,方言分布范围的边界线除了乡镇边界线外,还可能涉及到按人口比例划分的分界线,此分界线需要人为绘制。首先,绘制分界线有两种主要方式可供选择。一种是直接使用乡镇边界线作为方言分布范围的边界,利用编辑器中的分割面工具来实现这个分割。另一种方法则是手动根据人口比例来划定边界,并尽可能使用平滑处理后的曲线来划分乡镇多边形,以实现更自然的效果,同时确保与实地调查结果更贴切一致。分割完成后,还需要进一步对每个分割图斑进行方言类型和乡镇信息的赋值。这有助于后续方言分布范围图的符号化和数据集成分析。
5. 数字化应用与实践
5.1. 制图实践
目前,根据上述制图方法及原则已完成江西省51幅县域方言分布图的制作。部分实例如图2所示。从图可以看出,江西省地方方言情况比较复杂,如图2(a)所示,即使是同一乡镇也可能存在不同的方言和同一方言的不同片区。又如图2(b)所示,泰和县中存在8种赣语方言小片,可见地方方言情况的复杂性。整体来看,方言分布图的色调较为温和,颜色搭配自然,县乡边界线和河流的符号不会对方言的分布产生影响,能够较为直观的展示县区内不同乡镇的方言分布情况。此外,将输出的超过300 dpi分辨率的分布图的图片插入到A4纸大小的Word文档,或者进行A3纸的打印,均取得了令人满意的效果。
(a) 武宁县方言分布图
(b) 泰和县方言分布图
(c) 永丰县方言分布图
Figure 2. Maps of dialect distribution at county level
图2. 县级方言分布图
5.2. 数字化应用
本文的制图数据成果还能有效支撑数据集成应用、语情监测、语音地域识别三方面的应用,下面进行具体的叙述。
5.2.1. 数据集成应用
由于本文所使用的制图数据具有统一的地理要素类型和图层数量,并且每个图层的数据结构相同,使得其可以支持省、市或多个县之间的方言范围数据的高效集成,从而便于对方言数据进行统计和对比分析。例如,图3展示了安福县、永丰县和泰和县的方言数据集成与应用的效果。凭借制图数据结构的优势,通过数据的聚类与图层的合并有效支撑了各县区内方言种类的统计。
5.2.2. 语情监测应用
在数字化应用方面,本文将制图数据成功应用于语情监测。在已有的“江西赣方言地理信息系统”的基础上,进一步拓展了语情监测功能,实现了县级和镇级的多层次区域语情监测。用户只需在系统的地图区域鼠标单击区县或者乡镇面要素,即可弹出该地区的方言种类、分布、方言使用人口、语料资源等详细信息。图4(a)和图4(b)分别展示了永丰县和永丰县鹿冈乡的语情情况。例如,从鹿冈乡的信息中可以得知,乡内存在三种方言,分别是赣语、吴语和中原官话,中原官话被认定为濒危语言,方言使用人口也属赣语最多,吴语次之,中原官话最少。此外,系统还展示了语料数据存放的服务器地址及路径,方便用户查看和调用。后期还可以参考联合国教科文组织及现有学者设计的语言活力指标体系,利用数据成果实现语言活力指标的计算。
Figure 3. Example of data integration and application
图3. 数据集成与应用示例
(a) 永丰县的语情监测
(b) 永丰县鹿冈乡的语情监测
Figure 4. Cartographic data is applied to linguistic monitoring
图4. 制图数据应用于语情监测
5.2.3. 语音地域识别
前期建立的江西赣方言地理信息系统,实现了音像图文一体化的多模态方言语料数据的管理。方言语料数据中包含了字、词、句的语音特征,基于此数据和本文制图数据成果中的方言分布范围数据可以实现语音地域识别。其实现与应用的流程如图5所示。
Figure 5. Flow chart of voice region recognition
图5. 语音地域识别流程图
首先,通过语音输入捕获音频数据,包括字、词和句子,然后对这些音频数据进行去噪和切分处理,并提取音素、韵律和声调等特征;其次,将提取的特征与含有地域标记的语言模型库进行匹配,以识别最相似的语言模型;再从这个模型中识别出具体的地域信息;最后,基于字符串匹配算法,根据识别的地域信息在方言分布范围数据中寻找与之最为匹配的区域,该区域图斑即为输入的语音所对应的地域范围,从而根据区域图斑的几何范围实现地图定位。
6. 结论
本文首次在国内对方言微观范围地图的研制进行了深入的研究与实践。文本提出了方言微观范围地图设计的思路与原则、制图数据内容与关键数据结构,以及关于地图制作的关键方法。在这一框架下,成功制作了江西省县域方言分布范围地图,并获得了令人满意的效果。主要创新点包括:(1) 方言范围符号设计首次考虑了历史人文因素,通过综合考虑方言的工具性、文化性与资源性,不仅提高了方言范围地图的表现力,还有助于后续的方言数据整合与分析应用。(2) 为了提升地图的美观性,设计了边界线的概括方法,这不仅改善了视觉效果,还避免了对图斑进行过度概括导致图斑之间出现缝隙的问题。通过有效的概括,边界线的呈现更加流畅,地图整体显得清晰而有条理,提高了用户对地理信息的认知和理解。(3) 制图数据成果不仅适用于日常用图和地图集出版,还能够满足方言地理信息系统的应用,以及数据集成、语情监测、语音地域识别等方言数字化应用。未来,将重点关注方言知识图谱的构建、方言信息化应用以及方言活力的动态监测等方面的研究。
基金项目
国家社科基金重点项目:江西赣方言地图集(语音集)项目(20AYY005);2023年江西省高校人文社会科学研究一般项目(规划项目):多模态数据集成的多功能江西赣方言地理信息系统构建研究(YY23109);“赣鄱俊才支持计划•高层次高技能领军人才”项目;国家自然科学基金项目(41561084;41201409)。
NOTES
*通讯作者。