1. 引言
语言是人类最重要的交际工具,是人们交流思想的媒介。而中国是当今世界上语言资源最丰富的国家之一[1],拥有汉藏、阿尔泰、南岛、南亚和印欧五大语系的约135种语言,十大汉语方言,其中方言土语更是难以计数[2]。
面对丰富的语言文化资源,赓续代际传播极为关键。如何把握时代的脉搏,贴合当下传播规律,探寻多语种留存及传播方法,是学界业界合谋共契、共话发展的焦点。
如今,在全新的媒介环境下,语言留存及传播的方式发生嬗变,各国本土方言的传承发展面临诸多传播桎梏。底层逻辑在于,当今互联网传播范式使得传播人群信息接收趋同化,同时,媒介的加速泛化倒逼“全民上网”的大环境形成。
据统计,在中国现存的130多种语言中,有68种使用人口在万人以下,48种使用人口在5000人以下,25种使用人口不足1000人,更有甚者濒临消弥[3]。方言的消逝在今天来看仿佛是一种必然现象,其一在于使用范围受到方言区限制,传播范围狭小;其二在于普通话的全国普及对方言也有一定冲击。更为重要的是,媒介与生活的深度融合,促使人们以普通话为基础构建新型网络话语体系,以互联网传播来加速推动普通话的大范围使用。
由于外部语言环境、语言态度等因素的改变,方言的生存空间正在缩小、代际传承出现断裂倾向、方言区别性特征逐渐弱化[4]。代际传承是语言传播的重要环节,培养年轻一代主动学习和发扬方言文化亟需提上议程。纵观互联网时代语言传播现状,极多“Z世代”青年鲜少使用当地方言又或根本不知晓当地是否具有方言文化,而使用方言进行创作和传播的人员更少之又少,由此逐渐削弱了代际传播的可能性,使得部分方言趋于流失。上述“Z世代”青年指出生于1995年~2009年的人群,他们可能会对当今时代的社会制度、价值观念、生活态度与行为方式等产生重要影响。当今人口年龄结构从原来的“金字塔”型转变为“摩天大楼”型,同时“互联网媒介全息化”深刻地影响着“Z世代”的文化[5]。简言之,“Z世代”青年作为伴随着互联网崛起的一代,是现下语言代际传承的重要载体,亦是各语言系统交织维系的重要纽带。
此研究报告基于问卷调查基础、成员实践经历及技术可行性的阐释,结合“Z时代”青年的传播行为和偏好,探索新型多模态语料库平台赋能保护语言多样性,打破传播壁垒,拓宽语言代际传播视域,助力国际传播战略创新,意图构建新型智能社交及语种交互平台的传播范式。
2. 中国方言流失现状及多模态语料库
2.1. 中国各地区方言使用现状
基于本土语言繁多的现状,笔者团队在国内发放了电子版调查问卷,意图切入语言留存与方言传播的关键点,深入不同调查维度,收集国内方言使用现状(以年龄、地区为变量),并考察各地政府的保护宣传情况,基于此,探求方言生存环境的真实现状。
Figure 1. Overview of survey on Chinese dialect preservation and usage
图1. 中国方言保护以及使用情况调查概览
笔者团队使用微信小程序“问卷星”制作了一份电子调查问卷,通过团队成员的微信朋友圈私域传播及公众号平台的公域流量对问卷进行推送。调研自2023年5月初开启,历时半个月,于2023年5月13日完成数据收集,并基于调查问卷,制作了一系列数据分析可视化图表。
此次调研收集到实际样本数据共200份,答卷人群来自中国的20余个省份。据所作图1中可以得知,目前中国国内多数地区都拥有本土方言,74.50%的受访者均表示所在地有方言留存,由此窥见,中国国内方言系数庞大。
Figure 2. Age groups of respondents and their social circle dialect usage
图2. 答卷人年龄段及答卷人社交圈方言运用情况
Figure 3. Local dialect preservation and transmission situations
图3. 各地方言保护以及宣传情况
基于图2可知,目前中国各地方言流失呈现出年轻化、快速化的趋势。在科研团队的调查人群中,50岁以下人群占了半数以上,而不会说当地方言的人数高达12.00%,此现象对于语言传播而言十分不利,语言代际传播困境令人隐忧。同时,从图3可证,超半数受访者并不十分了解家乡方言文化,更令人忧心的是,多达31.50%的受访者表示,所在地政府尚未对当地方言文化出台相关保护政策或实施任何宣传措施。
此调查样本虽然基数不够庞大,但足以窥知一个很重要的趋势——当下各语种文化流失现象日趋严重。中国著名民俗学家王献忠说,“方言是一个地区民俗的载体,它是民俗文化赖以留存、传承的媒介,它不仅是民俗文化的表现形式,也是民俗文化内容的体现。”[6]从文化遗产上看,方言往往携带着特定社区特有的重要文化和历史信息,当这些语言消失时,这种文化遗产就消失了,这可能会对当地社区的身份认同和归属感产生深远影响。从语言多样性上看,方言的消失可能导致语言多样性的下降,这可能对人类知识和表达的整体多样性产生负面影响。从社会经济上看,如果该语言与特定的行业或贸易有关,那么该语言的消失可能会导致该行业或贸易的损失。除了少数已经被时代淘汰的语言,绝大多数方言都是具有人文价值的。
如何保护濒危语言,是本研究报告的基本落脚点。笔者团队基于亲身实践经历,建议推行人工智能AI、AR与新媒体结合的方式,以多模态智能语料库为基点,智能文旅社交平台为传播载体,推动语种的保护和探寻代际传播的新可能。下文将从多模态语料库的构建及实施设想展开讨论。
2.2. 多模态语料库的阐述和设想
多模态语料库始建于20世纪90年代,是一种以计算机为辅助工具应用于语言学习的新型语料库。简单来说,它不仅以纯文本收集语料,亦使用图片、音频、视频等多样化的媒体形式进行文字语料的录入和存储[7]。而笔者团队构想的新型多模态语料库除了有储存记录功能以外,还可以作为一个类“超链接”的素材库,与现代人工智能技术相结合,将无声的文字转化成有声的语言,例如将单一的粤语文稿转化成配有画面的AI配音视频,增加其趣味性和传播性,促进各语种在新媒体时代的广泛流传,从而达到保存和发展的目的。
以下是多模态语料库的各部分功能阐释:
语言翻译:人工智能驱动的翻译工具可以帮助弥合濒危语言和方言使用者与其他语言使用者之间的语言鸿沟,通过“同一语境化”促进国际交流,使来自不同国家和文化的人们能够更有效地交流思想。
语言学习:人工智能驱动的语言学习工具可以帮助来自不同国家和文化的人学习濒危语言和方言,有助于促进跨文化的理解和欣赏。人们可以足不出户地系统性学习他国语言文化,求同存异,规避不同背景的文化矛盾,也可使各国政府有意识地、针对性地进行国际文化交流和宣传。
语音识别和合成:人工智能驱动的语音识别和综合工具可以快速高效识别出不同语种,并且根据使用者的语言自动转换语种。此功能可以及时为方言使用者提供生活便利,让他们在面对不同的语言环境时也能轻松解决问题。例如:驾驶时,潮汕地区的民众可以将导航语言切换为潮汕话,即便身处异国他乡,导航需求也能被轻松满足。
文本转语音、语音转文本:人工智能驱动的文本转语音以及语音转文本工具可以帮助人们将书面或口语从一种语言转换为另一种语言,从而促进国际交流。这也有助于克服语言障碍,一些并不拥有具体文字、口耳相传的方言(例如广西壮族自治区梧州市藤县地区的藤县白话)也能够被录音记录,通过多模态语料库平台生成专属的语言信息和符号,以平台数据元素的形式得以长久保存。
2.3. 国内先行案例及政策支持
2015年5月14日,教育部、国家语委联合下发《教育部国家语委关于启动中国语言资源保护工程的通知》,决定自2015年起启动“中国语言资源保护工程”(以下简称“语保工程”),在全国范围开展以语言资源调查、保存、展示和开发利用等为核心的各项工作,规划调查濒危少数民族语言点100个、濒危汉语方言点100个。中国国家语言文字工作委员会自2015年起收集语言数据,目前建成了世界上规模最大的语言资源库[8]。
“语保工程”的重要目的就是为濒危语言留下“声音标本”,而不止于文字记载。这正是我国在推动中华优秀传统文化传播和发展的探索中,采取的行之有效的方法——运用新型人工智能多模态语料库结合新媒体形式,让濒危语言、未被破译的古书典籍变成“活的遗产”,供后代研习和传播。
“濒危志”总主编、国家语委咨询委员、中国语言资源保护工程首席专家曹志耘曾言:“语保工作者奔赴全国各地,一批批鲜活的田野调查语料、音视频数据和口头文化资源汇聚到中国语言资源库,一些从未被记录过的语言、方言在即将消亡前留下了它们的声音。”[9]。
保护濒危语言,传播多民族文化,正是“重拾遗落的厚重”。中华民族几千年来文脉不曾中断,几千年的语言文化精华汇聚到今天,我们更应该不遗余力地采用新型方法去延续、传承。
3. 方法——多模态语料库保存与传播濒危语种
3.1. 可行性——以团队成员使用智能数据语音库录入方言为例
接下来笔者团队将阐述运用人工智能来保存语言的可行性。首先,业界所熟悉的中国平台“科大讯飞”就拥有智能语音库这一项功能,“科大讯飞”的智能语音识别系统也是中国国内较早运用人工录入语言,进而生成智能语音库的案例。其语音库发展到今天,语音生成环节已经能精确模仿真人的停连重音,甚至语气词也十分逼真。其语音库为各大电商产品和智能高端品牌提供产品定制化服务,也提供普罗大众所需的智能语音使用,如汽车导航、智能家居等方面。
此外,Magic Data也是一个类似的智能语音平台,迄今有近400个合规可授权数据集,涵盖60余种语言,服务对象包括微软、百度、腾讯等国内外近200家知名企业(这些数据来源于magic data官网介绍,详见图4)。
Figure 4. Is the introduction to the official website of Magic data
图4. 为Magic data官网介绍
而本小组骨干成员参与过Magic Data的语言识别保存项目,亲身运用语音库录入方言,系统识别后,将成员的语音数据转写形成文字,从而达到语言识别留存的目的。
接下来向大家介绍一下此案例的实践过程:首先笔者通过Magic Data平台将本人和同伴的方言对话进行录音,由AI识别转写后形成平台语种记忆,汇总后形成语种电子模型,这种语言电子模型既可以将录制好的音频生成通用的简体汉字,也可以由语言模型生成方言语料,在短时间内将普通话语料变为该种方言。最后是该语言模型的广泛运用和定制化服务,平台将这种模型植入到语音智能产品中供人们在不同场景和需求下使用,例如汽车导航切换语种,方便方言地区人们使用;短视频博主将语料库中的电子方言音用于配音,让更多人了解方言;博物馆、图书馆等公众号电子阅读系统可以选择语种,古籍文字的有声呈现等等。这种方式解决了上一代智能机器人运行中成本高昂,操作困难的问题,只需使用一个共享的付费网络平台,就能收获到盈利和传播的双利好。
这类智能数据语音库可覆盖多个少数民族语言,一些没有文字的濒危语言,也能通过平台转换成主流语言文本进行留存,即使不能完全精确保留个中含义,但是也能使得这些语言得以记录与传承,不至于落到文化灭迹的境地。
笔者团队探索的就是以类magic data、科大讯飞等人工智能数据库平台为基础模型的语料库,结合地方文旅、地方濒危语种的保护需求,进行产品定制。也可以开拓公益性质的部分,供世界各地的人民上传和共同讨论各地方言,形式支持文本、音频、图像、长中短视频等,不同语种可以开设自己的科普小组,平台亦可以不定时联系各国语言专家在平台中答疑解惑。
期冀通过这样一个全球共享、全球开放的模式,逐步形成一个集商业、公益学习论坛、语料库为一体的新型多模态语料平台,促进各国濒危语系留存和跨文化传播,这既是世界人民的社交平台,也是各种方言的传播平台。
3.2. 国内文旅文博使用多模态语料库保存传播非遗语言文化案例
以下我们将举例国内运用多模态语料库平台和AI、AR智能技术赋能文旅保护的成果案例,进一步实证该技术赋能语言保护的可行性。
3.2.1. “南京数字地标”——南京图书馆
打开南京图书馆(以下简称南图)微信公众号我们就可以看到很醒目的电子阅读选项,里面有南图阅读节、读联体等丰富界面,还有期刊等资源供学生参考、儿童读书节等等,以新媒体形式吸引受众。
Figure 5. User interface of the Nanjing Library WeChat Official Account’s “Academic Resources” Section
图5. 南京图书馆“学术资源”使用界面
其中最引人瞩目的是“学术资源”这一栏(“学术资源”使用界面详见图5),这是南图数字古籍的最显著成果展示,“鼎秀古籍全文检索平台”是各位专家通过漫长检索积累国内外资源建设而成的大型古籍数据库平台。
南图的数字古籍形式为学者、市民提供了一个线上共享的窗口,将看不见的“学术资源”变得可视化、亲民化。
3.2.2. “数字敦煌”——敦煌莫高窟数字展示中心
2014年8月投入运营的敦煌莫高窟数字展示中心,是莫高窟保护利用工程的核心项目。依托数字化资料制作的4K超高清宽银幕主题电影《千年莫高》和8K高分辨率球幕电影《梦幻佛宫》,给人们带来洞窟游览叠加高科技数字游览的新体验。
Figure 6. Online user interface of “Digital Dunhuang”
图6. “数字敦煌”使用界面
Figure 7. Interface of “Digital Dunhuang” e-resource library
图7. “数字敦煌”资源库界面
20世纪80年代末,时任敦煌研究院常务副院长樊锦诗首次提出“数字敦煌”,希望利用数字化技术永久地、高保真地存储莫高窟内的文化遗存[10]。这是国内文旅项目大规模使用人工智能保存展示古中国语言、文字、文物的创举[11]。不仅将敦煌的系列人文风情变得3D立体,让国内外受众可以“云游敦煌”,具体使用界面可参见图6。而这一举措实实在在地将文物和历史永久的保存在我们的“电子记忆”中(电子界面可参见图7),以线上资源库、数字藏经洞等方式延续中华优秀文脉,有助于古中国文化不断代、不流失。
3.2.3. 《藤县非遗传录》——广西梧州市藤县文化工程
本文第一作者林叶芊芊同志作为《藤县非遗传录》(本书的中英文合著本将于2024年末公开发行,因尚未公开发行遂不放置相关图片)的第一译者,全程参与到非遗语言文化收录和中译英工作。在实践中,地方土语记录难度较大、形成文字书籍更是不易。历时三年完书,其中也采取了录音留存、用意译方式进行中译英等方法最大限度的保留方言土语的“本味”,但仍感基础资料繁多、传统方法过于繁复。基于此,笔者团队更意识到构建新型多模态语料库的重要性,这对地方志研究、编撰史志年鉴等文化研究项目大有裨益。
4. 结论
研究语言多样性的保护,不止于中国,更是在全球化背景下,人类精神文明亟待保护的趋势。许多外国学者正利用人工智能技术帮助保护濒危语言。前不久,美国著名未来学家托马斯·弗雷先生提出了“全球语言档案馆”的设想:他已经联合世界各学者收集了近4000种语言的数据,将数据输入到人工智能语言重建引擎,其能够生成一个功能性的三维立体化身,将语言传授给想要学习它的人[12]。伦敦大学东方与非洲研究学院也开发了濒危语言档案。
虽然语言保护议题当下仍有诸多问题存在,例如一些传女不传男的文字,如中国的“女书”,还有很多外国土著语言无法用文字进行表述,只能进行简单的录音记录,无法直接以一贯的AI系统去处理解决,但是我们相信随着人们的重视和科技的进步,例如“科大讯飞”系统中采用的平台记录对话转化成主流文本的方式,用AI拯救濒危语言不再是一种空想,这也是技术团队需要继续深挖的方向。
另外一些声音表示,濒危语言消失就是因为它不再被需要,是遭到时代和历史淘汰的旧产物,基于此,多模态语料库平台也应当继续完善筛选机制和考量各地不同的文化需求,结合实际使用人数、地区范围、社会价值等多方面考量是否需要继续留存和记录。
总的来说,人工智能技术可以通过实现语言翻译、语言学习、语音识别和合成以及文本转语音、语音转文本的能力,促进国际交流,保护世界语言多样性。这有助于促进跨文化的理解和欣赏,促进语言保护工作的合作,并确保濒危语言和方言不会被后代所遗忘。笔者认为:构建新型多模态语料库,探索多模态人工智能技术赋能语言多样性保护及推动国际传播战略创新,是推动对外传播和促进语言多样性保护的新型方法,可为各界人士参考、研究、选用。
把握时代的脉搏,重拾遗落的厚重,从“Z世代”青年做起。我们通过朴素问卷调查和实践经历得出结论,主张运用AI智能语音系统和新媒体促进全球范围内的濒危语言保护,其实就是想给予文化更多的可能性,让更多人重视语言文化,从而达到广义的国际传播效果,这也正符合中国国家主席习近平提出的人类命运共同体理念。
从1到100的蜕变,从濒危到赋权,语言文化将继续促进各国人民相知相亲,共同推动文明进步,美美与共、天下大同!