1. 引言
机器翻译是算法利用语言统计信息、世界知识图谱以及相关翻译资源,将一种语言信息翻译成另外一种语言信息计算机应用,随着互联网和智能机的普及,机器翻译逐渐成为跨文化交流、信息检索必不可少的利器 [1]。机器翻译涉及理论研究、应用开发、市场推广,应用场景首先是最基本的单词或词组查询,比如单个字词、简单词组或常用结构。其他应用场景是辅助翻译,利用计算机整合翻译资料,为类似翻译提供帮助,Google Translator Toolkit、Microsoft LocStudio、Trados等占据计算机辅助翻译软件主要市场份额 [2]。最终目标是机器翻译,应用计算机把源语言转换为目标语言,百度翻译、谷歌翻译、有道翻译等均属于机器翻译软件 [3]。
2. 机器翻译的发展
机器翻译从上世纪50年代提出想法,美国乔治敦大学和IBM协同尝试基于语言规则的英俄翻译实验,到70年代否定了翻译质量的可行性。随着80年代计算能力的提高和电脑使用的普及,基于规则的机器翻译被重新提起,并进一步奠定了计算语言学的基础工作,词法分析、句法分析、翻译词典、双语语料库等资源大规模投入应用 [4]。以词法、句法分析为主、语义分析为辅的基于规则转换的方法、基于统计的翻译方法、以至于2000年之后基于神经网络的机器翻译大幅提升了翻译软件的商业化,语音翻译、在线翻译系统进入了实用阶段 [5]。
中国的机器翻译始于上世纪50年代,80年代进入繁荣期,译星、通译等翻译软件相继走向专业化和市场化。近几年国内机器翻译和互联网、大数据同步繁荣,机器翻译服务进入实用化。2011年,百度机器翻译服务上线。2015年,阿里巴巴机器翻译推动“让商业没有语言障”。2016年,腾讯支持15种语言翻译并上线同声传译功能。搜狗上线机器同声传译、旅游翻译机。科大讯飞推出硬件翻译产品。网易上线神经网络翻译及有道翻译等产品 [6] [7]。
3. 机器翻译的应用
从不同的信息媒介看来,机器翻译可以在文本、语音和图像翻译等角度得到应用。
文本翻译是将源语言文字翻译到目标语言文字的信息转化过程,比如常见的百度翻译,可以帮助用户理解外语文本的信息。谷歌翻译、微软必应、百度翻译、有道翻译等在线系统都为用户提供了优质的免费多语言翻译系统,为不懂外语的人了解信息、外语水平一般的人获取快速高质量的翻译结果提供了便利的工具。文本翻译广泛应用在不同的领域,对不同行业、不同外语水平的用户都提供了便利、可靠的翻译工具,兼具了翻译词典、双语例句库、以及初步翻译助手的功能。但是,机器翻译仍然是更便利的双语词典和句对查询工具,翻译结果会出现很多语义、语法质量不足甚至根本的翻译错误,需要依靠人的语言和世界知识进行选择和补充 [8] [9]。
语音翻译对文本翻译进行了信息载体上的扩充,更契合日常生活中的需求场景,可以在PDA,桌面系统和智能手机中实现。语音翻译为异国旅游的人提供了方便。VoxTec的Phraselator产品可以在数百种语言间翻译语句,美国军队应用在与异国场景沟通上,其中包括阿富汗和伊拉克。亚马逊Alexa、苹果Siri、微软Cortana、百度翻译、科大讯飞等都提供语音翻译功能 [10]。
图像翻译在计算机视觉领域是根据源领域的图像生成目标领域的对偶图像,和文本翻译类似,它将输入图像的表达转化为另一种表达,应用在图像创作、图像风格化、图像修复、黑白照到彩色照的转换等领域。同时,翻译系统识别图像中的文字,并翻译到目标语言,也是机器翻译在图像领域中的应用之一。
4. 机器翻译的机遇和存在问题
深度学习和大数据技术推动了AI的进步,也带来了机器翻译的机遇和泡沫。谷歌研究人员发表论文,推出的神经机器翻译系统较之传统方法“英–西班牙翻译错误率下降了87%;英–汉下降了58%;汉–英下降了60%”,已接近人工翻译的水平。2016年11月,搜狗机器同传系统亮相世界互联网大会,CEO王小川现场演讲、实时文字转录同时屏幕显示,对同声传译行业造成一定的震动。但一位备注为北京语言大学高级翻译学院教师的网友表示,搜狗对外声称的90%准确率是让人怀疑的,机器翻译无法像人一样体会上下文,以至于翻译出语焉不详的句子,这样的效果何以取代同传?百度自然语言处理部吴华在媒体采访中表示:机器翻译有两大问题造成翻译效果不好。一是训练语料本身是有噪音的。第二个是模型本身的不完美性 [11]。
随着互联网的普及和神经网络翻译模型的性能提升,机器翻译在数据、算法和算力方面都大幅提升并在实际应用中获得用户的认可。在产品质量认可之外,我们从学术角度对机器翻译质量进行分析,期望能找到机器翻译进一步提升的方向。根据通用领域翻译的需求,我们把质量较好的百度翻译、谷歌翻译和必应翻译比较普遍存在的问题进行了分析,在本文中列举部分问题,作为机器翻译存在问题的典型案例,以备算法设计或数据加工参考。
实例1:A brewery made headlines recently when its prototype drone delivered a small case of beer to ice fishermen on a frozen lake.
百度翻译:一家啤酒厂在最近的一个头条新闻时,它的原型无人机交付了一个小的情况下,啤酒冰上的渔民在一个冰冻的湖。
人工翻译:最近一家酿酒厂上了头条,他家的样品无人机为一片结冰的湖面上进行冰钓的渔民送了一箱啤酒。
行百里者半九十,实例1虽然看似简单的问题,却反映出机器翻译建模存在关键不足。翻译不能靠武断映射处理,翻译是再创作的过程。人工翻译知道“冰上的渔民”、“冰渔民”是在做“冰钓”。机器翻译系统却没有应变能力。在系统的词典中有ice fishing,没有ice fisherman,这个人工轻易可以解决的问题,却是机器翻译的卡脖子技术。
实例2:Are we going to brave the elements and go for a walk?
百度翻译:我们要勇敢的元素,去散步吗?
人工翻译:我们要冒着风雨去散步吗?
人知道元素不散步,机器判断不明。世界事物和语言符号的关联,是翻译需要的知识,包含常识、语言知识、专业知识等等。人知道冰上的渔民或者冰渔民是冰钓者,元素不会散步。从词典词条译文的组合,到通顺的目标语,中间需要语义知识,目标语言调整和语义知识对翻译是很重要的。
实例3:During the 1990s, universities were faced with significant pressure to produce innovative results that could be exploited more effectively by industry.
百度翻译:在20世纪90年代,大学面临着巨大的压力,产生创新的结果,可以更有效地利用行业。
谷歌翻译:在20世纪90年代,大学面临着巨大的压力,要产生可以被工业更有效地利用的创新成果。
必应翻译:1990年代,大学面临着巨大的压力产生创新的结果,可以更有效地利用产业。
人工翻译:二十世纪九十年代的大学面临着巨大的压力,要研发出可以更高效地被工业所利用的创新成果。
“产生”是词典词条,“研发”不在词条里,但是“研发……成果”明显比“产生……成果”更符合目标语习惯,目标语的生成比词典映射要复杂一些。
实例4:Drones change the way that we see. They provide a specular technology.
百度翻译:无人机改变了我们所看到的方式。它们提供了一种镜面反射技术。
必应翻译:无人驾驶飞机改变我们看到的方式。它们提供了一种镜面技术。
人工翻译:无人机改变了我们看世界的方式,提供了一种窥探的技术。
在词典词条“specular adj.镜的;窥器的;用窥器(检查)的;镜子似的”,“用窥器(检查)的”是不太可能成为真实译文的,它只是一个“意义解释”。机器翻译应该从真实语料中学习译文,搜集的语料也要覆盖这类意义解释的译文词条。要研发合适的翻译模型,充分利用知识为翻译服务,比如利用专业知识、世界常识、语言搭配等服务机器翻译。
5. 结语
全球化和互联网化给机器翻译提供了宝贵的产业发展机会,神经网络和大数据为机器翻译提供了支撑技术,机器翻译逐渐实用化,由网页端向移动端转移、从文字翻译向语音和图像翻译扩展,被应用到各种各样的生活场景中,为人类交流提供了新的工具。我们从主流翻译系统存在的问题中看到未来技术发展的潜力,在算法改进、数据加工等方面进一步提供更好的机器翻译支撑,为各种应用场景提供更优质的翻译服务。
基金项目
本论文部分研究获得江苏省“青蓝工程”优秀青年骨干教师培养对象项目支持。