投稿须知
请将投稿文章及个人信息(作者、用户名、手机号、个人简介等)发送到邮箱tougao@iyiou.com,一经审核会有专人和您联系
我知道了
专栏申请
请将您的专栏名称、手机号、邮箱、个人简介(20字以内)等信息,发送至邮箱 tougao@iyiou.com,若有已投稿的文章可附上链接。一经审核,我们会以邮件的形式进行回复。
我知道了

网易有道,以AI提高翻译的质量+提升产品体验丨智库访谈

收藏
作者:吴亦
2017-08-31 18:11
亿欧智库近日走访了网易有道,专注自然语言处理的子应用领域——机器翻译,并在近年来进行深度学习方法与机器翻译相结合的研究应用。网易有道以AI提高翻译质量、提升产品体验。

从2012年开始深度学习在图像、语音处理领域相继取得识别错误率的降低的成绩,并得以进入商业应用阶段。无论是图像还是语音其实都属于人类感知范畴,那么深度学习在属于人类认知范畴的自然语音处理领域研究进展如何?

亿欧智库近日走访了网易有道,专注自然语言处理的子应用领域——机器翻译,并在近年来进行深度学习方法与机器翻译相结合的研究应用。

公司:网易有道,以AI提高翻译质量、提升产品体验;

有道是网易旗下利用大数据技术提供移动互联网应用的子公司。有道以搜索产品和技术为起点,在大规模数据存储计算等领域具有深厚的技术积累,并在此基础上衍生出语言翻译应用与服务、在线教育、个人云应用、电子商务导购服务、有道推广、智云平台等核心业务。

网易有道的机器翻译业务起源于2008年,2012年深度学习在图像、语音领域相继取得的成绩引得学术界、业界开始着手自然语言领域的研究。2016年9月Google发布GNMT论文,而其实早在2015年网易有道也成立了团队开始做深度学习+机器翻译的事情,2017年网易有道上线了自主研发的神经网络翻译系统YNMT,同年7月网易有道的神经网络翻译开放平台——智云正式上线,以SDK、API等方式面向开发者、企业和政府机构做技术输出。

附上亿欧智库与网易有道段科访谈实录(内容有删减): 

Q:怎么理解智能和人工智能的差别?

A:其实当年AI很多领域都有过比较困难的一段时间,机器翻译这个领域就非常典型,最早是用一些规则方法去做,然后是统计翻译,后来发现统计翻译效果也有瓶颈,BLEU值后面怎么也上不去,当时这块招人也很难。

然后神经网络技术出来之后,发现在图像语音上的提升比较明显,然后差不多两年前在语言方面的作用也显现出来,这时候我们发现深度学习助力下的自然语言处理有这么大潜力,所以这个领域又重新火起来了。

但说实话,其实从技术角度来讲,目前我们说的AI离真正的智能还差很远,我觉得最确切的描述应该是自动化,它明显使得行业流程整体改善、效率提高。 

什么样的智能才叫做人工智能?人的智能是一件很复杂的事情,现在机器能够在例如围棋之类的智力游戏中击败最顶尖的人类选手,但它还做不到类似拿100块去超市买东西跟人讲价这样普通人都可以做的事情。那么AI和人的智能水平现在到底是什么样的关系?从实用的角度看,纠缠这个问题没有太大意义。机器在体力、速度,准确度等方面超过人类早就实现了,我们没有必要在智能的方面纠结谁高谁低。这次AI热潮的一个关键的不同是,我们目前的技术已经有很多到了或者将要到了实用化的程度,使得以前很多做不到的事情做得到了。所以即使现在的技术没实现人的智能,但它能对业务做很大的改善,这就已经够了,具有很大的价值。

Q:统计机器翻译和神经网络机器翻译的区别?

A:1.统计机器翻译(SMT=Statistic Machine Translation);

狭义地讲,机器翻译的发展经过基于规则和基于数据的两个阶段。前者在70年代中期开始到80年代末在机器翻译界一直占有主导地位,但随着互联网的普及,海量资源的存在促进了统计机器翻译技术的发展,使得机器翻译的质量得到了提高。

统计方法通过事先的训练过程将双语语料库中隐含的翻译知识抽象成统计模型,而翻译过程通常就是基于这些统计模型的解码过程。

从方法特点来看,统计方法由于良好的数学模型、良好的鲁棒性等优点而备受重视,同时统计机器翻译的缺点也很突出,主要体现在两个方面:长距离调序能力弱和翻译通顺性差。

2.神经网络机器翻译(NMT=Neural Machine Translation);

网易有道 

如上图所示,左图为基于统计模型的机器翻译SMT,右图为基于神经网络模型的机器翻译NMT。

1)一个像机械系统,一个像有机体;

以前的统计翻译模型更像一个机械系统,它由很多个组件来构成,包括短语组件、分词组件、调序组件还有语言模型等等。每个模块都是有各自的功能和各自的目标,然后机械地拼装在一起,完成一个翻译的结果。

和它相比,神经网络翻译模型更像一个有机体,模型里面有很多参数,这些参数都是为同一个目标来调整和优化的;它们中间的结合和交互更加有机,所以整体效果会更好。

后者较之前者省去了大量人工特征选择和调参的步骤。

2)两种模型的内部信息的表达方式也不一样;

统计翻译模型使用离散的one-hot encoding编码方式表达一个词,其表达方式能够识别词,但却不能够表达词与词之间的关系,比如两个词的词义是相似还是相反的。

而神经网络翻译模型,它使用在实数域空间的连续向量来表达每个词,它的表达能力更丰富、更灵活,因此能够更好地来表达词和词之间的关系。比如说“计算机”和“电脑”这两个词,那么它们很可能在向量空间里离得很近。这种表达方式能够顾及到更多这样的关系,它的内部表达是一个有机整体,从而生成更通顺的翻译结果。

Q:为什么基于神经网络的机器翻译会有明显效果提升?

A:首先神经网络模型有更强的表达能力,它能够学到数据中所包含的更多的、更关键的信息,比如利用更远的上下文信息。

其次,神经网络模型可更好地容纳一些机制,比如attention coverage,使得翻译结果更佳准确和完善;

Q:神经网络技术发展到目前所面临的挑战?

A:1.神经网络模型目前可解释性还比较弱,做得好但没有严密的理论来支撑;

2. 神经网络模型表现出来相当强大的表现能力,但是这个技术还不是十分易用。首先模型的训练需要大量的计算,即使在特定的硬件(如GPU)支持下,调整一个模型所用的时间往往也要以周来计,研发成本很高。其次,模型的优化缺乏标准化的方法,参数调整非常依赖个人的经验。所以其实深度学习领域还是一个工艺阶段,不是一个科学阶段,如果到一个科学阶段的话,所有东西都应该能标准化高效地批量生产了。

Q:网易有道语料的独有性?

A:网易有道的语料来源有三,合作的数据源+自己采集数据+自身生成的数据。

自身生成的数据指有道词典的网络释义功能,即利用信息理解、数据挖掘和文本分析等技术,从海量的网页中找出互为翻译关系的不同语言的词汇和句子(也称为并行文本),并且分析出这些词汇和句子的可靠度,最终甄选出可用的语料数据。

自己采集数据,首先数据源主要来源于一些双语类网站,比如新闻、公司机构、学习类网站、维基百科等,我们专门有这个数据团队做这块,而且这方面是也一个长期积累的过程。

Q:同为互联网机器翻译,百度与网易有道相比?

A:从语料上对比优劣势来看:百度做搜索所以天生数据宽度会大,而我们的出发点就是去找双语例句,所以我们会更专注一些,然后是一些细节工作上的差异,发现问题调整算法,因为我们一直专注在翻译领域的,所以相对来说会更强一些。

Q:那么网易有道与海外的谷歌相比?

A:前者更关注中文,所以在中文翻译上做得更好,后者关注全球布局,更关注外语之间的翻译,投入大分布也相对分散,很多时候翻译对于很多海外大公司只是一个子业务。

Q:有道接下来在AI上的战略布局会是怎样?

A:1.将AI应用于提高神经网络机器翻译的翻译质量;

目前主流的神经网络翻译模型大体框架都是一致的,但其中细节和内部机制的作用方式有所差异,这也是造成翻译结果更为人性化的关键。而这些细节和不同机制需要大量的实验及尝试才能确定,这就需要大量数据支撑。有道也将持续去获取更多、更好的语料数据。

2.结合更多的翻译场景;

1)结合人工智能的其他分支来优化产品体验,实现语音翻译和拍照翻译;

2)结合特定场景做模型定制。比如新闻场景的话,采集相应场景数据,提高模型训练时新闻数据的配比,同时考虑到句子复杂度的提升,有道也会调节输入的维度、模型的层数与结构、覆盖度惩罚系数等等。

3)提供多语言NMT,除了中英、英中之外,有道还提供中日、中韩小语种的翻译,目前翻译效果也不错;

4)开发了离线功能;

5)开发了OCR技术,强调对中英混杂文本的识别;

3.推出有道人机翻译服务;

推出“有道人机翻译”服务(译后编辑),客户提交订单后,神经网络翻译模型会先做一版初步翻译,译员们再在这个基础上进一步调整,这就很大地提高了翻译效率,同时翻译费用降低了50%。

本文经授权发布,版权归原作者所有;内容为作者独立观点,不代表亿欧立场。如需转载请联系原作者。
企业案例亿欧智库机器翻译有道