网上药店
您现在的位置: 翻译官 >> 翻译官要求 >> 正文 >> 正文

8分钟搞懂Google翻译背后黑科技的前

来源:翻译官 时间:2018/2/28

空白

来口译殿堂,

听绝世俊颜同传聊“翻译”

输入

前两天写了一篇,

“AI机器翻译官PK口译小白”的文章,

实验中,

AI翻译表现,着实令人惊艳:

中规中矩的语料测试下,

AI翻译官,翻译速度快,

长句子结构处理得当,术语准确。

几年前,机器翻译还被视作

“低级翻译”,被当段子,各种嘲讽。

翻的不好,就说是“机器翻的吧”。

但真是,士别三日,刮目相看。

现在,机器可不一定比“人”逊色了。

这不由得让人猜想,

这机器翻译能力突飞猛进,原因是什么?

译员未来何去何从?

今天Jacky就大家扒一扒“机器翻译,

一路逆袭背后的故事”。

机器翻译从而而来?

年的某一天,电闪雷鸣,天空异象。一位苏联发明家特罗扬斯基,萌生了一个颠覆未来翻译行业的想法,他脑洞大开,想去设计一种翻译语言的机器,并在同年9月5日登记了该发明。

当时的电脑还是挺原始存储信息还用磁带呢

不过,当时技术落后,想法很美好,但现实很残酷,翻译机器的“伟大发明”无奈搁浅了。

13年后,也就是,年,世界上第一台计算机ENIAC诞生了。沉寂了13年的“机器翻译梦”,被再次唤醒。有了计算机,机器翻译似乎看到了一丝希望的曙光。

第一台dsac计算机

时光飞逝,岁月如梭,计算机技术逐渐发展了起来。年,发生了一件里程碑事件。IMB和美国乔治敦大学用IMB-计算机完成了英俄机器翻译试验(为什么最开始是英俄翻译,大家可以在评论区,开脑洞猜想下)。

之前还仅仅是纸上谈兵,空中楼阁,这下有了IMB的黑科技,终于可以拿机器做翻译了,于是乎,各国开始大规模投入到机器翻译研究浪潮中,咱们中国也算是机器翻译的弄潮儿,年就开始研究这项“洋气的技术”。年!!天了噜,也许各位爸妈还是个baby的时候,中国就开始研究“机器翻译”,所以他一点也不是个新东西,原来是只修炼了半个世纪多的老妖精,怪不得那么厉害。

从20世纪50年代开始到20世纪60年代前半期,美国和前苏联两个超级大国为了称霸天下,烧钱研究机器翻译,欧洲也跟风,机器翻译一时成了焦点。

然后,好景不长。机器翻译的出现,自然也引发了争议。为了研究机器翻译的可行性,年美国科学院成立了语言自动处理咨询委员会(AutomaticLanguagProcssingAdvisoryCommitt,简称ALPAC委员会),这个委员会干什么?他们花了两年事件,做综合调查分析和测试,看看机器翻译有没有前途。

年11月,他们发布了《语言和机器》的报告,全面否定机器翻译的可行性,并建议停止对机器翻译的支持。无独有偶,在此期间,中国爆发了“十年文革”,基本上这些研究也停滞了。机器翻译步入萧条期。

技术的发展总是“Z”字型,在曲折中,迂回前进。机器翻译被雪藏期间,世界发生了翻天覆地的变化,例如,经济全球化,中国改革开放,苏联解体美国独大,互联网泡沫等等。随着Intrnt的普遍应用,AI等技术的发展,人们对于机器翻译的需求空前增长,机器翻译迎来了高潮,并“得道”,功力猛增。

好了,历史讲完了,

技术干货来了,机器翻译为何那么神~

基于规则的机器翻译

规则法(rulbasdmachintranslation,RBMT),依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。

简而言之,就是让机器和人一样语言,先学语法规则,再按照规则理解语言,转换语言。

听起来似乎可行,刚开始尝试把语法规则一条一条定义,也确实让机器做到了一些简单的有效翻译。

例如:他有一本书。机器通过学习语法规则能译为Hhasabook,注意到单复数。

规则法兴起后,语言学家炙手可热,政府邀请语言学家建言献策,制定语法规则,找规律,然后让机器学习。一些世界上最聪明的语言学家在冷战期间辛勤努力了多年,才创建出了一些更容易理解俄罗斯人交流的翻译系统。

不幸的是,这种套路只对简单问题适用,比如说像天气预报这样结构简单的文档。它对于真实世界的文字来说并不可靠。

问题是,人类语言并不总是遵循固定的规则。人类语言充满了各种特殊情况,区域差异,或者干脆就不按套路出牌。我们说英语的方式更多地受到几百年前入侵的人的影响,而不是由坐下来定义语法规则的人。

语言是灵动的,更新速度已经越来越快,表情包式语言,网络流行语,老词新用,这些都是规则法无法攻克的瓶颈。

眼看规则法行不通了,而计算机和网络技术则发展越来越快,各种技术层出不穷,云计算,光纤技术,大数据技术等等。

概率和统计的模型的机器翻译

人们开始想,Whynot利用统计数据使计算机更好地翻译。

在这种背景下,基于概率和统计的模型的机器翻译方式应运而生。

这种机器翻译方式,就像人做翻译的时候需要求助词典一样,它要求计算去检索“词典”并统计“词典”里哪个结果最靠谱,从而确定翻译。

而机器翻译用的“词典”叫做为平行语料库paralllcorpora。平行语料也就是,双语对照的翻译。例如:

计算机可以使用平行语料库作为依据,将文本从一种语言转换为另一种语言。

用概率的思维思考,其实和我们做翻译时,很相似。

统计翻译系统的根本不同,在于它们试图生成不止一个精确的翻译。相反,他们生成成千上万种可能的翻译,然后他们按照可能最正确的给这些翻译排名。他们通过与训练数据的相似性来估计有多“正确”。以下是它的工作原理:

第1步:划分句子成分

首先,机器将句子分成简单的块,每一块都可以轻松翻译:

第2步:确定每一个词的可能的翻译

接下来,将翻译每个块,将通过寻找数据库中所有人翻译过的相同词块来完成机器翻译。

要着重注意的是,机器不只是在一本简简单单的翻译字典中查找这些词块。相反,机器看到是真实的人在真实的句子中如何翻译这些相同的词。这有助于机器捕获到在不同语境中所有不同的表达方式:

即使最常见的短语也有很多种可能的翻译,这些可能的翻译中的有一些会比其他翻译更频繁地使用。机器翻译会统计译文出现的频率结果来进行排列。

第3步:生成所有可能的句子,找到最有可能的那句接下来,将使用这些词块的每种可能翻译来组合生成一堆可能的句子。

从第二步中列出的翻译过的词块中,我们可以通过不同组合方式生成将近2,个不同的句子。下面是一些例子:

Ilov

tolav

at

thsasid

mortidy.Iman

tobon

to

thopnspac

mostlovly.Ilik

tob

on

prthsasid

morlovly.Iman

togo

to

thopnspac

mosttidy.

但在真实世界中,因为有不同的语序和词块分解方法,所以实际上有更多可能的词块组合:

Itry

torun

at

thprttist

opnspac.Iwant

torun

pr

thmortidy

opnspac.Iman

toforgt

at

thtidist

bach.Itry

togo

pr

thmortidy

sasid.

现在需要扫描所有这些生成的句子,找到那个听起来“最像人话”的句子。

为此,机器将每个生成的句子与来自英语书籍和新闻故事的数百万个真实句子进行比较。机器拥有的英语文本越多越好。

机器采用这种可能的翻译:

Itry

tolav

pr

thmostlovly

opnspac.

很可能没有人用英语写过这样的句子,所以它不会与我们的数据库任何句子非常相似。机器给这个可能的翻译设定一个低概率的得分。

但看看下面这个可能的翻译:

Iwant

togo

to

thprttist

bach.

这个句子和我们的训练集中的句子很类似,所以它将获得一个高概率的得分。

在尝试过所有可能的句子之后,我们会选择那个,既是最有可能的词块翻译,又与真实英语句子最相似,的句子。

我们最后的翻译将是“Iwant

togo

to

thprttist

bach.

感觉怎么样,都到这里,机器翻译有没有很牛逼~

不过,统计机器翻译也有其局限性

平行语料库难于构建和维护。每一对需要翻译的新语言,都需要专业人士对一个全新的多步骤“翻译流水线”进行调试和修整。

因为构建这些不同的流水线需要做太多工作,所以我们必须进行权衡。如果你要用Googl翻译把格鲁吉亚语翻译成泰卢固语(印度东部德拉维拉语言),那么作为一个中间步骤,它必须先翻译成英语。因为并没有太多格鲁吉亚到泰卢固语的翻译需求,所以在这一对语言上投入太多并没有太大意义。相比于英语翻译到法语,它可能会使用一个更低级的“翻译流水线”。

基于循环神经网络的机器翻译

在这种背景下,最牛逼的“基于循环神经网络的机器翻译”横空出世,也就是今天让大家刮目相看的谷歌翻译使用的黑科技。

神经网络就是让机器能够在深度学习中不断完善答案,给用户最想要的信息。说白了就是更智慧、更精准了。直接改善了之前逐词直译的效果,而是升级为以整个句子为单位进行翻译。

具体的介绍不妨阅读一下这篇《翻译界的重大突破——谷歌翻译整合神经网络,翻译质量接近人工笔译》









































斑蝥酊斑秃
复方木尼孜其颗粒用法具体是怎样

转载请注明:http://www.chongqinghg.com/fygyq/1363.html