谷歌翻译 凭啥跨越语言障碍

时间:2022-10-05 11:03:28

谷歌翻译 凭啥跨越语言障碍

“谷歌翻译”一直在坚持创新,从“PC网页版”到“工具栏插件”,再到如今的“移动客户端”,形式逐渐增多,虚拟键盘、可选择翻译、朗读等功能也相继推出。这正如谷歌翻译研发经理陈雍所说,“谷歌希望支持用户多样化的输入和输出,以便更加轻松地跨越语言的障碍。”

近日,陈雍在位于北京清华科技园的谷歌北京办公室接受了《计算机世界》报记者的独家专访,为我们揭开了谷歌翻译所用技术的神秘面纱。

懂得更多

全凭“云”统计

2004年,谷歌创始人之一塞吉•布林(Sergey Brin)使用市面上的网络翻译服务来翻译韩国粉丝的邮件,结果显示:“生鱼片带着它的愿望,用谷歌搜索绿洋葱!愿意?”。这一与原意风马牛不相及的翻译结果,使塞吉下定决心要让谷歌做出“靠谱”的翻译产品。

如今,谷歌翻译早已是很多人出国旅行和外文写作的必备工具,而谷歌也成为世界上最大的在线翻译服务提供商,实现了塞吉跨语言搜索信息、并可将搜索结果和网页等资讯以母语传递给用户的愿望。目前,在全世界,使用人数超过1000万的语言约有100种,而谷歌翻译已经实现了对其中58种语言的支持。陈雍坦言:“虽然机器翻译并不完美,但它可以让用户接触到之前无法触及的世界各地的信息。”

值得注意的是,谷歌翻译是个自动翻译机,也就是说,它借助的是技术而非人力。对这一点,陈雍解释说,“当下大部分的商业翻译系统用的都是规则法机器翻译,需要做大量词汇与语法的处理,谷歌的方法与它们不同。”据介绍,谷歌翻译是先往计算机内输入大量的文字文本,这些文本数据包括目标语言以及对应的翻译文本中现有的人工翻译数据,然后构建统计翻译模型。

为了形成翻译模型,每年,谷歌都会从一些政府部门、学术机构搜集翻译信息,完善自己的“平行语料”库。为了保证翻译质量,除了严格限制“平行语料”的来源,谷歌还采用了国际认定标准Bleu Score来分析、调试。

陈雍指出,谷歌翻译之所以能采用统计翻译模型,关键在于谷歌的技术基于云计算架构。统计模式机器翻译需要海量的数据存储空间以及高效的运算能力,而谷歌拥有谷歌MapReduce(分布式计算系统) 和BigTable(分布式存储系统),正好满足了这两方面需求。

从表面上看,“支持更多语言种类”和“在线使用”是谷歌翻译与其他流行翻译产品如金山词霸、有道词典等的功能区别,但背后最大的不同却是,谷歌翻译是基于云计算支撑下的统计翻译模型。

整合信息

人人皆受益

“整合全球信息,使人人皆可访问并从中受益,这是谷歌始终秉持的信条,也是其产品战略。”陈雍表示,谷歌翻译虽然并不是谷歌最大的研发部门,但其与研究Android、Chrome,甚至YouTube的部门一样,都是为谷歌实现整合全球信息的目标服务的。

谷歌希望将分散在全球各地的所有可以数字化的不同语种、不同格式的信息,进行分析处理,而后以最简便的方式提供给用户使用。“这也可以解释为什么每次技术论坛上,谷歌都会在‘翻译’这款产品上‘大费唇舌’,因为,它代表了一种理想化的沟通形态,即全球信息的无障碍流通。”陈雍坚信这一理想。

有数据显示,世界上超过99%的人每天的沟通都要靠母语,但在互联网上,英文信息占了80%,在剩下的20%中,法语占其中的大约5%,中文等其他语言信息各自所占百分比微不足道。由此,也就不难理解为什么谷歌如此重视一款小小的语言工具。

谷歌除了用翻译工具对不同类型、不同语种的信息进行横向整合,还强调对自己的产品体系进行纵向整合。早在2010年,谷歌已经在Chrome浏览器中整合了谷歌翻译。当Chrome用户访问与电脑系统默认语言(或是浏览器语言)不同的其他语种网站时,Chrome浏览器就会弹出谷歌翻译工具栏,只要单击“翻译”按钮,谷歌翻译将把整个网站翻译为系统默认语言。当然,用户也可以让谷歌翻译把整个网站翻译为其他语言。

此外,谷歌翻译还可以帮助用户阅读搜索结果、网页、电子邮件、YouTube视频字幕以及其他信息,用户甚至还能在Gmail内进行实时的多语言对话。

事实上,刚刚在苹果AppStore上线的“谷歌翻译工具软件”并不是第一个谷歌翻译“移动客户端”。早在一年前,谷歌就已经在Android平台上推出了谷歌翻译工具。今年,谷歌又推出了聊天模式的Android 版谷歌翻译软件(Conversation Mode,目前只支持英语和西班牙语之间的互译),其主要功能是让使用者通过 Android 手机来实现实时翻译,为语言不通的人建立沟通桥梁。

名词解释

平行语料

所谓“平行语料”就是两种语言的对应词组或者句子。比如,“long”的平行语料是“长”、“time”的平行语料是“时间”,但词组“long time”的平行语料却不能只是两个单词的拼接,而是“很久”,而句子“I have been here for a long time.”的平行语料则是“我已经在这里很长一段时间。”

上一篇:多点触控点亮显示屏市场 下一篇:《计算机世界》第10期产品信息