微软的“宇宙翻译器” _ 互联网 _ 中国创业投资网(Wineast.Net)

微软的“宇宙翻译器”

2012-12-7 6:55:14外滩画报【字体：大中小】

微软研究院最新展示的“语音机器”，俨然是《星际迷航》中“宇宙翻译器”的雏形，它不仅能在演讲现场完成同声传译工作，还能顺畅地将演讲在声音和文本间相互转换。

科幻剧《星际迷航》中有一枚“宇宙翻译器”，使用者将其别在胸前的徽章里，不仅能听懂各种外星语言，还能将自己的语言转换为对方听得懂的语言，在宇宙间通行无阻。在剧中，这样的翻译器被设定为22世纪才得以问世。然而在10月底天津举行的“21世纪计算大会”上，微软首席研究官里克·雷斯特博士带来的语音机器，俨然已有了“宇宙翻译器”的雏形。

雷斯特的演讲主题叫做“语音机器翻译实时演示”。在演示中，语音机器不仅能完成同声传译工作，还能将演讲变成可编辑的双语文本。

演示的前半段稍显平淡。雷斯特博士开始演讲时，他头顶的三块大屏幕只亮了中间一块，实时播放演讲的画面，画面下方滚动的字幕甚至不如一般的电影字幕那样流畅，而是等雷斯特说完一句话以后，几个单词才一起“蹦”出来，完成一条字幕，;接着，左边的显示屏亮起来，变成一个黑色界面的写字板，滚动出现着放大了的演讲字幕，和中间画面保持同速，紧跟着，右边的屏幕亮了起来，同样是黑色写字板的界面，但内容却迥然不同。写字板分成上下两部分，在上面2/3 的位置上，随着雷斯特继续演讲，他念到的英文单词被一个个提取出来，列在屏幕左边，单词所对应的中文词语随即出现在右列，看上去像一幅单词表。然后，在写字板下方，那些中文词语组成一条条完整的中文句子，正是演讲词的中译文，几乎和画面中的英文字幕同时显现，基本没有什么语法差错。随着中文字幕的滚动出现，台下2000多名观众爆发出阵阵欢呼和掌声。

在中文译文滚动出现了片刻之后，一个酷似雷斯特的声音响起，以标准普通话一句句重复雷斯特的演讲，直至演讲结束。

用计算机完成同声传译，这对于每天都被不断更新的新奇软件弄得眼花缭乱的普通用户而言，好似一项过于平实的技术，简直就像是翻译软件的升级版;但事实上，微软此次演示的新技术，包含着计算机语音识别和个性化语音合成两个技术的重要突破，可以说是自1997年以来这两项技术精确度最高的一次演示。这项技术甚至可以看作是未来通用型对话工具的前身，据雷斯特介绍，这项技术不仅能英译汉，还能翻译德语、西班牙语等26种语言。

新技术成功演示之后，雷斯特在微软的一篇官方博客上撰文称：“我们可能不必等到22世纪才获得一个类似《星际迷航》宇宙翻译器那样的设备，我们希望移除语言间的障碍，这样人与人互相理解的障碍也就消除了。”

语音机器的暗里乾坤

微软的语音机器看起来担当的是翻译的功能，但技术难点却是在口语的语音识别上。它实际上完成的是一系列整合工作，正如雷斯特博士所演示的那样，首先，计算机要识别人声，提取出正确的单词，翻译成相应的外语单词，再根据外语的语法形成句子，最后，还要经过从文本到语音的系统，以雷斯特自己的声音 “说”出翻译后的句子。

在这一系列的过程中，翻译是其中最简单的部分，难的是如何让机器“听懂”人话。关于这项技术的研究，人类实际上已经为之奋斗了60多年了。

一开始，计算机研究者所用的方法是简单的模式匹配，即让计算机检查人类语音产生的波型，尽量寻找与之匹配的单词。这种方法有时候有效，但更多时候则淹没在各种相似或含混的音调中，不知所云。这样的系统无法运用于实际。

上世纪70年代末，一种叫做“隐式马尔可夫模型”(HMM)的计算方法令语音识别技术取得重大突破。在语音识别领域中，这实际上是一种思路的转向，即从语言发音的捕捉和模仿变成尽可能多地搜集语境，建立一种更为稳健的统计语音模型，帮助机器在人机对话中理解句子的意思;而在近几年中逐渐发展起来的“人工神经网络”则加速了语言识别技术的“自学”功能，通过大量对话，让研究人员能“训练”出更富有辨别力的语音识别机器。

当然，到目前为止，语音识别仍是一项进化中的技术。时至今日，即使是最佳语音系统，在任意语音的单词识别上出错率还高达20-25%，而微软的新技术又将这一错误率降低了30%，这意味这之前四五个单词中就会出现一个错误，而现在七八个单词中才会出现一个错误。

除了微软，谷歌最近也开始用神经网络技术发展其语音识别服务。然而微软的独特性在于，他们的语音机器同时整合了语音识别、文本翻译和个性化的语音合成等技术。微软的研究人员录下数小时中国人说话的语音，从中储备所需要的语汇，再从预先录制的英文演讲数据中提取雷斯特的声音属性，当雷斯特开始说英文时，系统便自动整合所有基础技术，提供一个语音到语音的体验—用雷斯特的声音说出对应的中文。在此之前，这类技术大多只能说出人工合成的文本，而无法对人声进行同步。

人工智能的“学习进度”

微软展示的这套系统目前还远远称不上完美，雷斯特博士本人也在微软的官方博客上这样表示。然而这套系统引人注目的地方在于它所能开辟的未来。雷斯特在写给《麻省理工科技创业》的邮件中提到，虽然他和的研究员尚未用这套系统和公司之外的人进行过对话，但它“足以实现本不可能实现的交流。”

“我们还不知道这一技术能达到的精度极限，它太新了。随着我们用数据对系统进行‘训练’，它似乎会变得越来越出色。”雷斯特说。

这套技术还有望在人工智能领域取得进展。和人类一样，人工智能的“学习”也要基于一些官能的发展。目前的技术已经令计算机能看、能听、能思考，并且在与真实世界的接触中不断将这些能力精细化。苹果的Siri个人语音助理和谷歌的街景地图都是基于这样的思路展开研究的。接下来，人工智能需要和人更自然地交流，听从指令，完成驾驶汽车、在工厂劳作这类任务，而在自然用户界面(NUI)领域，对计算机来说最重要也最难的一点就是识别人类语音，与其自然交流，而微软展示的技术，正是有望攻克并完善这一环节。

分享到：

网站导航

微软的“宇宙翻译器”

相关阅读：