微软研究院最新展示的“语音机器”,俨然是《星际迷航》中“宇宙翻译器”的雏形,它不仅能在演讲现场完成同声传译工作,还能顺畅地将演讲在声音和文本间相互转换。
科幻剧《星际迷航》中有一枚“宇宙翻译器”,使用者将其别在胸前的徽章里,不仅能听懂各种外星语言,还能将自己的语言转换为对方听得懂的语言,在宇宙间通行无阻。在剧中,这样的翻译器被设定为22世纪才得以问世。然而在10月底天津举行的“21世纪计算大会”上,微软首席研究官里克·雷斯特博士带来的语音机器,俨然已有了“宇宙翻译器”的雏形。
雷斯特的演讲主题叫做“语音机器翻译实时演示”。在演示中,语音机器不仅能完成同声传译工作,还能将演讲变成可编辑的双语文本。
演示的前半段稍显平淡。雷斯特博士开始演讲时,他头顶的三块大屏幕只亮了中间一块,实时播放演讲的画面,画面下方滚动的字幕甚至不如一般的电影字幕那样流畅,而是等雷斯特说完一句话以后,几个单词才一起“蹦”出来,完成一条字幕,;接着,左边的显示屏亮起来,变成一个黑色界面的写字板,滚动出现着放大了的演讲字幕,和中间画面保持同速,紧跟着,右边的屏幕亮了起来,同样是黑色写字板的界面,但内容却迥然不同。写字板分成上下两部分,在上面2/3 的位置上,随着雷斯特继续演讲,他念到的英文单词被一个个提取出来,列在屏幕左边,单词所对应的中文词语随即出现在右列,看上去像一幅单词表。然后,在写字板下方,那些中文词语组成一条条完整的中文句子,正是演讲词的中译文,几乎和画面中的英文字幕同时显现,基本没有什么语法差错。随着中文字幕的滚动出现,台下2000多名观众爆发出阵阵欢呼和掌声。
在中文译文滚动出现了片刻之后,一个酷似雷斯特的声音响起,以标准普通话一句句重复雷斯特的演讲,直至演讲结束。
用计算机完成同声传译,这对于每天都被不断更新的新奇软件弄得眼花缭乱的普通用户而言,好似一项过于平实的技术,简直就像是翻译软件的升级版;但事实上,微软此次演示的新技术,包含着计算机语音识别和个性化语音合成两个技术的重要突破,可以说是自1997年以来这两项技术精确度最高的一次演示。这项技术甚至可以看作是未来通用型对话工具的前身,据雷斯特介绍,这项技术不仅能英译汉,还能翻译德语、西班牙语等26种语言。
新技术成功演示之后,雷斯特在微软的一篇官方博客上撰文称:“我们可能不必等到22世纪才获得一个类似《星际迷航》宇宙翻译器那样的设备,我们希望移除语言间的障碍,这样人与人互相理解的障碍也就消除了。”
语音机器的暗里乾坤
微软的语音机器看起来担当的是翻译的功能,但技术难点却是在口语的语音识别上。它实际上完成的是一系列整合工作,正如雷斯特博士所演示的那样,首先,计算机要识别人声,提取出正确的单词,翻译成相应的外语单词,再根据外语的语法形成句子,最后,还要经过从文本到语音的系统,以雷斯特自己的声音 “说”出翻译后的句子。
在这一系列的过程中,翻译是其中最简单的部分,难的是如何让机器“听懂”人话。关于这项技术的研究,人类实际上已经为之奋斗了60多年了。
一开始,计算机研究者所用的方法是简单的模式匹配,即让计算机检查人类语音产生的波型,尽量寻找与之匹配的单词。这种方法有时候有效,但更多时候则淹没在各种相似或含混的音调中,不知所云。这样的系统无法运用于实际。
上世纪70年代末,一种叫做“隐式马尔可夫模型”(HMM)的计算方法令语音识别技术取得重大突破。在语音识别领域中,这实际上是一种思路的转向,即从语言发音的捕捉和模仿变成尽可能多地搜集语境,建立一种更为稳健的统计语音模型,帮助机器在人机对话中理解句子的意思;而在近几年中逐渐发展起来的“人工神经网络”则加速了语言识别技术的“自学”功能,通过大量对话,让研究人员能“训练”出更富有辨别力的语音识别机器。
当然,到目前为止,语音识别仍是一项进化中的技术。时至今日,即使是最佳语音系统,在任意语音的单词识别上出错率还高达20-25%,而微软的新技术又将这一错误率降低了30%,这意味这之前四五个单词中就会出现一个错误,而现在七八个单词中才会出现一个错误。
除了微软,谷歌最近也开始用神经网络技术发展其语音识别服务。然而微软的独特性在于,他们的语音机器同时整合了语音识别、文本翻译和个性化的语音合成等技术。微软的研究人员录下数小时中国人说话的语音,从中储备所需要的语汇,再从预先录制的英文演讲数据中提取雷斯特的声音属性,当雷斯特开始说英文时,系统便自动整合所有基础技术,提供一个语音到语音的体验—用雷斯特的声音说出对应的中文。在此之前,这类技术大多只能说出人工合成的文本,而无法对人声进行同步。
人工智能的“学习进度”
微软展示的这套系统目前还远远称不上完美,雷斯特博士本人也在微软的官方博客上这样表示。然而这套系统引人注目的地方在于它所能开辟的未来。雷斯特在写给《麻省理工科技创业》的邮件中提到,虽然他和的研究员尚未用这套系统和公司之外的人进行过对话,但它“足以实现本不可能实现的交流。”
“我们还不知道这一技术能达到的精度极限,它太新了。随着我们用数据对系统进行‘训练’,它似乎会变得越来越出色。”雷斯特说。
这套技术还有望在人工智能领域取得进展。和人类一样,人工智能的“学习”也要基于一些官能的发展。目前的技术已经令计算机能看、能听、能思考,并且在与真实世界的接触中不断将这些能力精细化。苹果的Siri个人语音助理和谷歌的街景地图都是基于这样的思路展开研究的。接下来,人工智能需要和人更自然地交流,听从指令,完成驾驶汽车、在工厂劳作这类任务,而在自然用户界面(NUI)领域,对计算机来说最重要也最难的一点就是识别人类语音,与其自然交流,而微软展示的技术,正是有望攻克并完善这一环节。