wineast
财经 | 宏观 | 国内 | 国外  投资 | 风投 | 天使 | 私募 | 产业 | 并购 | 投行  证券 | 金融资本 |  创 业 板 
商机 | 公司 | 产品 | 供求  学院 | 创业 | 管理 | 连锁 | 投行 | 理财 | 贷款  机构 | 投资机构 |  外商投资 
服务 | 展会 | 招聘 | 名录  市场 | 项目 | 投资 | 专利 | 技术 | 产权 | 连锁  互动 | 创业社区 |  有问必答 
您当前位置:中国创业投资网 >> 新闻频道 >> 产经新闻 >> 互联网 >> 浏览文章

微软的“宇宙翻译器”

2012-12-7 6:55:14外滩画报 【字体:

微软研究院最新展示的“语音机器”,俨然是《星际迷航》中“宇宙翻译器”的雏形,它不仅能在演讲现场完成同声传译工作,还能顺畅地将演讲在声音和文本间相互转换。

微软的“宇宙翻译器”

微软的“宇宙翻译器”

微软的“宇宙翻译器”

科幻剧《星际迷航》中有一枚“宇宙翻译器”,使用者将其别在胸前的徽章里,不仅能听懂各种外星语言,还能将自己的语言转换为对方听得懂的语言,在宇宙间通行无阻。在剧中,这样的翻译器被设定为22世纪才得以问世。然而在10月底天津举行的“21世纪计算大会”上,微软首席研究官里克·雷斯特博士带来的语音机器,俨然已有了“宇宙翻译器”的雏形。

雷斯特的演讲主题叫做“语音机器翻译实时演示”。在演示中,语音机器不仅能完成同声传译工作,还能将演讲变成可编辑的双语文本。

演示的前半段稍显平淡。雷斯特博士开始演讲时,他头顶的三块大屏幕只亮了中间一块,实时播放演讲的画面,画面下方滚动的字幕甚至不如一般的电影字幕那样流畅,而是等雷斯特说完一句话以后,几个单词才一起“蹦”出来,完成一条字幕,;接着,左边的显示屏亮起来,变成一个黑色界面的写字板,滚动出现着放大了的演讲字幕,和中间画面保持同速,紧跟着,右边的屏幕亮了起来,同样是黑色写字板的界面,但内容却迥然不同。写字板分成上下两部分,在上面2/3 的位置上,随着雷斯特继续演讲,他念到的英文单词被一个个提取出来,列在屏幕左边,单词所对应的中文词语随即出现在右列,看上去像一幅单词表。然后,在写字板下方,那些中文词语组成一条条完整的中文句子,正是演讲词的中译文,几乎和画面中的英文字幕同时显现,基本没有什么语法差错。随着中文字幕的滚动出现,台下2000多名观众爆发出阵阵欢呼和掌声。

在中文译文滚动出现了片刻之后,一个酷似雷斯特的声音响起,以标准普通话一句句重复雷斯特的演讲,直至演讲结束。

用计算机完成同声传译,这对于每天都被不断更新的新奇软件弄得眼花缭乱的普通用户而言,好似一项过于平实的技术,简直就像是翻译软件的升级版;但事实上,微软此次演示的新技术,包含着计算机语音识别和个性化语音合成两个技术的重要突破,可以说是自1997年以来这两项技术精确度最高的一次演示。这项技术甚至可以看作是未来通用型对话工具的前身,据雷斯特介绍,这项技术不仅能英译汉,还能翻译德语、西班牙语等26种语言。

新技术成功演示之后,雷斯特在微软的一篇官方博客上撰文称:“我们可能不必等到22世纪才获得一个类似《星际迷航》宇宙翻译器那样的设备,我们希望移除语言间的障碍,这样人与人互相理解的障碍也就消除了。”

语音机器的暗里乾坤

微软的语音机器看起来担当的是翻译的功能,但技术难点却是在口语的语音识别上。它实际上完成的是一系列整合工作,正如雷斯特博士所演示的那样,首先,计算机要识别人声,提取出正确的单词,翻译成相应的外语单词,再根据外语的语法形成句子,最后,还要经过从文本到语音的系统,以雷斯特自己的声音 “说”出翻译后的句子。

在这一系列的过程中,翻译是其中最简单的部分,难的是如何让机器“听懂”人话。关于这项技术的研究,人类实际上已经为之奋斗了60多年了。

一开始,计算机研究者所用的方法是简单的模式匹配,即让计算机检查人类语音产生的波型,尽量寻找与之匹配的单词。这种方法有时候有效,但更多时候则淹没在各种相似或含混的音调中,不知所云。这样的系统无法运用于实际。

上世纪70年代末,一种叫做“隐式马尔可夫模型”(HMM)的计算方法令语音识别技术取得重大突破。在语音识别领域中,这实际上是一种思路的转向,即从语言发音的捕捉和模仿变成尽可能多地搜集语境,建立一种更为稳健的统计语音模型,帮助机器在人机对话中理解句子的意思;而在近几年中逐渐发展起来的“人工神经网络”则加速了语言识别技术的“自学”功能,通过大量对话,让研究人员能“训练”出更富有辨别力的语音识别机器。

当然,到目前为止,语音识别仍是一项进化中的技术。时至今日,即使是最佳语音系统,在任意语音的单词识别上出错率还高达20-25%,而微软的新技术又将这一错误率降低了30%,这意味这之前四五个单词中就会出现一个错误,而现在七八个单词中才会出现一个错误。

除了微软,谷歌最近也开始用神经网络技术发展其语音识别服务。然而微软的独特性在于,他们的语音机器同时整合了语音识别、文本翻译和个性化的语音合成等技术。微软的研究人员录下数小时中国人说话的语音,从中储备所需要的语汇,再从预先录制的英文演讲数据中提取雷斯特的声音属性,当雷斯特开始说英文时,系统便自动整合所有基础技术,提供一个语音到语音的体验—用雷斯特的声音说出对应的中文。在此之前,这类技术大多只能说出人工合成的文本,而无法对人声进行同步。

人工智能的“学习进度”

微软展示的这套系统目前还远远称不上完美,雷斯特博士本人也在微软的官方博客上这样表示。然而这套系统引人注目的地方在于它所能开辟的未来。雷斯特在写给《麻省理工科技创业》的邮件中提到,虽然他和的研究员尚未用这套系统和公司之外的人进行过对话,但它“足以实现本不可能实现的交流。”

“我们还不知道这一技术能达到的精度极限,它太新了。随着我们用数据对系统进行‘训练’,它似乎会变得越来越出色。”雷斯特说。

这套技术还有望在人工智能领域取得进展。和人类一样,人工智能的“学习”也要基于一些官能的发展。目前的技术已经令计算机能看、能听、能思考,并且在与真实世界的接触中不断将这些能力精细化。苹果的Siri个人语音助理和谷歌的街景地图都是基于这样的思路展开研究的。接下来,人工智能需要和人更自然地交流,听从指令,完成驾驶汽车、在工厂劳作这类任务,而在自然用户界面(NUI)领域,对计算机来说最重要也最难的一点就是识别人类语音,与其自然交流,而微软展示的技术,正是有望攻克并完善这一环节。

分享到:


网友评论:

  • 阅读排行
  • 本日
  • 本周
  • 本月
关于我们 | 免责条款 | 网站地图 | 联系我们 | 广告服务 | 帮助中心 | 会员登陆 | 友情链接 | 订阅RSS |