当地时间2012年3月13日,美国华盛顿,一位女士正在试用iPhone4S手机上的Siri语音助理功能。东方IC供图
类似中国“Siri”或安卓“Siri”的计划不太适合国内创业公司,因为投入大、风险高、技术难以实现。——创新工场董事长兼CEO李开复
中国“Siri”从头开始创业难,但有积累有实力的中国企业还是存在的。建议这些实力企业积累自身创新研发能力的同时,要考虑可持续发展性。——天使投资人薛蛮子
“‘汉堡包多少钱一个’英文怎么说?”科大讯飞董事长刘庆峰向手上的智能手机发问,顿了两三秒,手机“说话”了,不过说的却是德国城市汉堡的百科知识。刘庆峰再试,手机才给出了正确的回答:“How much is a hamburger?”
这不是苹果的“Siri”,而是科大讯飞不久前发布的“讯飞语点”,柳传志、李开复等知名人士和1000多个开发者见证了此次发布。几位业界大佬们的现身和发布会上语音识别出现错误,是国内手机智能语音助手开发领域火爆与问题并存的一个缩影。
自从苹果在iPhone4S上推出智能语音助手“Siri”以来,智能语音助手的开发热潮从国外迅速蔓延到国内。短短两三个月,小唐龙、Airi、虫洞、小i机器人等智能语音助手,如雨后春笋般冒出头来。
如此火爆的情景,让人不由发问,在中国类似“Siri”的开发和应用迎来春天了吗?
中国“口音”带给本土企业机遇
目前,苹果公司对于Siri中文版研发进度、推出时间三缄其口。苹果公司为何迟迟未推出Siri中文版呢?
有分析认为,声调和地方口音庞杂,或许是Siri中文版迟迟未推出的主要原因。一家国外媒体表示,对于语音识别来说,中文极具挑战性,因为普通话只有400个单音节声音,根据声调予以区别,而且中国还拥有很多种方言和数不尽的地方口音。
“中国语言和文化的特殊性,是Siri中文版需要克服的最大症结。”捷通华声董事长张连毅分析,以中国为代表的亚洲语言、文化有其特殊性。雅虎、谷歌等互联网巨头曾经横扫国际市场,但到了中国就“水土不服”,就是因为这个原因。
在这种情况下,一些国际语音巨头转而谋求收购中国公司。今年1月,自主研发的智能手机助手“小唐龙”,仅比苹果公司iPhone4S发布的Siri晚了3个多月。但早在2010年,总部位于美国的一家世界级语音技术公司就找上门来,希望收购捷通华声。
“苹果公司前段时间在日本推出了Siri日文版,但并不是很成功。”张连毅分析,在中国市场上,苹果公司一定会慎重而行,毕竟中国是一个庞大的市场。一旦推出一款不完善的产品,将会对苹果公司的品牌形象造成“难以估量的影响”。
国际巨头的劣势,对中国企业而言就是机遇,这也是中国企业研发类似Siri产品的最大优势。
此外,与苹果公司相对封闭的体系不同,中国本土企业的语音平台从一开始就是开放的。今年初,捷通华声和科大讯飞两款智能语音平台——“灵云”、“语音云”上线,向第三方开发者开放。第三方开发者可以利用语音平台开发出第三方应用。
创新工场董事长兼CEO李开复认为,语音平台向第三方开发者开放,开发者的参与必然会提高语音技术应用成功的概率。他还以自己的博士论文为例解释说,做语音技术都基于语料库,语料库越大效果就越好。一个人能录的语料很有限。但如果中国有一亿用户,每人一天哪怕讲三秒,综合起来是一个可观数字。
“从3000万用户、到一个亿、再到三亿用户,用户量增长会让语音云功能更强大。”刘庆峰期望通过用户增长带来更丰富的语料,“新一代语音云平台推出后,用户对口音、专用词汇进行个性化训练,可进一步提升语音作用”。
资金与技术掣肘中国“Siri”
看起来前途无量,但张连毅却马上加了一句:“即使再过一百年,语音技术也到不了完全成熟的地步。”一句话,折射出语音技术绝非一蹴而就的境况。
对于语音控制的前景,微软的创新人盖茨也曾说过,五年后语音会改变世界。只是,这样的论调,盖茨每隔五年都要再说一遍。
“过去30年,总说语音要改变世界,为什么没有改?有几个理由,第一是语音识别的精确度不够,第二是语音应用在哪里,靠一小批的语音专家拍脑袋想,不是办法。”李开复说。类似中国“Siri”或安卓“Siri”的计划不太适合国内创业公司。
要知道,李开复从上世纪80年代就开始研究语音技术,他的一项语音技术还获得过美国商业周刊最重要发明奖。但这其中到底难在哪儿?
资金投入是第一个难题。“语音合成、语音识别、语义识别,这些方面都需要建立数据库。从成立以来,公司累计在语音技术上的投入至少超过2亿元。有限的利润中,前七八年股东没拿过一分钱,全部投入再开发。但由于市场有限,企业效益却不能立竿见影上新台阶。”
张连毅承认,就是因为公司“过得很艰难”,他数次想到要放弃。当2010年那家外国公司上门谈收购时,他“心动”了,最后签字前才拒绝这项收购邀约。
那有了巨额投入,就能成功么?
“做语音技术,没钱肯定不行,但有钱也不一定就行。”张连毅说,因为有些知识是需要时间积累的。在以前,语音技术通常用于特定领域,比如天气、股票等,这样的数据库相对就小很多。而现在,它们的技术已经可以不限领域,不限话题范围,不限制发音人。但即使这样,仍然存在问题。“比如,如果说一句话时,中间增加停顿,它便无法正确理解。”
小i机器人的创始人袁辉亦认为,Siri的核心不是语音控制,而是人工智能,对复杂语法的分析。比如你对手机问“北京天气怎么样、北京下雨了吗、需要加衣服吗”,这三句话表达的是一个意思,智能机器人需要理解这三个问题,通过语法分析给出一个答案,但语音控制解决不了这些问题。
另外,语音的交流会带来用户期望值的提高,人们一旦开始使用语音跟机器交流了,就会把它当做一个人,期望值的提高,会给语音带来很大的挑战。美国的iPhone4S用户此前就提出诉讼,称Siri无法理解用户表达的内容,苹果具有欺诈性质的广告与实际使用及操作Siri的体验严重不符。
中文智能语音交互是一个巨大的市场,也是一个亟待挖掘的金矿,“但只有那些长期积累和考虑可持续发展的企业,才能使中国‘Siri’技术得到更好的发展,成为代表中国的‘Siri’。”袁辉直言行业忧虑。