首页 > 新闻 > 专家观点 >

“你好,巴别鱼”让机器读懂你的声音

2014-04-02 10:39:33   作者:   来源:上海证券报   评论:0  点击:


  上世纪九十年代,罗杰·凯在一家名为ILA的小型计算机语言学公司工作。那时候,美国麻省理工学院语言学教授诺姆·乔姆斯基的“普遍语法”理论吸引了一批追随者,他试图将所有人类语言借用同一个模型进行演绎。一开始,罗杰和他的同事也试着如此去设计语言模型,但他们很快发现,真实的语言常常违背这个模型,有太多反例让这一理论显得充满任意性。

  一种语言障碍亟须弥合的想法随即映射进他们脑中,这同样是许多科技业巨头想要打开的一扇大门。谷歌从2009年开始就一直在采录语音信箱的信息;微软则将类似技术置入Windows Vista操作系统;苹果的智能语音控制程序Siri则让这种技术更趋商业。

  附近有什么好吃的?我应该在哪搭乘公共交通?今晚的电影是几点的?语音助手帮忙实现日程管理及查询,并回答常识问题,令人着迷。而消费电子产品、汽车甚至自动呼叫中心“倾听”使用者的指令,已经有数年时间。

  一种能够翻译各种语言的“巴别鱼”技术可能在不久的将来成为现实,广阔的产业应用空间渐渐打开。

  《圣经》里有一个着名的故事:人类想上天堂,造巴别塔。上帝为阻止人类登天,迫使人类说不同的语言。由于沟通不畅,巴别塔最终半途而废。

  有趣的是,英国作家道格拉斯·亚当斯在其广为流传的科幻小说《银河系漫游指南》中,提及一种能听懂外星人语言的小鱼,名字就叫“巴别鱼”(Babelfish)。

\

  今天,智能语音技术的发展令“巴别鱼”的出现变得不再科幻。

  “由于大量可供实时语音翻译信息资源的存在,"巴别鱼"系统正在走进现实。”人工智能专家、南安普顿大学教授奈杰尔·沙德博尔特称,未来市场出现类似蓝牙耳机的实时翻译工具,是“非常自然的事情”。

  远不止于人与人之间,人类和汽车、电视或者厨房电器“说话”,也可能变得毫无障碍。智能语音技术正在改变我们发现信息的方法,相反的,它们也找到了进入其他终端的途径。

  难怪英国媒体最近认定:科技业下一件大事,就是智能语音翻译。

  ⊙记者 王宙洁 ○编辑 龚维松

  语音识别日趋精准

  现在,罗杰·凯已经创办了行业研究机构——Endpoint技术协会,但他仍然记得最初那段对机器语言的探索时光。

  在近日的一篇专栏文章中,罗杰·凯回忆道:“乔姆斯基教授的理论依旧是我们中很多人的指路明灯。我们试着去实现语言模型,但仅仅发现这只是一个工具而已,诸多反例让我们明白,要做的可不仅仅是模型。”

  罗杰在ILA工作时的好友戴夫·巴戈特认为,更高级的语言特征无法在模型里被描述,“音系学很容易理解,词法学没那么容易,句法就更难一点,要理解语意,这几乎没成功过。”

  事实上,对于语言识别的探索很早便已经开始。上世纪五十年代,贝尔实验室组装了一套原始系统,可以识别电话里报出的数字。尽管此后进展算不上太快,但随着计算技术的不断强化,如今的系统已经可以处理各种口音、方言和怪异的声调。

  最近几年,这种探索在科技业热度高升。苹果推出的语音助手Siri让iPhone 4S风靡的同时,也使得声音识别技术为更多普通人所认知并关注。

  近日,苹果公司又宣布推出车载iOS系统CarPlay,通过汽车与智能手机连接,再配合方向盘上的Siri按钮,可实现电话、地图、音乐或查看信息等功能。

  而首批搭载CarPlay系统的汽车,包括法拉利、奔驰和沃尔沃等汽车业巨头。

  外媒近日报道称,微软正着力发展所谓自然交互科技,语音识别就是其中重要一环。

  英特尔在今年1月份举行的美国消费电子展上就曾宣布,将在今年推出的超薄笔记本电脑Ultrabook上采用一种新的语音控制技术。

  在这些科技业大佬的背后,有一个名字不得不提:Nuance。

  不仅仅是苹果和三星旗下的热门智能手机产品,航空公司甚至是顶级银行的自动呼叫中心也有着它的身影。Nuance是一家语音识别技术公司。

  研究机构Research and Markets近期发布报告称,语音识别市场的主流趋势之一,是“声音密码”越来越广泛地被使用。

  “一般的密码很容易被记住,但同时也容易被破解,这带来了安全方面的威胁。”该报告说,因此各大组织开始越来越频繁地使用生物密码——往常的符号被人们的声音所代替,声音变成密码并作为身份认证的依据。

  更重要的是,声音还拥有一个显着优点——无法被复制。

  根据该公司的研究,这一市场的主要驱动因素之一,是对基于语音的生物识别或身份鉴定技术的需求。但目前主要的挑战就是缺乏系统准确性。语音识别设备对嘈杂的环境极为敏感,这降低了准确率。

  不过,爱尔兰联合银行从2008年开始就尝试通过声音来鉴定员工的身份。VoiceVault生物测定系统能够捕捉“语音痕迹”,该系统能识别打电话者的声音,而后,还可以帮助用户进行重置密码等工作。

  用途可不局限于帮助员工修改密码,在此之后,越来越多的金融服务公司也开始使用这种系统打击欺诈行为。

  语音也可以“计算”

  自然输入方法从一开始便是个人电脑行业的一大圣杯。在创建公司不久后,微软CEO比尔·盖茨便开始寻找除了键盘和鼠标之外的,可以将数据输入电脑的方法。

  盖茨认为,一定有某些本质上是“奇怪的”输入设备,最终会被人们接受。

  2010年,微软Kinect来了,手势输入从此风靡。

  但是声音难以捉摸。声音同时可被用于控制或翻译,不过人们对语音转为文字的精确度要求极高。海外媒体称,按照目前的技术水平,一页有300个英文单词的文件中,平均每页有3个错误,尽管正确率超过90%,但剩下的那小部分仍需长途跋涉。

  不过,在罗杰·凯看来,计算能力已经变得更强大,语言数据库也变得更加庞大。

  依靠这些工具,类似Nuance这样的公司已经几乎转向统计学方法。与其依靠语言模型这样的老方法,商业性语音公司已经开始在他们的产品中采用关键字检测以及基于规则的技术。

  换句话说,基于资料库和快速计算能力,它能够确定一个单词后面跟着某个特定单词的几率,而不在意语法联系。

  “你不必在意乔姆斯基教授语言和意思的结构性,你可以用数学的方法来实现它。”罗杰·凯说。

  语音识别是第一步,之后,分析则是一项难度更大的工程。

  尽管基于人工智能和语音识别的语音个人助手并不鲜见,安卓平台便同样有类似的程序如Voice Actions,但Siri的风靡证明只是语音识别技术是不够的,它还是一种人工智能形式,如今的系统还需要更强大的自学能力。

  去年末,投资银行Piper Jaffray的分析师设计了800道语音问答题,考察苹果Siri和谷歌Google Now的水平,结果后者获得了进步最快奖。

  不过,Siri也取得了一定的进步。就在一年前,Siri还有27%的答案来自谷歌搜索,如今这个数字已经大幅下降到4%。

  英国媒体近日发表文章指出,语音翻译将成为科技业下一件大事。《圣经》有一个着名的故事:人类想上天堂,造巴别塔。上帝为阻止人类登天,所以迫使人类说不同的语言。由于沟通不畅,巴别塔最终半途而废。但英国作家道格拉斯·亚当斯曾在其小说《银河系漫游指南》中提及一种能够听懂外星人语言的小鱼“巴别鱼”(Babelfish)。

  如今,这种“小鱼”科技的出现似乎变得有可能。人工智能专家、南安普顿大学教授奈杰尔·沙德博尔特称,由于大量可供实时语音翻译信息资源的存在,“巴别鱼”系统正在走进现实,未来市场出现类似蓝牙耳机的实时翻译工具是非常自然的事情。

  在四、五年前,谷歌便开始研发语音翻译软件,时任机器翻译总裁的弗朗兹·欧克认为,实现语音翻译是有可能的。他们在向着让这种服务运行流畅的方向努力,并且还需要结合高精度的机器翻译和高精度的语音识别。

  Google Now就是语音识别加人工智能技术最好的例证——它帮助用户通过语音识别技术进行网络搜索。

  谷歌搜索工程部副总裁斯科特·霍夫曼说,搜索领域目前正努力实现的是,根据用户的声音准确理解“用户想要什么”,并给出符合需求的答案。

  据海外媒体报道,谷歌已经构筑了与人、地区、事件相关的数据库“知识图谱”等,因此语音搜索方式的实现指日可待。

  而依靠一种名为语音输入应用程序接口工具,谷歌旗下的浏览器Chrome 11 Beta版已经可以理解用户所说的话。

  下一步:抢夺更多入口

  语音识别技术市场正在走向竞争激烈的十字路口。

  海外媒体预计,随着语音识别将取代输入、键盘、写字和触摸,成为人机互动最主要的界面,语音技术将遍布世界各个角落。

  研究机构BCC曾发布报告预测,全球语音识别市场的规模到2017年会达到1130亿美元,五年复合年增长率高达16.2%。

  该机构认为,语音识别市场将分化为三大终端市场:企业、消费者以及健康保健。

  在这其中,企业终端的市场规模将在2017年达到422亿美元,复合年增长率为15.9%;消费者终端则将以17.2%的五年复合年增长率,在2017年达到651亿美元的规模;健康保健终端在2017年的规模则将达到59亿美元,复合年增长率为9.4%。

  语音识别系统Nuance公司是语音识别软件Dragon的开发者,这款软件在医疗保健行业的应用已经长达十年之久。

  当病人前去看病时,内科医生的桌面上运行Nuance的软件,它便可以利用一个夹式微型话筒来录音。随着问诊的推进,这款软件会及时更新病人的电子健康记录。

  未来的语音识别功能也可以帮音乐爱好者大忙:用户可以通过口述歌曲或歌手的名字进行点播,并且它会记住用户的喜好。

  脸谱网曾收购一家语音识别和语言翻译应用程序制造商Mobile科技公司。该公司旗下拥有知名移动应用程序Jibbigo Translator,这款应用可以自动翻译超过20种语言。

  有分析称,MT的技术确实能够帮助脸谱网做许多事情,包括在未来实现跨语言聊天、旅行者语音翻译和信息流即时翻译等。此外,还有可能帮助脸谱网实现语音图谱搜索。

  汽车领域同样是语音识别技术的重要阵地。

  宝马汽车已经开始提供语音识别服务,通过数据中心进行实时处理,转换为文本并通过邮件发送,司机不需要动手便可以完成这一系列动作。

  有报道称,苹果正致力于允许第三方服务与Siri进行整合,以便使其智能手机上的数字助手能执行除本公司外的各项服务,例如预订航班和酒店,餐厅订座,或在其他短信应用中发送文本等。

  面对来自Google Now和微软愈发激烈的竞争,苹果被认为必须要升级Siri的功能。甚至有曝料称,连语音识别公司Nuance也在提升其自己的数字助理Wintermute搜索各种第三方应用程序的能力。

  不难想象,不久的将来,可穿戴腕表、头戴式终端、汽车、电视机甚至是袜子或是衬衫,所有物体都有望作为网络终端使用,而通过语音提取所需信息的搜索和助手功能,将使这些终端更紧密地联系并读懂人类的需求。

  数说科技

  投资银行Piper Jaffray的分析师设计了800道语音问答题,考察苹果Siri和谷歌Google Now的水平,结果后者获得了进步最快奖。不过,苹果语音智能助手Siri也取得了一定的进步。在此一年前,Siri还有27%的答案来自谷歌搜索,如今这个数字已经大幅下降到4%

  声音可被用于控制或是翻译,但是人们对语音转为文字的精确度要求极高。按照目前的技术水平,一页有300个英文单词的文件中,平均每页有三个错误,尽管正确率超过90%,但剩下的那小部分仍需长途跋涉

  投资银行Piper Jaffray的分析师设计了800道语音问答题,考察苹果Siri和谷歌Google Now的水平,结果后者获得了进步最快奖。不过,苹果语音智能助手Siri也取得了一定的进步。在此一年前,Siri还有27%的答案来自谷歌搜索,如今这个数字已经大幅下降到4%

  研究机构BCC发布报告预测,全球语音识别市场的规模到2017年会达到1130亿美元,五年复合年增长率高达16.2%。该机构认为,语音识别市场将分化为三大终端市场:企业、消费者以及健康保健

  其中,企业终端的市场规模将在2017年达到422亿美元,复合年增长率为15.9%;消费者终端则将以17.2%的五年复合年增长率,在2017年达到651亿美元的规模;健康保健终端在2017年的规模则将达到59亿美元,复合年增长率为9.4%

  脸谱网曾收购一家语音识别和语言翻译应用程序制造商 Mobile Technologies,该公司旗下拥有知名的移动应用程序Jibbigo Translator,这款应用可以自动翻译超过20种语言。有分析称,MT的技术确实能够帮助脸谱网做许多事情,包括在未来实现跨语言聊天、旅行者语音翻译和信息流即时翻译等

分享到: 收藏

专题