首页>>厂商>>语音识别与合成>>Nuance

发表评论分享按钮

让你的设备更加智能,语音技术如何提升用户体验?

2012/05/25

  你可能不知道Nuance是做什么的,但你一定知道iPhone 4S带来的一项革 命性的人机交互产品——“Siri”。事实上,为“Siri”提供语音数据库支持的正是Nuance,此前曾用过一段时间Vlingo的平台。

  作为全球领先的语音和语言解决方案提供商,Nuance因为是T9输入法的拥有者被业界所熟知,目前全球90%以上的手机都采用T9输入法,这个输入法原本是一家名为“Tegic Communications”所开发,后来被Nuance买了下来。Nuance同时也在近期收购了滑动输入法的公司Swype。

  关键的数据收集

  近日Nuance在深圳举行了“2012年Nuance移动论坛”,这家以往“隐身”于各大国际公司背后的企业出现在了国内,吸引了深圳诸多厂商的兴趣。Nuance在会上展示了三段不同的Video,这三段Video其中就有大家所熟知的Siri的广告片,另外一段则是Nuance自己的“声龙”系列产品,最后一段则是将语音技术结合手势控制应用到智能电视的场景。通过短片,Nuance不但展示了目前语音技术发展的最新动态和趋势,同时也展示了诸多国际企业所重视的关键点——用户体验,这将是在未来企业竞争中取胜的杀手锏。而Nuance的目标,也就是帮助这些企业提高用户体验。

Nuance大中华区总经理 郑裕庆
 
图:Nuance大中华区总经理 郑裕庆

  语音技术的出现显著改变了人机互动的方式,但如果你对Siri有一定的研究,你会发现其实语音识别技术(ASR)只占到其中的20%,真正重要的则是语义识别技术。语义识别能帮助用户更准确地能否搜索出想要的结果。这种技术基于Statistic Language model(语言模型统计),需要大量的数据来完善搜索的结果。同时对于自然语言的理解(NLU技术),也需要数据库的数据,来进行语法的收集。“越多的数据,越容易帮助我们配对用户所需要的内容,了解用户的意图,将意图翻译成行动,效果最终也是取决于本身数据的质量。”Nuance大中华区总经理郑裕庆表示。

  Nuance的Dragon Go凭借在美国的Apple App Store和Android Market两大移动应用平台巨大的下载量而被用户熟知。Dragon Go将Nuance的声龙语音识别和自然语言理解技术与人工智能技术相结合,从而显著简化了搜索移动内容的体验。因此,用户仅凭借语音便能得到他们想要的内容,并能将更多的时间用于浏览而非查找在线内容。也就是说,Dragon Go能听懂用户说的话并能理解用户意图。用户仅需说出一个简单的短语,他们所喜爱和最相关的内容提供商便会显示在眼前,用户能轻松地获取餐厅评述、购买电影票、观看流媒体电影和电视节目、在线购物、查找方向、听喜爱的音乐、还可以通过Expedia预定酒店。

  如何提供更好的用户体验?

  据了解,目前Nuance主要采用两种商业模式。一种是直接向OEM厂商和制造厂商提供语音技术和解决方案,同时收取授权费用。这里不仅包括了手机、TV、PC等消费电子产品,还包括大量的企业级行业应用。另一方面,Nuance提供了自主研发的产品“如Dragon go”,供智能手机用户方便的在AppStore以及Android Market免费下载。通过向消费者提供免费下载使用,Nuance得以收集庞大的语音数据,从而对语音引擎进行训练,从而提高引擎的准确度。

  “我们的DragonDictation(声龙听写)和DragonSearch(声龙搜索)这两个应用,是比苹果的Siri出来还要早,就是因为我们要先做前期投入,只有收集了这个数据库,才能提高产品体验。”郑裕庆表示,数据库的丰富程度会直接影响到语音和语义的辨识度。所以Nuance早在1999年就已经开始在PC上应用语音引擎,到目前为止已经更新了11个版本,可以说是一个非常成熟的引擎。

  “除了成熟的引擎,我们最大的优势,其实是如何能把用户体验做得更好的经验。事实上语音识别率已经不是目前最重要的因素了,因为大家可能差距都不太大。但是用户体验就不一样了。”郑裕庆表示,包括如何解决噪音问题、如何优化语音控制界面,这些提高用户体验的东西,Nuance有着丰富的经验以及完善的解决方案。

  据统计,2011年通过云端访问Nuance的语音数据库便有20亿的访问量。而据郑裕庆介绍,Nuance目前已经跟不少国际知名的品牌进行了合作。其中就包括三星智能电视,以及BMW汽车。而在今天年年初,Nuance也发布了跟Intel的合作,未来Nuance将为Urtrabook提供语音服务,包括开启软件、写email、更新社群网站、控制音乐播放等操作都可通过语音完成。

    Dragon TV让电视真正智能

  在论坛现场,郑裕庆还特别强调了Nuance在数字客厅领域的创新。作为智能语音技术在数字客厅应用的创新应用方案,Dragon TV是一款专门针对电视原始设备制造商和运营商开发的一种独特的语音和自然语言平台,它可以让消费者在数字起居室内利用语音、自然语言理解和触摸输入等移动创新技术,获得无缝、直观的互动体验,使电视也成为与他们的手机、平板电脑、计算机和汽车一样最常用的设备。消费者不仅能使用自然语指令切换频道、搜索在线内容、访问三星SmartHub,还可以通过Skype与朋友和家人交流。用户仅需说一声“HiTV(你好,电视),开机”,便能打开电视。

  借助该平台,消费者将不再受困于传统电视遥控器繁琐的操控方式,Dragon TV使电视从单纯的接收设备变身为了一个互动系统。同时通过摄像头锁定技术以及手势控制技术,Dragon TV可以在一定范围内锁定用户,这样在语音控制的过程中,不会出现噪音干扰的问题。

现场展示的采用Dragon TV的智能电视,可通过手势进行控制

  图:现场展示的采用Dragon TV的智能电视,可通过手势进行控制

  Dragon TV还可以使数字家庭设备所集成的电子邮件、社交网络和互动通信等应用的操作变得更加直接简单。凭借Nuance强大的语音和自然语言技术,用户获取内容时只需要说出频道名称、电视台名称、节目和电影的名称等,便可完成直达目标,开始一场愉悦的互动视觉旅程。而随着Dragon TV的发布,包括服务提供商、消费电子厂商和通过互联网传输(OTT)的内容提供商等角色将共同构成一个更具竞争力的互联网电生态系统,在为用户提供更佳应用体验的基础上,赢得更广阔的市场先机。
  
    语音技术的门槛

  尽管有消息称,苹果iOS下一个版本将会出现中文版本,但是在这个市场空白期,足以给“中国版siri”以成长空间。在中国,Nuance受到了类似于安徽科大讯飞这样的专注中文语音识别的本土厂商的强烈挑战。不过郑裕庆认为Nuance在中文领域并不存在劣势,“我们现时支持普通话和广东话。还有台湾国语。对于中文最难解决的口音问题吗,我们从1999年开始就在采集各种口音来训练我们的引擎,”

  作为全球最大的手机制造中心以及市场,对于中国的手机厂商来说,在从功能机转型智能机的过程中,他们急切的希望能够添加完善的语音解决方案,而不仅仅是简单的下载一个“语音识别”输入法或应用这么简单。

  对于Nuance来说,目前与本土中小客户的合作还存在一些顾虑。“因为Nuance的技术团队人手有限,我们只可以跟比较大型的厂家里如Top10的厂家合作,我们其实在整个市场占有率已经很大,如果手机厂家前八大的,差不多市场已经一大块已经没有了,就是被他们已经拿走了。其他的我们看见的,因为我们也要跟那些合作,但是合作下来,我们看见比较辛苦,为什么?可能这一天他在,明天就不在,好多就是这样,突然冒起来,到一天又没有了,就是变成花很多时间上去,但是不可以连续是这样子。”郑裕庆表示,其实语音解决方案对于技术和投入的要求还是很高的,需要投入大量的人力物力,一些小公司很难有这个决心去做。“比如语音的话,就是你要知道怎么去设计这个语音界面,,需要有语音设计背景的专业人员。技术和硬件都有要求。硬件如耳麦等,要求用比较好的产品,但是会提高成本。出于技术成熟度来考虑,需要对产品有一定时间的磨合,比如Siri从苹果收购到最终出产品就用了两年,这些对于中小客户来说都不太可能接受。”

从左到右依次为:JasonStirling,Nuance亚太区高级副总裁、郑裕庆,Nuance大中华区总经理、StuartSharpe,Nuance亚太区销售工程部高级总监

  图:从左到右依次为:Nuance亚太区高级副总裁 JasonStirling、
Nuance大中华区总经理 郑裕庆、Nuance亚太区销售工程部高级总监 StuartSharpe
共 3 页:1 2 3 

电子工程专辑



相关阅读:
Nuance为三星Smart TV提供独特的声龙语音技术 2012-05-17
2012年Nuance移动论坛:语音技术带来便捷的数字生活 2012-05-16
Spansion与Nuance加快嵌入式语音识别技术创新应用 2012-04-12
Nuance Research:消费者喜爱的移动应用功能有哪些? 2012-03-22
Nuance收购医学语音转写和编辑服务商Transcend 2012-03-09

热点专题:  语音合成TTS 语音识别ASR    移动互联网
分类信息:  移动互联网_与_移动