首页 > 新闻 > 专家观点 >

2016语音技术产业一览之语音引擎

2016-05-31 10:53:09   作者:   来源:CTI论坛   评论:0  点击:


  CTI论坛(ctiforum.com)(编译/老秦): 去年,我们报告了语音作为一种消费现象终于做回了它自己。自从2011年大多数行业引入了苹果的智能助手Siri以来,这个行业被一致认为将出现,分析人士认为,衡量经济增长的指标可能会发生变化。寄希望于明年引入语音引擎到移动设备上的重大影响,语音引擎的复合年增长率(CAGR)达到了22.07%。
\
  “只有少数公司收取许可费用,”Opus Research创始人兼首席分析师Dan Miller说。“这曾经是IVR模式。只有少数公司仍然这样做。相比之下,苹果的语音识别通过出售更多的手机增加了收入。谷歌则通过非常准确的语音识别应用这样一种方式增强了他们的广告收入。”
  另一方面,全球行业分析师最近预测,面容和语音生物识别市场到2020年将达到47亿美元,这是由于在国防、跨国银行和医疗行业日益增长的需求而导致的。这些预测包括专注于语音技术多年的行业领导者,像Sensory公司和Nuance。
  随着主要的消费品牌开始进入市场,2016年的建议是,虽然语音识别技术的增长越来越强劲,但是这种增长独立于其它的产品或服务,这可能导致由于以前并没有进入这一市场的大公司的进入而放缓,例如微软、谷歌、和亚马逊等。
  消费者语音
  “因为亚马逊的Echo这款产品,让我看到了这项技术在家庭环境中的渗透,”Conversational Technologies总裁黛博拉·达尔(Deborah Dahl)说,他指出语音在消费者层面是用户接口界面(UI)的理想候选人:“语音设备正变得更聪明。”
  尽管亚马逊拒绝透露Echo的具体销售数字,而嵌入它的语音技术的无线扬声器是亚马逊最畅销的产品,在Black Friday上售价超过100美元。
  Echo扬声器议与亚马逊专有的IVR助理Alexa一样,它们允许客户参与与亚马逊相关的活动,范围从可以在亚马逊Prime上听音乐到可以在客户愿望列表中下单。此外,它可以控制各种设备,包括WeMo、飞利浦Hue、SmartThings、Insteon和Wink等,并提供开发人员可以使用的应用程序编程接口(API)。
  Alexa可能是亚马逊2013年收购Ivona技术后的产品,这种收购和实现模式恰恰反映了当前语音市场的复杂性。
  达尔(Dahl)和米勒(Miller)都预测未来消费者语音市场发展的中心在解决互操作性的问题上。
  “看看那些针对物联网而开发出来的产品是有趣的,”达尔(Dahl)说。“Echo正在被集成到设备上用于控制功能,我相信Jibo(由麻省理工学院私人机器人研究小组主任辛西娅。布雷西亚牵头的采用众筹方式的智能辅助机器人)也将是一样。但是这些生态系统如何与另一个兼容?例如,苹果公司有一个家庭环境的生态系统。消费者会得到吗?他们将集成Echo吗?”
  米勒(Miller)声称,由于专利封锁将会有断点。“一些将关闭,”他说。“苹果是非常封闭的。但是你会看到共享。例如,Siri需要跟其他机器人交谈以便预定晚餐,或寻找商品和服务。这应该是发展的方向。”
  语音API
  语音识别现在逐步与自然语言理解相辅相成,2016年这两方面的发展将会遇到大数据问题。
  “语音识别的准确率仅在过去的16个月开始比以往任何时候都要好,”米勒(Miller)说。
  “在硅谷巨头们之间将会朝着共享努力的方向前进,”他继续说道,并与达尔(Dahl)一起举了Facebook对Wit。ai的收购的例子,Wit。ai是一款允许开发人员构建语音接口的API。Facebook与VirtuOz相比一直保持着API的开放,VirtuOz是语音控制虚拟助理的先行者,由来自于Wit。ai的Alexandre Lebrun所创立,并于2013年卖给了Nuance。
  达尔(Dahl)还提到微软LUIS(语言理解智能服务),IBM Watson认知计算套件和Api。ai,作为软件开发人员工具包,作为独立程序员将语音识别技术添加到他们的应用程序当中。
  她指出,离线语音识别是一个新兴领域。“在这个领域中Sensory是真正的领袖,”她说。“他们驱动市场进入大词汇应用。”Sensory和较小的德国公司Linguwerk专注于低内存和低能耗的准确语音识别技术。
  智能化企业助理
  在语音消费者市场找到了自身发展道路的同时,企业情报系统继续发展。在Gartner今年的研讨会上分析师预测,到2018年,45%增长最快的企业将减少员工数量而用智能机器代替,致力于IVR和自言语言理解技术的开发人员为企业的这一想法铺平了道路。
  米勒(Miller)称,约有15%的企业情报系统2015年已经在某种程度上实现了自动语音,2016年这一比例将持续增长。
  “你会看到像NextIT、Creative Virtual、[24]7和Intelliresponse这样的供应商,出售一些会话资源可以用来当客户或潜在客户致电呼叫中心的时候回答问题,根据支持自动客户助手做IVR曾经做的事情,”他说,挑出行业的领导者Nuance作为领跑者。“Nuance使用NinaWeb和NinaMobile作为微分器。这两款产品都是自然语言的,支持聊天,主要是语音应用。”达尔(Dahl)表示同意,并认为Openstream的EVA可以作为一个候选,在制订他们的客户交互策略时增加智能辅助功能。
  米勒(Miller)也提到了Interactions,一家CRM供应商,它收购了AT&T Watson,包括全自动语音识别功能,TTS(语音合成)和语音生物识别引擎。
  其他的发展和预测
  像Echo和Siri之所以如此之快的变得如此之好的部分原因,是因为计算能力已经开始使深度学习成为可能,“达尔(Dahl)说。”在过去的几年中计算机科学家除了能够在输入和输出之间分层之外,他们又重新回到了神经网络的理念上。这使训练系统变得简单,而过去必须非常辛苦地合在一起。在语音情况下,人们不得不数字化训练数据的话语。“
  达尔(Dahl)还指出来自于W3C的状态图XML的出现。”应用程序很好地基本上控制了对话。我希望一旦完成,它将能够提高对话处理。“
  米勒(Miller)认为语音生物识别技术应用在专有身份验证时变的更集成化了。”例如,在苹果的iPhone 6S上,Siri的叫醒是个性化的。一旦我说“嘿,Siri”三次,我可以用这来叫醒,但我的妻子不能。这就是开始使用类似语音生物测定技术,个性化应用。将你的声音用来验证你的公民身份,附带上你所有的权利和信用,这还有很长的路要走。一旦实现,这将创造出一个非常肥沃的电子商务领域。“
   声明:版权所有 非合作媒体谢绝转载

相关阅读:

分享到: 收藏

专题