您当前的位置是:  首页 > 新闻 > 国内 >
 首页 > 新闻 > 国内 >

语音技术的未来——对话交互?

2014-04-23 09:57:37   作者:   来源:AI剪刀手   评论:0  点击:


  自苹果iPhone 4S内置语音助手Siri以来,语音识别技术近年来经历了前所未有的繁荣。穿戴式设备、智能家居和车载设备的兴起,更是将语音识别技推到应用的台前。语言的创造原本就是人类历史的一个拐点,而当将语言与科技结合时,所谓的人机交互的革命史又翻开了新篇章。

  《Her》的启示:所谓的语音助手只是用来耳提面命的吗?

  像在国内,目前除了手机内自带的语音助手,不少第三方语音助手应用也如雨后春笋般涌现,譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。这项曾沉寂几十年的鸡肋技术之所以如今风头正旺,原因无非是搭上了移动互联网的顺风车,从而满足了语音技术普及更广泛所需的两件事情:更好、更方便的应用和主要使用语音的生活场景。

  初次使用Siri或讯飞旗下的“灵犀语音助手”的用户都会对这种新的人机交互方式感到很新奇,不仅可以通过语音搜索内容、查询信息,还可以聊天解闷、讲故事、唱歌,真可谓是得力的小助手。

  正好,最近笔者重温了一部讲述人机交互的电影《Her》,这几乎构建了人机语音交互的一个非常理想化的境界。片中女主角Samantha(人工智能系统)没有身体,只能发出声音。表面上看,这只是一个具有升级版的的语音助手。实际上,与目前的语音助手们相比,其又具备了以下几个进阶点:

  1、对话交互。虽然你可能反驳说,如今的语音助手也能进行对话,但只要一体验就会知道那只不过是“讲话”而已,用户一听就能感觉到机械感太强、体验太差。实际上,目前参与对话的人与机之间的地位悬殊太大,很多语音助手是作为人类任务助手、被调戏助手的角色出现的。而对话的话,则讲究的是两个主体之间关系的平等性。

  2、十分流畅的情感流露。倘若未来的人工智能真的以“与人类无异”为目标,那么最应该在乎的是它能否读懂人类的情感并给用户人类般的反馈。影片中,Samantha和男一号Theodor交谈、恋爱,最终她还凭借其飞快的进化速度与数千个人进行交谈,同时与几百人维持着浪漫的恋爱关系,将Theodore无情地抛在身后。机器的不断进化注入了Samantha超乎寻常的情感灵魂。

  而在现实生活中,机器的冷冰冰已司空见惯。人类饱含感情、追求自我,每个人的独特性构成了他自己的整个世界;而机器的本质则是通过无限复制、并行计算来追求效率最大化。这个不可调和的矛盾或许只能寄托未来,未来出现像Samantha一样的高级人工智能。

  无缝的语音交互境界有多难?

  从技术上讲,要达到未来无缝的语音交互境界还相当难:

  虽然近年来语音技术门槛逐渐降低,但不可否认的是,语音技术在人机交互中的尴尬局面。比如语音识别的正确率,其在实际应用中依然不够“听话”。比如,人说话时单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等;比如环境噪声和干扰对语音识别有严重影响,致使识别率低。

  有业内人士也对此坦承,语音识别的遗憾是再努力做也做不到百分之百。这无疑是整体语音技术应用中的一个最大痛点。

  这里存在一对天然的矛盾:人的本性是倾向于用非精确的信息,因为其传输量更大,更方便。然而,机器却需要用精确信息来处理才能让识别和自然语言处理更准确。所以说,一家相对专业公司的语音识别可以做到90%就已经不错了。

  从目前人机交互的形态而言,显然,用户还是更偏向于直接能产生触感的手动式人机交互。苹果近日在iOS7.1的升级当中也对语音助手Siri作出的升级亦直接在触控方面做出了调整,在Siri界面当中,具体实现方式类似于目前在微信当中的语音交流,说话前按住Home键不放,在说话完毕后放下Home键即可手动控制输入识别。苹果未单独再对声音方面做出调整,毕竟比起语音,手动更具有实体存在感,而且目前在语音交互上不断推进会大幅增加用户认知负担。

  未来,要想达到无缝语音交互的技术奇点,必须,不是更多地发展真正的人工智能,更多地模仿人类的智能而非模仿人类的行为或声音。或许,将类似一大堆的神经元细胞注入机器是人工智能的爆发点。这不是天方夜谭,真的有人已经在做这件事了。据悉,牛津大学人类未来研究所近日发布了一份报告,便阐述了向机器上传意识的技术要求。“唯有生物才具有意识”的观念正将被击得粉碎!

【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题