您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

标贝科技CEO刘博:5G时代,如何打造“声入人心”的AI语音交互体验

2020-04-03 09:41:35   作者:   来源:腾讯5G生态计划    评论:0  点击:


  2020这个看似艰难的开年,事实上成为了数字化生活的加速助推器。
  5G已经是人们眼前可见的未来,更美好的数字化场景触手可及。在无论多艰难的环境里,我们希望从身边每一个看似平凡的创新者身上,依然能看见光,依然能勇敢的去做一个追光者。
  5G作为全面“重造连接”的基石,所引发变革的广度和深度,都将远超4G。在新的变革时代,改变世界,并不是大企业的专属,它同样属于那些遍布不同行业的创新者。
  5G时代的序幕已经拉开,腾讯5G生态计划将与创新者同行,为追光者助力,实现“所见即未来”。
  通过「追光者-5G引领数字化」栏目,我们将邀请10个领域的5G创新者,讲述他们的探索、行动、思考和预测,开启5G引领下的数字化变革畅想。
  机器学习以及自然语言处理技术的进步,开启了基于先进AI技术的人机语音交互,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。
  AI语音交互正在进入每个人的日常生活,娱乐、工作、社交各个场景都已经出现了“它”的身影。随着5G翩然而至,高带宽、低时延、广连接“三大特性”将进一步突破AI语音瓶颈,或许会给出更丰富的应用场景和更完善的解决方案。
  本期「追光者-5G引领数字化」栏目,我们邀请到标贝科技创始人兼CEO刘博,共同走进智能语音的世界,一探5G时代的AI语音交互,将如何变化升级?哪些AI语音应用场景将成为下一个风口?
刘博
标贝科技创始人兼CEO
  智能语音如何发展至今?
  回顾智能语音的发展历程,大致分为五个阶段。
  第一个阶段是萌芽期,在1952年,贝尔实验室研制出首个语音识别系统Audry,但当时的语音识别系统非常粗糙,基本上停留在实验室阶段。
  第二个阶段,在1984年,语音技术取得了真正的突破。IBM发布一款大词汇量识别系统,涵盖5000多个词汇,识别率达到95%。除此之外,美国卡内基梅隆大学开发出一套名叫SPHINX的语音识别引擎,为后期语音识别技术走向商业化起到了重要的推动作用。
  第三个阶段,我们将其定义为产业化阶段。在1997年,第一款语音听写产品诞生了。2002年,美国启动“全球自主语音”GALE项目,研发实时翻译印刷品、网页、新闻及电视广播技术。2009年,微软发布的Win7也集成了语音识别的功能。
  在第四个阶段,语音技术迎来了快速应用。苹果推出首个语音助手Siri,谷歌相继发布了首个手机语音搜素引擎GoogleNow。在技术具体落地的同时也解决了一些实际问题,比如2015年,我国诞生了首个可打断纠错的语音系统,极大提升了语音交互体验,对后续的应用化落地起到很大作用。
  在第五个阶段,我认为是语音产品的爆发期。国内我们能看到像腾讯、百度、小米、阿里等互联网大厂,都推出了自家的智能语音产品。所以我相信,随着AI语音识别应用领域的不断扩展,我们的技术将获得更多普及。
  与4G相比,5G将会对AI语音交互有哪些影响?
  4G连接了人与人,更强调以“人”为核心的交互过程。由于5G对边缘计算和网络切片能力的提升,未来会有更多设备接入5G网络,因此AI语音交互将经历从“人”到“人和设备”的核心转变。那么5G将在哪些方面提升AI语音交互技术呢?
  首先,5G提升语音采样率,打造更接近人声的合成声音。
  当我们在打电话沟通交流时,经常会产生很多问题。比如在电话中会发现对方的声音可能不太友好,抑或是表达的意思不够清晰。这也是为什么人们更喜欢面对面沟通重要的事情。
  在4G的时候,语音采样率的指标是16K,随着5G不断成熟应用,语音采样率将会提升至44K。两者本质上是信息密度传输的区别。随着采样率的提升,语音将承载的交流信息会更强,我们可以更多地感受到对方表达的意思和温度。同时,可以获取更保真、音质更好的的效果,所以我们期待借助5G技术,打造更接近人声效果的合成语音。
  其次,5G提升泛在线设备能力,覆盖连接更多设备,延展AI语音交互场景。
  尽管当前的4G网络每平方公里可以容纳数千台设备,但同样范围内5G可以为百万台设备提供高速网络连接。因此在5G时代,泛在线的能力将得到极大提升,当设备接入5G网络体系之后,更多应用将融进场景,形成交互的多元化应用。随着交互形态和交互能力提升,用户的交互意愿将达到质的变化。
  据艾瑞咨询发布《2020中国智能物联网AloT白皮书》显示,至2025年,65%以上中国家庭拥有AI管家包括智能音箱、智能机器人、智能面板等形态的产品,且一户家庭可以拥有10台以上具备AI感知能力的设备,从而形成智能家居交互方式无感化。不仅仅是家居生活,未来的AI语音交互将转向多场景切换、多交互形式,最终形成跨终端的无缝体验。
  再者,5G丰富AI语音交互形式,向“千人千面”转型。
  4G时代,由于带宽压力和计算能力限制,很多人机交互还停留在单一的语音对话形式,比如人机智能问答。但随着5G基础建设的不断提升,人机交互将融入更多的AI技术,包括手势、人脸、视觉、语音等,形成多维度、多层次立体化的交互体系。
  记得之前很多人问我,语音是不是独立存在的单个场景或板块?其实不然。语音作为交互能力的基础,通过整合更多的场景形态和先进技术,打造沉浸式的交互体验。在未来,我们可能将更多的技术融入相应的设备里,形成多元化的产品体系。由于受限于4G速度,以前没办法真正做到语音交互的个性化、定制化、差异化,如今基于5G的特性,可以增加个性化定制的交互场景,实现“千人千面”的体验。
  AI语音技术应用在哪些重要的5G场景?
  5G+融媒体场景
  现在,视频领域正成为大厂们竞相追逐的热点,因为内容创造对于任何厂家而言都是瓶颈。但我们在做制作内容的时候,通过5G与AI语音技术的结合,将大大提高产出效率。
  AI语音不仅能够推动数字技术的内容创作,还提高了媒体制作的效率。比如融媒体超高清视频的制作主要分成三个部分:采集回传、视频素材的云端制作、最后形成高清视频节目播出。5G+AI语音技术将整个“采-编-传”的过程音频化、高清化、云端化,极大解放了内容创作者的双手。
来源:IMT-2020(5G)推进组5G新媒体行业白皮书
  5G+泛娱乐场景
  当AI语音交互技术应用在泛娱乐场景时,比如云游戏、高清视频、VR、AR直播等等,将带来更清晰的交互流程和更优质的交互体验,实现定制化、智能化和场景化的高度渗透与融合。我观察到云游戏的体验形式正在发生本质变化,市面上有部分厂商已经实现了一些智能化体验,游戏中的NPC(非玩家角色)可以直接跟用户进行对话和交流。
  5G+智慧生活
  5G重构设备的连接方式,而AI语音让设备自身、设备与设备之间更懂人,实现个性化的人机交互体验,从万物连接走向万物智能。
  据相关白皮书指出,受益于城市端AIoT业务的规模化落地及边缘计算的初步普及,2019年中国AIoT市场规模突破3000亿大关,直指4000亿量级。由于AIoT在落地过程中需要重构传统产业价值链,未来几年将会迎来较快的发展节奏,包括智能家居、车联网、无人驾驶、智慧医疗等领域都将与AI语音交互紧密结合,从实验室专有领域进入寻常百姓的生活。
  随着5G与AI语音交互的不断融合,语音技术与场景结合度更加紧密,个性化语音交互是必然趋势。我们希望把技术、情感与用户串联一起,将AI语音技术应用到更多场景中,带来“声入人心”的语音交互体验。
(扫描二维码,观看直播回放)
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业