您当前的位置是:  首页 > 新闻 > 国内 >
 首页 > 新闻 > 国内 >

NEC开发出可凭借声音判断事态的声音状况识别技术

2016-12-29 16:17:10   作者:   来源:CTI论坛   评论:0  点击:


  近日,NEC宣布开发出“声音状况识别技术”,作为NEC最先进的AI技术群“NEC the WISE”(注1)的技术之一,该技术可根据声音判断事态。
  声音具有可跨越障碍物和人群,把握目不可及之处状况的优势,因此很早之前NEC就开始研究声音识别技术。然而,当识别范围很大时,会混入很多环境杂音,因此检测灵敏度和识别精度不高成为一个课题。
  本次开发的“声音状况识别技术”将麦克风收集到的目标音与环境杂音分离开,使用从目标音中抽取细小构成音的构成音抽取技术与根据构成音的组合模式判断事件有无的事件判别技术,可以从需要辨别的若干事件中判断正在发生的状况(注2)。
  NEC通过“声音状况识别技术”可以监测公共设施、旅游景点等地的犯罪和事故,也可以实现对老年人的默默守护,总而言之可以在不同环境下高度感知危险状况。
  值得一提的是,此技术在国际声音检测大赛DCASE2016中,在噪声(注3)中的日常声音检测类别荣获第一名的好成绩。此外,NEC的验证实验也证实,此技术可以检测5倍于原来检测距离的声音(注4)。
  NEC专注社会解决方案事业,并强化安全领域的解决方案。今后NEC将通过提供以此技术为代表的利用了传感技术的产品,为实现安心、安全、丰富多彩的社会做贡献。
  背景
  近年来,作为安心,安全的举措,在摄像头难以拍摄的地点用声音来判断情况的技术不断开发改进。
  原来的技术是通过在不同环境下大量学习目标音,从而实现声音检测。然而,在大范围检测目标音时,因为混入很多环境杂音,对于远处发生的很小的目标音的检测精度下降,需要在各个环境下学习目标音等,因而难以导入未知环境成为课题。
  本次开发的“声音状况识别技术”,可以从麦克风收集到的声音中将未知环境杂音分离,可以高精度的监测不受环境影响的构成音,并通过对构成音的组合模式来判断是否有事件发生,从而解决了过去面临的课题。
\
【图1】声音状况识别技术概要
  新技术的优势
  1、可高灵敏地检测细小声音的构成音抽取技术
  例如,“玻璃碎了”这种情况发生的时候,因环境而异可能会发出“哐当”“啪”“嘭”等声音。而构成音抽取技术则可提前学习麦克风采集的声音,分成“哐”“当”“啪”“嘭”等不受环境影响的更细小的构成音,将不需要学习的声音划入环境杂音,从而在不受环境杂音影响的前提下抽取构成音。
  2、可判断发生事件性质的事件判别技术
  事件判别技术可以将不受环境影响的构成音“哐”,“当”“啪”以及“嘭”等组合作为新的事件模式提前学习,通过构成音抽取技术高精度地抽取构成音,并进行比对,从而判断是否出现了目标事件。通过这种检测方法,即便是在大范围内也可以在存在各种杂音的环境下高敏感度地检测出微小的声音,且无需逐一学习在不同环境下的目标声音,因此可以轻易导入到未知的环境当中。
\
【图2】构成音抽取技术?事件判别技术概要
  NEC集团致力于在全球范围内推进社会解决方案,提供安心、安全、高效、公平的社会价值,将先进的ICT技术与知识相融合,为实现更加光明更加丰富多彩的高效社会尽一份力量。
  (注1)
\
  “NEC the WISE”的标志中所蕴含的意义
  “NEC the WISE”的标志采用了立体图形中最简单的三角锥体,三角锥体的中心有一个立方体。锐角的三角锥体作为基础预示着坚固、难以动摇,而位于中央的立方体则象征着聚集了智慧的AI技术。该商标的倾斜角度体现了通过人与人、人与社会、人与AI技术的协调解决所有社会课题,使其由不稳定转化为稳定,创造更美好的社会这一想法。
  (注2)无法识别会话的意思。
  (注3)IEEE AASP Challenge
  Detection and Classification of Acoustic Scenes and Events 2016,
  Task2-Sound event detection in synthetic audio
  URL:http://www.cs.tut.fi/sgn/arg/dcase2016/
  (注4)可实现将原来在4m左右的检测距离扩大到20m,通过情景模拟演练,确认可以无缝覆盖监控摄像头的设置间隔。

专题