在某些特定情况下,我们并不关心说话者所说的每一句话,只是想了解个大概的主题,这时关键词检测系统是理想的选择。关键词检测是语音识别技术的一个重要分支,其目的就是在连续语音流中检测是否存在某些感兴趣的关键词。
在关键词检测的很多实际应用中,输入的信号是各种信道的自然对话语音数据。一般来说,由于声学模型和语音数据的不匹配,关键词检测的性能会急剧地下降。为了解决这个问题,中科信利研发的关键词检测系统采用了一种基于混淆网络的搜索策略。与以往不同的是,解码是在整个声学空间上进行的,而不仅仅是关键词所构成的声学空间,解码器输出不仅是首选结果,而是一种混淆网络的数据结构。通过统计训练数据中的发音变异情况,我们得到音素间的混淆度。利用这种音素间的混淆度和关键词列表,我们就可以从解码器输出的混淆网络中搜索获取最有可能出现的关键词。这种方法大大提高了关键词的识别率,但同时也引入了一定的虚警。最后,我们采用了可靠的置信度策略来有效地降低了虚警。
体系框架:
功能模块:
语音识别模块
首先,输入的实时语音流或语音文档,经过语音分段模块处理后,产生分段信息和语音片断;其次,各语音片断经连续语音识别引擎进行识别产生网格结构;最后,网格结构经分解对齐后产生音节混淆网络。
索引模块
分段信息和音节混淆网络通过前向索引产生前向索引文件。前向索引文件再经逆向索引产生逆向索引文件。采用逆向索引的数据结构,是为了方便和减速后续的搜索过程。
检索模块
给定的关键词首先通过字音转换产生音节序列,再通过应用音节混淆矩阵,采用中科信利在国际上首次提出的基于混淆网络和模糊动态规划的关键词检索策略,在逆向索引文件中进行快速模糊匹配,产生候选关键词列表。
技术特点:
- 关键词检测引擎与说话人无关。支持自然对话语音(如:电话聊天,广播电视访谈等)。
- 支持电话信道、广播电视信道、互联网信道等各类信道数据。
- 关键词列表可由用户自主定义和修改。
- 检测结果不但包含关键词在语音流或音频文件中出现的位置,还包括相应的置信度得分。
- 操作点调整方便,可按不同的应用需求调整操作点阈值,使系统性能根据应用需求达到最优。
- 引擎处理速度快,核心算法支持海量并行处理。适应于大规模语音数据的自动检测。
- 引擎函数接口简单,用户可以方便灵活地应用开发。
性能指标:
应用范围:
中科信利的关键词检测系统,居于国内领先、国际先进水平。目前已在国内电信、安全、广电等多个行业领域中得到成功应用。
关键词检测的主要应用领域大概有以下两个方面:一是国家的信息安全领域。主要是用来对敏感语音信号的监测,一旦发现敏感关键词可以立刻报警。二是多媒体检索领域。采用关键词检测技术,可以利用文字检测出感兴趣的音视频流。