用板卡搭建语音门户
刘建全 2001/06/21
语音门户展现在我们面前的巨大的市场潜力。但是,语音门户在也对语音技术提出要求的同时,也对语音板卡提出了更多的需求,要求“语音打断”功能,要能有效“消除回声”等。只有这样,才能用语音板卡成功搭建技术上成熟的语音门户。
语音门户的本质是应用了语音识别技术的IVR(语音自动应答)系统。那么,当前存在的问题主要有哪些呢?
IVR系统使用不方便
在IVR系统中引入ASR技术的初衷是什么?
抛开冠冕堂皇的商业目的,我们需要承认,在IVR系统中引入ASR技术的初衷在于解治IVR中存在的痼疾。
语音选单界面有太多的选项。语音提示+按键选择的方法已经无法满足需求。比如,在航班查询系统中,如此多的目的城市不可能全部通过语音播报出来。
效率低下。通过语音识别技术提升了接入手段,用户可以直接用语音进行有关的交互工作,这样,工作效率大为提高。例如,目前在听完了大段的语音提示选单后,用户还要不断地停下来,按动电话上有限的数字按键,进行相应的选择,然后继续听下一段的语音提示。在使用了语音识别技术后,用户可以像与服务员一样,采用语音的方式,在一句话里面发出全部指令,避免了连续按键的过程。
IVR流程跳转困难。现有的IVR流程都是树形结构,从一个分支跳到另外一个分支必须通过根(最上级菜单)进行。比如:用户在进入1860移动通信公司的客户服务系统后,进入“办理业务”选单下面的“开通业务”,如果想进入查询手机的话费,需要首先退出到最顶层选单,然后进入“话费查询”的“查询本机话费”一项。
须通过DTMF按键操作。特别在双手都被占用的情况下,严重影响工作效率。
现有ASR系统存在问题
ASR技术被引入后,其优势得到发挥,同时也在IVR系统中引入了一些问题。
无法打断语音提示。在很多IVR系统中,通过DTMF打断语音提示进行操作。引入ASR技术后,无法通过语音来打断语音提示,只能在语音提示结束后才可以进行操作。
图1 传统的ASR示意图
没有处理语音插入的能力。语音插入的能力允许用户在系统播放声音时仍然对系统具有控制权。可以想像,当用户对IVR播放的一段漫长的新闻失去兴趣的时候,如果无法跳过它,唯一的选择就是挂机。一个成熟的IVR系统应该赋予用户在任何时候都可以具有控制流程的权力。换而言之,在放音时仍然能够识别语音命令。
电话线路质量差,回声严重,识别率不高。在针对IVR系统开发商的一项调查中,研究机构发现影响ASR技术推广的首要问题在于ASR的识别率。在家用电脑中使用的ASR效果明显好于CTI中的应用,究其原因,与电话线路质量和严重的回声干扰有关系。
如果不能充分发挥语音识别在减少系统延迟、提高效率、降低整体响应时间方面的优势,而仅仅将语音输入作为DTMF按键输入的替代品,那么语音门户存在的意义将大打折扣。
D系列支持语音门户
D系列PCI语音卡
DSP是通信设备的重要基石。它以先进的数字计算方法对信号进行处理,具有处理速度快、灵活、抗干扰能力强等优点,尤其适合进行语音处理。
D系列PCI语音卡是采用DSP数字信号处理技术实现对语音、交换、信令进行处理的新一代语音板卡,支持环路中继、1号信令、7号信令、数字1号信令(ISDN-PRI)等线路接口,提供会议、TTS、语音压缩等功能。
D系列PCI语音卡具有400-1000 MIPS的运算能力,为语音识别这样需要占用大量资源的应用提供了广阔的天地;与传统的ASR不同的是,D系列PCI语音卡通过语音打断、回声消除、内存录音等技术的应用,减轻了ASR的沉重负担,为打破ASR应用瓶颈发挥了关键的作用。
回声消除技术处理语音命令
回声消除ECR,是基于DSP技术对语音通道的声音进行的实时控制。其实现方法在于:在电话线路上收到的声音里,去掉IVR系统播放的声音,从而保证收到的声音是纯净的。
东进的ECR算法是与美国某DSP专业算法研究机构合作,基于G.168国际标准,并做了大量算法优化工作。
图2 达到商用要求的ASR系统
语音识别的过程实际是一个话音样本录音和声音比较的过程。当录下来的声音样本(收到的声音)是纯净或者比较纯净的时候,识别率将大大提高。试验表明,采用回声消除技术后,语音识别率得到显著提高,从原有的70-80%提高到95%以上,满足了商用要求,如图2所示。
采用语音检测实现语音打断
语音打断(barge-in)可以减轻系统资源占用,提高语音识别系统的利用率,而且减少用户等待的时间,节省话费开支,为构建高精度和高密度的系统创造了条件。
语音检测 (VAD-Voice Activity Detection)技术的应用是实现语音打断的前提。其原理是检测线路上的声音能量(Voice
Energy Detection),只有在检测到语音后才启动录音和语音识别进程。
图3 语音门户系统结构图
一个贴近现实应用的语音门户应该同时基于D系列PCI语音卡的VAD和ECR技术。在应用了上述技术后,语音门户的系统结构图如图3 所示。
《中国计算机报》2001/06/21