首页>>厂商>>语音识别与合成>>科大讯飞

语音技术在电信领域的应用现状及前景

中国科大讯飞信息科技有限公司 陈涛(总工程师)

 

  一、背景概述

  作为智能计算机研究的主导方向和人机语音通信的关键技术,语音技术一直受到各国科学界的广泛关注。如今,随着语音合成技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音合成技术开发出的计算机应用软件产品,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常良好。尤其对于汉语语音合成技术应用而言,面对着有十几亿人使用中文的泱泱中华大国,市场需求、应用前景和经济效益等等都可见一斑。

  二、语音技术在智能电话查询系统中的应用

  目前,语音技术已逐渐在电信的声讯信息服务领域内的智能电话查询系统中展开应用,并在迅速地推广。

  当今社会处在一个信息的时代,如何快速准确地获取所关心的信息,对人们的日常工作和生活已经具有越来越重要的影响。在电话高度普及的今天,如果打电话就能查询到所需信息,无疑将给人们的日常生活带来极大方便。

  以往,人们也曾利用数字录音回放技术实现过对电话号码、中奖信息等简单场合下的电话查询。但是这种数字录音回放技术无法解决信息量异常庞大的海量查询场合和查询内容经常变化的动态查询场合,而正是这些场合才迫切需要迅速、准确的电话语音查询。而汉语语音合成技术(此处以中国科大讯飞公司的汉语语音合成技术为例),可以利用不到30MBytes的容量合成出任意的汉语连续语音,且合成语音连续、可懂、自然。这样就很好地解决了海量数据和动态查询的需求。在这种查询系统中,一台普通的计算机可以支持几十路以上的电话信道昼夜不停的用户查询,且反应迅速、准确无误,无疑将成为未来信息服务行业的发展趋势。

  由上看,汉语语音合成技术应用到声讯服务领域内,对现有的电话查询系统将产生革命性的影响。譬如,中国电信信息服务业务168声讯台经过10年的发展,目前已形成一定规模,培养出一定数量的用户群,与社会各大信息源建立了密切的合作关系。电话服务方式所具有的广泛普及性和使用方便性等特点,使其具有了长远的生命力,但由于电话声讯服务在手段的先进性方面还存在一定局限性,从而限制了声讯服务的进一步纵深发展,而现在有了像中科大讯飞这样的汉语语音合成技术,通过将该技术应用到电话查询系统或实施进一步的技术改造,可继续维持电话声讯服务的优越性,从而使其能经久不衰,保持常青。

  因此,随着联网信息项目的增多和时效性要求的逐步提高,建立一个实时双向的全国性声讯业务网的时机已经成熟,例如股票交易、航班动态查询、电话报税业务等。这些业务都将全面应用到汉语语音合成技术,通过其彻底解决传统数字录音回放技术所无法解决的海量信息库和动态变化信息的实时生成和存储难题,从而将汉语语音合成的应用渗透到声讯服务业务的方方面面。汉语语音合成的典型应用场合有:

  (1)精神生活方面

  *广播电视节目的动态查询;

  *节目的实时点播;

  *节目的实时点评;

  *热点问题的实时问卷调查;

  *考试查分

  (2)公众消费行为方面

  *机场、车站的航班、列车到达动态信息查询;

  *机场、车站票务动态信息查询;

  *电话购物系统;

  *股票信息动态查询

  (3)企业经营行为方面

  *工商信息查询系统;

  *电话产品防伪系统;

  *电话报税系统;

  *市场广告及营销系统;

  *售后服务系统

  三、语音技术与互联网的结合

  (一)电话网与互联网走向融合

  1. 电话因特网关的提出

  目前我国家用个人电脑的普及率还很低,联网率也相对较低,只有不到1000万的上网用户,而电话用户却高达2亿。显然,电话的普及率要远远高出电脑,为了能够让这2亿电话用户都可以通过普通电话访问到因特网上的信息,科大讯飞率先提出了电话因特网关的概念。

  2. 电话因特网关的功能

  电话因特网关是一种用于实现电话网和因特网之间的信息互访的系统。简而言之,就是让电话用户能够轻松地通过电话访问因特网。系统的功能主要体现在两个方面:

  一方面,让用户通过电话、手机或传真随时随地访问因特网上各种信息,例如新闻、Email、通告等。大大扩展了因特网信息的用户群和地域范围,同时大大降低了用户参与到因特网的技术难度;

  另一方面,能够将电话终端上信息流或控制指令发送到因特网上,例如用户可以通过电话方便地发送电子邮件和类似的留言信息,不仅具有传统的语音邮箱的功能,还可以将用户语音以IP的方式廉价地发送到全球的任何一个电脑或电话终端,大大降低了信息交流的成本。

  3. 电话因特网关的意义

  电话因特网关的意义可以归纳为以下几点:

  *电话操作的简单性,大大降低了访问因特网的技术难度。

  *电话因特网关将极大地扩展因特网用户的数量。

  *对于中国企业而言,电话因特网关的使用,将大大扩展电子商务的覆盖面,

  推动电子商务的健康发展。

  *对于不同百姓而言,电话因特网关的使用将极大推动因特网社区服务(例如物品买卖租赁、征婚求职等)在全国的普及。

  电话因特网关既使得网络服务提供商将自己的客户群扩展到更为广泛的电话用户,也为企事业单位,机关团体提供了和群众之间的交流提供了更为方便直接的方式。其设计充分考虑了中国的基本国情和市场需求,具有重要的社会意义和巨大的市场价值。

  (二)电话因特网关的技术特点

  1.电话因特网关与信息转化

  下图所示的是因特网和电话网通过电话因特网关实现互相访问的信息流图,电话因特网关实现了因特网和电话网之间信息形式和传输协议的相互转化。

  电话因特网关的服务功能可以概括成以下几点:

  *通过电话接收因特网上的文字信息或特定的语音信息;

  *通过传真接收因特网的文字和图象信息;

  *通过电话向因特网提交信息,包括文字信息、语音信息和控制指令信息;

  *通过因特网向指定的电话终端发送信息;

  2、电话因特网关的硬件结构

  电话因特网关的所有硬件基本采用通用设备。如下图所示,这是一个典型的电话因特网关系统的硬件结构图,根据应用规模的不同,系统的硬件具体配置有所不同,但总体结构是相同的。

  包含的设备如下所列:

  (1)通讯服务器

  通讯服务器是系统与因特网的接口,负责从因特网上采集和接收各种信息,或将各种语音、传真信息发送到因特网上。

  (2)电话接入节点

  语音接入节点是系统与电话网的接口,。每一个电话接入节点上都有专门的电话接入设备——语音卡。

  (3)系统管理节点

  系统管理节点,对系统中的各个节点进行统一的管理。

  (4)数据库服务器

  数据库服务器是系统的关键设备。从因特网上采集下来的信息往往是十分庞杂的,需要对这些信息进行统一的管理和维护,这就是数据库服务器的功能。

  (5)处理资源节点

  处理资源节点是指用于完成语音合成、识别等运算量比较大的处理功能的计算机设备,例如语音合成服务器和语音识别服务器就是典型的处理资源节点,系统中可以有多个相同的处理资源节点,形成一个服务集群。

  (6)前置交换机:

  前置交换机是系统的可选设备,对于某些接入规模比较大或需要比较复杂的人工服务的应用中,往往需要采用前置交换机。他的主要功能是实现到人工服务的有序的接入。

  各种服务器的具体数目由系统的规模有所不同,系统可以根据用户数量的增加动态的、平滑地伸缩。在大型的网站中应用时,系统具有数百至上千线的规模,各项功能由多台高性能服务器共同提供;而在一些小规模的应用中,却可以将所有的功能集中在一台服务器上。

  3、电话因特网关的软件结构

  电话因特网关的软件系统结构如下图所示。

  整个电话因特网关的系统软件划分成三个层次:网络接口层、核心资源层和电话接口层。具体的功能如下:

  (1)网络接口层

  网络接口层负责与因特网的各种信息互访,包括从因特网上获得新闻、邮件等各种信息;也包括将用户语音邮件等各种信息或指令传送到因特网上。

  (2)核心资源层

  核心资源层,系统系统处理的核心部分,电话网传输的是语音信息,而因特网传输的信息则是多种多样,包括文字、语音、图象等,核心资源层实现两个网络信息形式的相互转化。包括实现因特网上的文字信息,到电话用户可以接收的语音、传真信息之间的转换;也包括用户的语音信息到因特网上可以接收的数据信息的转换,例如利用语音压缩编码技术可以将原始的电话语音压缩成比较小的流量在因特网上传输,甚至可以利用语音识别技术将语音转换为文本文字后通过网络接口层发送到因特网上。

  可以把其中的语音合成、语音识别、自动摘要、以及语音压缩编码等功能模块,都看成是系统可以灵活选配的插件方式。这些资源由博思智能中文平台统一管理和调度。

  (3)电话接口层。

  电话接口层是电话因特网关与电话用户的接口。将各种从因特网上获得的信息以语音的形式通知给用户,或获得用户需要向因特网传输的原始的电话语音数据或传真数据。

  4、电话因特网关的核心技术

  电话因特网关具有很高的技术含量,其所依托的各项基础技术有:

  (1)语音合成技术

  语音合成技术是一门将可见的文字信息转化为可闻的语音信息的信息处理技术,这是电话因特网关中最关键的一项技术。

  (2)自动摘要技术

  电话自动信息摘要生成的技术解决关键是通过对文本信息进行智能分析处理后,要能以最扼要、最简洁的文字自动生成内容摘要,达到能表现原文本所涵盖的全部信息内容的目的,从而满足电话接受信息的需要。

  (3)智能中文平台

  智能中文平台是集成多种中文信息处理技术的智能化中文应用环境,其技术特征使它成为一个强大的分布式数据处理系统开发环境,可以同时用于家用和商用系统的开发平台。

  第四次国家智能计算机专家研讨会已经基本选定将博思智能中文平台的智能接口规范作为“863”专家组选定的智能化中文应用环境接口规范。

  (4)语音压缩编码传输技术

  5、科大讯飞电话因特网关的成功应用实例

  基于科大讯飞电话因特网关构架,科大讯飞已经开发成功并且正在使用的系统有:(1)有声电子邮件系统

  有声电子邮件系统,使得电话用户可以通过任何一部公用电话接收和发送电子邮件,同时可以设置当有新邮件到达的时候,主动通知用户的传呼或手机。目前本系统已经在上海热线开通,热线号码是:16008888;

  (2)金融雷达系统

  金融雷达系统,使得用户可以通过任何一部电话访问到最新的股市行情,同时可以随时听取由计算机生成的针对每一只股票的实时动态评述。另外,金融雷达的预警功能,可以在用户选定股票的涨幅或跌幅超过设定值的时候,主动通知用户的传呼或手机。

  目前本系统已经在合肥市声讯台开通,热线号码是:16876666。

  (3)语音电话网站

  使得网站所提供的服务,向更广大的电话用户延伸。提供电话信息推送和电话电子商务的服务。

  目前本系统已经在中国有色金属网站中成功使用。

《电脑生活》 2000/07/28


分类信息:  语音合成TTS_与_语音识别ASR     技术_语音合成_新闻   技术_语音识别_新闻