首页>>厂商>>语音识别与合成>>得意音通

"得意"语音互联系统

2003/11/24

一、语音互联服务的巨大发展空间

  语音交流是人类最原始、最自然、最人性化,也是最有效的交流方式。繁忙的人们可以离开PC、离开笔记本,只是随手拨通电话,就可以知道当天发生的国际大事,就可以了解同步的股票行情,还可以知道他乡的天气是否合适旅游……通过电话来上网,以"说话"来代替键盘输入,以"语音控制"来代替键盘控制,实现语音上网一直是人类的梦想。以"说话"来控制的电话自动信息系统是银行、电信、证券、运输等行业提高服务质量、增强竞争能力、节省时间的有力武器。

  从绝对数量上看,个人计算机的数量远远低于电话终端的数量,而且由于接入服务和限制,和个人计算机携带的不方便,所以个人计算机用户很难实享用现随时随刻的网上服务。更重要的是,人们还是更习惯于言谈的交流,听和说是人们最乐意接受的交流和获取信息的方式。而今天,随着语音技术的发展,特别是通过中文语音识别技术的突破,中国人语音上网已经成为现实。

  语音互联是传统电话与互联网相结合的产物,它应用语音识别技术,通过在PSTN与互联网之间放置中文语音网网关,来实现语音识别和语音合成等,最终对用户实现语音上网。只要用户接通相应的电话号码,系统就可识别相关的命令,从而给用户提供所需的信息和服务,包括语音拨号、点歌、下载铃声图片、发送短语、娱乐游戏、股票行情、交通状况、天气情况、收听新闻、网友聊天等等人性化、个性化的服务。

  研究表明,全球电话语音处理软件市场在2005年将超过35亿美元的规模。2005年,作为所有语音识别产品基础的语音识别软件引擎,将达到27亿美元的市场规模。(Cahners In-Stat, 7/2001.)声音接口在互联网络和企业服务网络中扮演着门户的角色,人们会认识到它对消费者和企业的巨大价值。2005年将有超过20亿的人口使用声控的语音门户、基于语音的网站和web功能的IVR系统。

  (Davidson Consulting.)语音识别技术不再是一项"遥不可及"的技术。语音识别技术已经成功地运用于许多工业部门。随着关于语音识别系统在有线和无线领域应用研究的深入,已经出现了很多系统和工具,这些系统和工具支持网络的关键应用程序,并对这些应用程序进行改善。为了减少成本和用户的埋怨、提高效率,语音识别技术和相关的应用软件已经运用于电信、互联网、电子商务、金融、医学、电子和军用防御工业领域。声音接口在语音识别行业中发展很快,它将使有线和无线移动用户得到更加轻松愉快的服务。

二、语音识别:语音互联的核心

  语音互联的基本原理,是应用最新的语音识别(ASR)技术,加上先进的CTI(Computer Telephone Integrated)技术以及开放的VoiceXML工业标准,在电话平台增加了对信息资源进行解释的一个服务模块、对人说话进行识别及对文本内容进行语音合成的模块,使得人与机器的交互更接近人与人之间的交互习惯,即用口说、用耳朵听。类似与数据终端(PC、PDA、WAP手机)上网,语音互联也是把接入和内容进行了分离。用户拨打一个接入号码,提供内容服务的却可以是其他任何一个具体的内容提供商(ICP)。

  语音平台采用3W认可的最新语音流程语言--Voice XML,不但实现了语音流程的个性化,还可以通过简单地编写Voice XML流程,轻而易举地生成各种各样的语音应用系统,实现平台与业务的分离。如Voice Browser、短信信息点播系统、股票委托交易、个性化定制服务、语音门户、语音电子邮件、自动及人工声讯台和各种行业的CallCenter 系统等。

  语音互联作为计算机上网的有效的补充手段,是一个新兴的领域,也是一个非常让人看好的领域。声音信息要与互联网上的文本信息很好地结合起来,实现快速自动交换,这就需要一个解析器,把文本、语音、图像的数据以一个统一格式快速交换。在此基础上,需要通过浏览器来接受用户的请求,找出用户所需要的内容,然后再把内容呈现给用户。

图1 语音互联拓扑结构图
(原文如此)

  这是对传统声讯服务来说是一个重大的改革,因为接入和内容提供的分离,声讯行业变成是一个开放式的行业,所有传统的ICP都可以按照Voice XML的标准为声讯提供内容服务,它可以由客户自己根据需求更改服务流程,而且流程是标准化的,可以从网上或别处继承下来,这样丰富多彩的内容又必然会刺激用户的增加以及服务需求的增长。

  无论国外还是国内,已经有越来越多的厂商支持和开发基于Voice XML在政府办公、电子商务、通信、呼叫中心服务、个人信息服务、娱乐等方面的语音应用。对传统声讯服务或者互联网信息服务的改造或移植是语音互联网的一个趋势,这样就可以大量利用传统电信和网络资源为网络用户提供语音服务。

三、语音互联:多赢的产业价值链

  语音互联网将最终形成由语音技术开发商-应用/内容提供商-语音服务提供商-电信运营商-终端厂商组成的产业价值链。

  对于最终用户,语音门户平台方便、快捷、自然,而且不需要花费额外成本。用户只要对着普通电话说话就行了,不再受制于按键音频,不再受制于电脑和一大堆连线,也不再受制于网络专业知识的贫乏。同时,用户还可以根据自己的喜好定制个性化服务,集中关注个人业务;并且可以从各种各样的信息源、信息终端中解放出来,获得语音门户服务带来的自由和方便。

  对于信息服务商和客户服务企业,他们也必然会得益于语音门户平台。利用语音门户,不仅可以通过节省人工坐席成本来低成本地发布信息,提供客户服务,而且可以实现更多更有价值的业务,开创新的市场空间和利润。同样,随着竞争的愈演愈烈,越来越多的公司都拥有自己的语音站点用来满足对用户的需求,以便用户能容易地得到相关的内容和服务。

  电信运营商,包括固网运营商、移动通信运营商、声讯台、宽带运营商等,可能采用的商业模式包括:

1.通话费和信息费的分成
2.会员制
3.包月制
4.广告收入
5.电子商务交易佣金
6.特许权使用费

  语音门户在中国的发展潜力十分可观。用户通过语音门户平台,可以把有线电话网、无线通信网、寻呼网、互联网联系为一有机的整体,用户通过电话不仅可以查询股票行情、天气预报、航班动态、火车时刻表等信息,而且可点播自己定制的个人信息、新闻、证券评论、电影评论等,同时把它作为自己的统一消息平台,帮助自己在商务活动中赢得先机,并且还可以通过该平台进行诸如购买飞机票、股票等电子商务活动。语音门户服务功能模块将分别涉及到政府、电信市场、邮政市场、金融银行、证券行业、保险市场、交通旅游市场、物流运输行业、公共生活等等,几乎无孔不入,覆盖了社会生活的大部分。为了更好、更全面、更有竞争力地提供服务 ,发挥语音门户平台的综合优势 ,把语音门户平台、呼叫中心,以及数据中心有机地结合起来,提供"全方位一揽子服务"是一个很有竞争力的应用模式。由语音门户平台接入自动语音应答,用户选择所需的服务;数据中心提供相应的数据、信息和服务内容;在用户所需的服务比较复杂,需要人工干预的时候,把通话切换到呼叫中心的人工座席,人工座席通过客户信息管理系统能迅速获得客户信息和已发生的信息交互,无缝地连接自动和人工服务,保证最高的服务质量;同时,人工座席也可以方便地切换到自动应答系统,降低服务成本,提高效率。语音门户与呼叫中心 、数据中心之间的高速连接将成为企业存储 、发布信息的一个统筹 、高效的方案。

四、丰富多彩、具吸引力的语音互联服务

  电信的增值服务让用户无论在何地、何时都能直接访问互联网的内容,但个性化的服务可使个人和商务快速获得以及容易访问他们所关心的内容和信息。因而语音门户的及时出现改变了电话的应用范围,从而使电话成为用户得到语音和数据服务的一种最便利的设备。 以下是一些重要的应用举例:

1、传统声讯服务和互联网信息的利用

  利用语音互联系统,用户直接对着电话说出所要查询的信息或者服务,电信服务平台根据自动语音识别技术识别出用户语音请求,通过网关到后台数据库查找,查找到的信息送至TTS文语合成模块,将信息播放给用户。

  对传统声讯服务和互联网信息服务的移植,可以大量利用传统信息资源为电话用户提供强大而实用的语音服务。用户可发布或收听新闻、房产、汽车、电脑、家电、生活用品、求职招聘、征婚启事等信息,查询天气、列车、航班、股票、外汇等生活内容,可在电话中通过说出商家名称,查询到企业产品、地址、电话及服务内容等等,内容包罗万象。

2、个性化娱乐游戏服务
  给用户提供更适合话音通讯(而不是上网浏览)的娱乐服务。只要用户接通相应的电话,系统就可识别用户的语音命令,用户可随时随地进行点歌、下载铃声图片、发送短语、心理测试、运程测算、智力问答、笑话播放等有趣的娱乐游戏,以及交通状况、体育赛况、网友聊天等等个性化的服务,对于青少年和白领人士都非常具有吸引力。

3、语音电话簿
  语音电话簿是一种崭新的电信增值业务,通过电话网络和互联网络,向用户提供随时随地获取、永不丢失的通讯录服务。具体的操作模式是:电信运营商在专门的网络服务器上为每个用户开辟一个数据存储区,存储用户的电话号码簿或者其他个人信息;用户只需拨打指定的特服号,就能直接用语音操作自己的电话簿。

  语音电话簿对运营商和用户均可以提供明显的收益,因此海外许多电信运营商已经向其用户提供该项服务,我国台湾地区的各大移动通信网络运营商都大力推广此项服务,有效地提高了服务的满意度和忠诚度。
  
  对于用户而言,使用语音电话簿可以有以下收益:
  (1) 真正实现随时随地获取通讯录,不再受限于诸如手机、PDA、名片簿等需要携带的物品,不会再因为更换手机或者丢失通讯记录工具等原因给自己带来联系上的损失。
  (2) 通讯录的维护、通话的实现均可以通过语音进行操作,应用方便简单。整个过程均是系统自动响应并且完成,从而免除按键等繁琐的操作。
  (3) 通讯录条目的共享使得联系能够更加紧密,工作协同效率更高。

  对于运营商而言,向用户提供语音电话簿有以下收益:

  (1) 语音电话簿是一项有效语音增值服务,对许多用户有较强的吸引力,从而能够帮助运营商吸引更多用户。
  (2) 一个功能先进的通讯录可以改进用户进行联系的效率,能够提升用户的满意度,从而提高单位用户的贡献度(ARPU)。
  (3) 用户在语音电话簿系统上维护了大量的联系人信息,对提高该用户的忠诚度也很有帮助。

  从系统自身的直接收益分析,可以有以下几类:拨打特服号的通话费、增值业务的月费、适当的广告收入等。

4、与呼叫中心的结合
  为了满足电话用户上语音互联网的需求,语音互联网需要强大的语音接入能力,从这一点来看,语音互联网和电信级呼叫中心结合是CTI及相关技术发展的一个必然趋势,这将给呼叫中心注入新的活力,使呼叫中心功能更加强大,也让用户得到更好的服务。企业和电子商务公司将通过语音门户来发展他们的客户并用最低支出来影响和增加他们公司的收入。语音门户通过门户提供商给企业和电子商务公司很好的机会来出售他们的产品以及他们所承诺的服务,从而可节省公司在广告方面的费用或使用昂贵的呼叫中心来处理业务。

五、得意公司国际先进水平的语音识别技术

1、得意公司的语音识别技术具有以下特点:
  (1) 非特定人:说话人不限年龄、性别、口音,只要基本上是说普通话即可;
  (2) 连续语音:能够识别连续语音。用户可以自然地与得意接线员对话,不需刻意停顿或强调。
  (3) 关键词检出:能够从用户所说的句子中检出其中的关键词如名字和部门等信息从而帮助用户顺利地转接电话。
  (4) 高识别率:对固定电话、手机电话等均能够准确地识别,正确识别率高达99%以上。
  (5) 实时的语音识别:优化设计的识别引擎使得得意接线员能够实时地为用户实现电话接转。
  (6) 与硬件无关:识别引擎不需要引入额外的硬件即可实时处理语音流。与电话卡无关的特性使得用户可以基于任何电话卡构建自己的语音互联网络系统。

2、得意公司设计的语音互联网络系统具有以下优点:
  (1) 系统的灵活性:交互式语音平台提供了流程开发工具,可根据业务需要编写业务流程,以满足用户的需求,其网络系统能支持多种操作系统平台。
  (2) 系统的可维护性:系统运行的各个参数,可根据业务需要及时调整,方便管理。
  (3) 系统的可扩展性:系统具有模块化特点,系统的运营者可方便实现系统的平滑升级,同时也大大地简化了系统的维护管理。
  (4) 优良的性价比:系统能节省过多的人员配备,又能节省运营成本,更可为用户提供低成本的、独特的、二十四小时的自动标准客户服务。

3、系统软件模块设计


  与上述功能结构相对应,系统包含如下的软件模块:

  (1)语音采集处理服务软件:用于采集各路呼入的话音提交给总控服务程序,并将总控程序发回的反馈应答播放到电话信道上;
  (2)总控服务程序:用于接收话音输入,监控各个服务器的状态和负载,动态分配语音识别任务,将特定的应答信息或识别结果反馈给语音采集处理程序;
  (3)关键词检测识别引擎:用于从话音中识别出特定的用户名和呼叫指令;
  (4)应用层软件:安装在数据/通信服务器上,负责与交换机和总控程序进行交互。它根据识别结果向交换机发送电话转接指令(例如DTMF键码)。
  (5)网络通信软件:用于为上述各个软件服务程序提供底层的网络通信支持。

得意音通公司供稿



相关链接:
得意珠三角综合智能信息增值平台项目中标 2009-08-20
北京软件产品质量检测检验中心对《海量语音文件的目标说话人筛选系统》进行测试 2009-06-25
广东政府和清华大学举行了全面开展产学研合作协议签约仪式 2009-06-25
得意中文整句输入法V1.0开源for Windows Mobile5.0 2009-01-23
得意声纹识别VPR4.0_b20080808新版本发布 2008-08-27

分类信息:     技术_语音识别_解决方案