首页>>>技术>>>语音应用>>>语音合成(TTS)  语音合成产品

 

语音为CTI注新活力

段云峰、盛志健


  语音应用(VAP)技术指基于语音进行处理的技术,包括语音识别技术和语音合成技术等。语音应用技术(以下简称VAP技术)反映了对语音信号进行处理的能力,其发展的程度,将影响计算机通过语音与人类进行交互的能力,并将影响计算机应用的领域。

  下面将就VAP技术与CTI技术的结合进行有关的介绍。


  四大变化


  我们知道,目前世界范围内最大的通信网络仍然是电话网络。不管将来数据网络技术如何发展,人与人之间最方便的交流方式还是语音交流。毕竟对于很多人来说,熟练地操作键盘并不是容易的事情。

  对于CTI技术也是一样。CTI技术的优势,在于将传统的电话语音网络发展成为用户获得各种信息的接入手段,而通过VAP技术可以极大地加强这种接入手段的能力。例如,通过VAP技术,用户可以在旅行的过程中,通过电话“听”取自己电子邮件的内容,并通过语音留言回复有关的邮件,而不必携带笨重的计算机。

  CTI技术的核心是有个庞大的信息库,通过CTI技术完成与用户的交互功能。而采用了VAP技术后,用户就可以通过语音,直接对这个信息库进行24小时的访问,并十分容易地获得各种个性化服务,这无疑将会对CTI技术产生革命性的影响。

  1.接入手段的提升

  通过VAP技术,我们可以直接用语音进行有关的交互工作。其优势表现在如下几个方面。

  第一,效率提高了。例如,目前在听完了大段的语音提示选单后,我们还要不断地停下来,按动电话上有限的数字按键,进行相应的选择,然后继续听下一段的语音提示。

  在使用了VAP技术后,我们可以像与服务员一样,采用语音的方式,连续地听语音选单,并直接通过语音“说”出相关的选择,避免了连续按键的过程。

  第二,交互的界面更加丰富了。我们知道,传统的电话仅能通过DTMF信号,传送有限的几个数字及符号按键,这使得与用户的交互界面常常受到限制,而VAP技术则采用了语音识别的方式,其交互的界面几乎不受限制,极大地扩展了交互的能力。

  第三,信息终端的小型化。在目前,信息终端普遍是计算机,体积大而不便携带。采用VAP技术以后,电话将成为有效的信息终端。用户在马路边的公共电话亭,就可以方便地获得信息,将产生出许多崭新的应用。

  2.开辟语音服务的广阔市场

  将VAP技术与CTI技术相结合,将产生许多新的业务应用。这些应用不仅可以强化CTI传统的一些应用,如语音自动应答业务等,而且能够发展出许多崭新的业务应用,既丰富了为用户服务的形式,也给运营商带来巨大的利润。具体的例子详见本文下面的应用举例。

  3.与移动通信技术的结合,促进个人化信息终端的发展

  目前的移动通信技术,可以使用户在语音通信方面具有移动性。与VAP技术结合后,用户可以方便地在移动中,通过语音获得各种信息。

  这可以在某种程度上,分担WAP技术中显示屏幕过小所带来的信息访问的不便。例如,可以通过WAP进行有关文字方面的检索,然后将大段的信息通过语音拼读以语音的形式通知用户。

  4.促进自动信息服务的发展

  在传统的IVR系统中,只能事先录好各种提示音,既占用了大量的存储资源,又很难灵活应对用户的交互需求。采用VAP技术以后,事先可以不用录制提示音,信息仍以数字化方式存在,通过语音合成技术将信息“读”给用户听。这样,IVR还可以担负有关的信息检索的功能。例如,通过有关的搜索引擎,可以直接在互联网上检索信息,并将结果“读”给用户。

  由于这种技术是24小时不间断的,而且服务的内容完全可以依据海量的信息库自动进行,因此将完全改变现有IVR系统的形式和内容。


  四大新应用


  下面列举一些VAP技术与CTI技术结合后的应用例子。

  1. 电子邮件语音识别

  采用VAP技术后,用户可以直接通过拨打一个电话,而“听”自己的新邮件内容,并通过电话直接进行语音回复。在拨通号码的时候,系统首先进行有关的用户身份鉴别,然后检查邮箱。如果有新的电子邮件到达,将通过语音合成技术,将邮件的题目和发信人直接“读”给用户听,然后通过语音识别技术判断用户的选择,如果用户想知道邮件的内容,则继续通过语音合成技术,将邮件的内容读给用户听。当用户需要进行立刻回复时,系统将自动录取用户的回复内容,并将该录音文件通过电子邮件系统回复给发信人。

  如果用户想发新的邮件,可以通过语音识别技术,告诉系统收信人地址,然后将该邮件直接发给收信人。如果“语音”邮件不方便阅读,则可以通过语音识别技术将用户的语音信息转成文字信息,然后传给有关的阅信人。

  2. 虚拟主持人

  通过语音合成技术,目前已经出现了虚拟主持人主持的新闻节目。用户在互联网上有关站点检索到自己感兴趣的内容后,屏幕上将显示一个虚拟的主持人形象(一般是通过动画技术来显示),这位主持人将根据信息的内容,自动地通过语音合成技术将这些信息播放给用户,同时嘴唇做相应的动作,就像新闻播音员直接进行报道一样。这种虚拟主持人技术,可以提供24小时的全天候报道,报道的内容根据用户选择的内容决定。

  这种虚拟的主持人技术,可以应用到新闻、娱乐等不同的领域,如果与电视应用结合,还会产生出更多的应用内容。

  3. 声纹密码识别

  目前,我们的身份识别可以采用指纹、照片等方式进行。另一方面,每个人的声音也包含了其自身的特点,如果将其作为身份鉴别的一种依据,就要考虑声纹密码识别技术。

  能够通过声纹识别技术,可以完全确定一个人的身份,就可以极大地加强在语音方面的应用领域。例如,在现有的电话系统中,如果没有专用的端加密设备,通过DTMF信号输入身份密码,很容易就可能被别人窃取。而如果是通过声纹鉴别技术,可十分安全地保证系统的可靠性,同时别人无法模仿,即使窃取了也没有用处。这样,将来就可以很容易地进行有关的电话银行业务的处理。通过电话,用户就可以进行各种银行业务,远远超出今天电话银行所能够提供的业务内容。

  另一方面,在CTI应用中,传统的“Screen Pop”功能,仅能够通过用户的主叫号码进行用户身份的自动识别,而电话号码并不能唯一地确定用户的身份。通过声纹识别技术,可以唯一地确定用户的身份,因此能更加快捷地为用户提供“个性化”服务。

  同时,在电话订购商品方面,也将有极大的推动作用。厂家可以根据有关的声纹识别技术,判断这些信息的可信度如何,并据此决定是否送货等,由此可以大大地提高电话订购商品的效率,推动“电话商务”的发展。

  4. 语音浏览互联网

  目前,互联网是世界上最大的信息库,而通过计算机进行信息检索,对移动用户等十分地不便。如果通过电话网络,就可以在互联网上进行信息检索,无疑具有十分诱人的前景。通过语音合成技术,可以将检索到的信息以简单的形式播放给用户听,然后用户可选择是否听详细的内容。

  以上仅列举了一些应用的内容。因为CTI技术代表的是与电话网络的接口,而VAP技术则代表了通过语音技术进行信息处理的能力。因此,两者的结合,能够产生出更多的、目前无法预料的业务应用。


  影响力还会更深


  目前的VAP技术,还存在许多的技术难点。英语方面研究较多,也比较成熟,有些方面已经可以进行商用。但在汉语方面,还有很多的工作要做。另一方面,由于VAP技术还比较新,因此在CTI产业中还没有形成影响力,缺乏一支相应的产业化队伍进行推动。

  为此,应加大在两者相互结合方面的研究工作。同时,结合一些已经可以商用的VAP技术,寻找可以商用的应用业务,为用户带来真正的实惠。

  在VAP技术与CTI技术结合方面,还要做大量的宣传工作,吸引两方面企业联合,共同开拓有关的市场。

赛迪网》2000/09/28


分类信息:  语音合成TTS_与_语音识别ASR     文摘   cti文摘   呼叫中心文摘   技术_语音合成_文摘
           技术_语音识别_文摘