首页 > 技术 > 技术文摘 > 合成语音走向商用化

合成语音走向商用化

2001-08-02 00:00:00   作者:   来源:   评论:0 点击:


  7月18日,对于捷通华声来说,是一个特别的日子。在这天,公司发布了最新的、语音质量自然的TTS(文本转语音技术),吸引了CTI和相关应用领域的众多厂商代表。

  在介绍捷通华声的TTS技术之前,公司总经理张连毅先生不止一次谈到当年北京市长热线的建设情况。在当时,系统集成商考虑到市长热线的内容会经常变化,如果采用录音播放,可能在时间紧急时来不及重新录音;如果采用TTS技术,只需改变文本内容,就简单得多了。所以,集成商采用了TTS技术。未曾想,在系统验收时,由于合成语音的质量差被否定,只好连夜找人重新录音。张总说出了长期阻碍TTS技术商用的一个原因,就是合成的语音质量太差,不能为人们所接受。也因为此,捷通华声为自己的新品推出组织了一个大型发布会,因为他们相信公司的TTS合成的语音质量自然、流利。而事实上,会前采用TTS技术播放的新闻,就被不少人误认为是录音播放。


  看到语音技术的前景,众多IT巨头和公司加入市场的逐角。仅仅在汉语识别和合成领域,就聚集了微软、Intel、Motorola、IBM、PHILIPS、松下等公司。而作为一家民营企业,捷通执着地认为,汉语语音技术应该掌握在中国人自己手中,特别是在得知国内某家大型通信公司采用由以色列一家公司开发完成的中文语音合成技术,进行电话查询及声讯业务,而每一条电话线的技术使用费需要1万元/年之后,他更是这样认为。

  捷通为了加强在语音技术方面的研发实力,于去年联合著名语音技术专家吕士楠先生,共同投资创办了专门从事汉语语音技术研究和应用的捷通华声语音公司。由吕先生亲自主持捷通华声语音研发中心,并在TTS技术上不断创新。去年2月,捷通的TTS实现了中英文混读的功能;去年5月,实现语音合成技术在嵌入式操作系统中的移植;今年7月,推出语音质量自然的语音合成系统。


  作为提供语音产品和平台的厂商,捷通主要专注在三个领域:CTI领域、独立软件产品和嵌入式操作系统。由于公司TTS音库大小可调节,可应用于不同的系统。对于CTI等大型应用系统,其语音库约为2G 大小,语音质量较高,而且自然;对于PC应用,语音库压缩为1.5~2M,但语音质量没有太大损伤,为PC个人用户服务;对于嵌入式操作系统以及掌上终端应用,语音库大小为1M。

  捷通TTS在CTI行业中的应用提供四种解决方案:电话智能语音中心、语音服务器方案、本地接口调用、离线合成。

  电话智能语音中心

  提供CTI可视化制作系统,由维护端和监视管理端两部分组成,使用户无需编程,就可完成简单的、计算机电话语音集成功能。该方案适用于简单的CTI应用,如中小企业的咨询服务、统计调查,以及金融、工商、税务、医院等行业。

  TTS语音服务器方案

  直接提供装载有捷通TTS语音服务系统的服务器,与现有的声讯服务相平行,接受其指令和文字数据流,合成产生语音数据流返给原系统,适用于电信、大型企业CTI系统及声讯台改造、升级,如160、168等声讯台、UMS统一信息服务系统、呼叫中心等。


  与其他文语转换系统相比,捷通的TTS技术具有音库压缩特点,从而使TTS技术向嵌入式操作系统的移植(尤其是向PDA上的移植)具备先决条件。同时,捷通TTS技术在大规模真实录音语音库的基础上,增加了音库压缩算法和音色变换算法形成核心技术,音库大小可缩扩,小音库为1MB,适合基于嵌入式操作系统的应用。

  针对嵌入式系统的应用,捷通提供了TTS开发工具包CE版本,提供掌上电脑上的语音合成应用,即语音伴侣CE版本。

  在TTS技术的基础上,捷通将以语音合成技术为核心,逐步发展语音识别、自然语言理解、模式识别等人工智能处理技术。

摘自中国计算机报

相关阅读:

分享到: 收藏

专题