科大讯飞语音技术产品ViviVoice2.0_语音应用

科大讯飞语音技术产品ViviVoice2.0

2009/12/02

ViviVoice系列简介

　　ViviVoice提供最丰富的音库，且根据客户需求不断扩展，适应多样化的语音应用业务需要；能够自动准确的进行智能化文本分析和预处理；合成的语音清晰、流畅、自然，使用户获得最佳效果体验；强大的参数设置和调整能力，容易对语音效果进行各种灵活的调节。ViviVoice作为个性化语音服务的全新动力引擎，将为丰富多彩的语音应用增添独特的魅力。

　　丰富音色主导个性化语音服务潮流

　　ViviVoice主导个性化语音服务新潮流，采用业界领先的可训练语音合成技术，能够快速提供适应语音应用需要的丰富语言和多样化音色选择，并秉承科大讯飞语音技术一贯的最高质量效果表现，为用户提供个性化语音服务体验。

　　在ViviVoice 产品中，提供了以下音库：
　　　　　　　　　　　

编号	名称	音色	语言
1	Xiao Yan 小妍	青年女声	普通话
2	Xiao Feng 小峰	青年男声	普通话
3	Xiao Qin 小芹	青年女声	普通话
4	Xiao Jia 小佳	少年女声	普通话
5	Xiao Chang 小畅	青年女声	普通话
6	Nan Nan 楠楠	儿童女声	普通话
7	Lao Sun 老孙	老年男声	普通话
8	Xiao Rong 小蓉	青年女声	四川话
9	Xiao Yun 小芸	青年女声	东北话
10	XiaoYing 小莹	青年女声	陕西话
11	Xiao Qiang 小强	青年男声	湖南话
12	Xiao Kun 小坤	青年男声	河南话
13	Xiao Li 小莉	青年女声	台湾普通话
14	Xiao Mei 小梅	青年女声	粤语
15	Terry		纯英文

　　　
　　由于ViviVoice采用最先进的中文文本、韵律分析算法和基于训练的参数合成方法，合成效果可达真人朗读的水平，并且构建一个高质量音库的周期相比以往可大幅度缩短，这就使得科大讯飞能够更加快速的响应个性化语音应用的新需求，不断提供更多更好的音库。如需获得ViviVoice当前支持的最新音库列表，请访问科大讯飞网站。

　　ViviVoice提供丰富多样、效果自然的音库，在实际应用中，可根据业务需要灵活进行实时音库切换。

　　高表现力的合成引擎

　　ViviVoice语音合成软件支持疑问和感叹语气，支持高兴和悲伤情感，充分体现产品的个性化和娱乐功能的特点，给您带来不同的听觉感受。

　　高准确度的智能文本分析与预处理

　　ViviVoice语音合成软件具有高准确度智能文本分析与预处理技术，有效保障最终合成语音准确、清晰、流畅。得益于科大讯飞在语言学研究和实践上的深厚积累，通过与中国社会科学院语言所等相关权威科研机构的紧密合作，以及基于宽广的应用实践平台所积累的海量专业知识库，经过不断训练和优化，即使在面对针对语言分析处理的难点，如多音字、特殊符号、韵律短语、未登录词（如地名、人名）等等，也能保障得到高度准确的自动处理结果。

　　流畅的效果与强大的音效调整能力

　　采用参数合成的方法，使ViviVoice产品可以非常方便的对各项影响合成效果的参数进行控制，能够更好的消除传统语音拼接方式的顿挫等不连贯现象，合成语音更加流畅、自然。针对主流应用环境的普遍需求，科大讯飞广泛收集实际应用的语料，并用特定的模型对数字数值、短语短句等进行优化，从而使得合成更加清晰、准确、饱满、节奏感更强。在保证高质量语音合成效果的前提，能够对音量、音高、语速等众多参数进行调节，配合丰富的特色音效，使语音服务更加生动活泼，充满趣味。

　　全面完善的功能特性
　　

合理的体系架构，满足高稳定性应用要求

　　ViviVoice采用基于TCP/IP的高效网络语音合成服务和集中式的资源管理机制，形成客户端－资源管理器-服务器有机结合的体系架构，构建可灵活伸缩的方案，科大讯飞这一业界领先的体系架构，其高可用性历经众多重点行业大规模关键业务的应用检验，确保提供值得信赖的7×24小时不间断自动化语音服务。
　　

丰富的参数设置与调节功能，适应各种复杂应用环境

　　在ViviVoice产品中提供了丰富完善的参数设置与调节功能和工具，帮助用户对语音合成效果进行灵活高效的控制与管理。提供对全局参数（如音量、语速、音高等）、用户词典、用户规则、定制资源包统一进行配置和管理的工具；数字、标点符号、英文发音方式的设定；中英文加词功能，可以指定每个字词的拼音或音标等等；提供统一的简单易用图形化用户界面进行操作设定，并可通过API参数进行动态设置和调整，还支持以CSSML（中文语音合成标记语言）进行标记、描述和控制。
　　

灵活高效的开发接口，加速集成与应用发布进程

　　ViviVoice DK针对不同开发工具，不同集成要求和方案，提供多种形式的开发接口，包括：标准开发接口（动态链接库DLL），Quick TTS接口、COM组件、Microsoft SAPI开发接口和Java开发接口，新增了预录音背景音开发接口，开发者可以根据实际需要灵活选择。提供了丰富的开发例程和文档，帮助加速语音应用开发过程。
　　

高效便捷的增强工具集

　　科大讯飞在长期集成开发和应用实践的支持过程中，总结了客户使用语音合成的方式和应用的特点，逐步开发了一系列便于用户在不同环境中合理运用语音合成功能的工具。ViviVoice的增强工具集套件包括了各种使用便捷的高效组件，如离线语音应用工具、CSSML可视化编辑工具、DOC/XLS文本格式转换工具等等。用户通过使用这些工具可以简化开发工作、优化合成效果、方便系统维护和技术支持。
　　

全面的字符集、语音数据格式支持

　　全面支持GB2312、GBK、BIG5、GB18030、UTF-8和UNICODE编码字符集，自动识别UNICODE文本；支持直接输出多种采样率的语音数据格式（包括6K/8K/11K/16K）的线性Wav、A/U率Wav和Vox等多种格式的语音数据。
　　

桌面应用级的系统尺寸

　　高质量的语音合成效果，加上超小的系统尺寸，降低了资源占用，进一步降低特殊需求及桌面应用门槛，更加符合各类语音应用业务的需要。
　　

平台支持

　　科大讯飞的语音合成软件具有最全面的平台支持。几乎所有主流的交互式语音应答（IVR）平台都支持科大讯飞的语音合成产品。如需了解进一步信息，请与IVR提供商或科大讯飞联系。ViViVoice支持主流的操作系统。在各种应用环境下都很容易找到可供客户借鉴的成功实施案例。

　　细致周到的优化方案
　　

优化定制，高效的应用效果方案

　　提供以定制资源包（加载于合成引擎之上，有效提升既定应用领域语音效果的资源集合）和CSSML和虚拟不定长工具为代表的主流应用环境进行效果优化的高效解决方案，显著提升实际应用效果。科大讯飞专业服务体系提供高效的定制与优化方案，提升客户体验，帮助客户获得语音自助服务的持续成功。
　　

CSSML，效果提升更自如

　　CSSML（Chinese Speech Synthesis Markup Language，中文语音合成标记语言）是由科大讯飞提出并牵头制订的中文语音数据描述规范。该标准得到了国家863专家组、国家信标委和国家技术监督局的大力关注与支持，2005年正式通过国家标准化组织的评审，成为中文语音合成技术标准与规范的重要内容。CSSML针对中文语音应用设计和扩展，可以对多种特性进行灵活标注与控制，并与开放式的标准SSML兼容。
　　

预录语音，衔接流畅应用简便

　　ViviVoice采用了科大讯飞业界首创的预录音统一管理功能，将预录音作为语音合成系统的资源，并通过提示音智能匹配和合成模板等方式使预录音与合成音匹配更加容易、衔接更加流畅，同时避免频繁处理提示音播放与语音合成的切换与过渡问题，简化应用流程的复杂程度，进一步提高服务效果与质量。
　　

背景音乐，快捷提升用户体检

　　ViviVoice采用了科大讯飞业界首创的背景音功能，通过系统提供的简单易用工具，可以便捷高效的添加背景音乐，调整背景音乐和合成语音的音量对比，并可直接试听实际效果，使语音服务更加亲切自然。
　　

特色音效，创造更多娱乐色彩

　　ViviVoice采用了科大讯飞业界首创的特色音效功能，系统在合成语音的同时可以加入诸如回升、混响、金属声等各具特色的发音效果，非常适合用来制作一些科幻、娱乐、搞笑的声音效果，可以带给用户带来全新的体验。

CTI论坛编辑