首页>>厂商>>语音识别与合成>>科大讯飞

语音合成芯片探析

2009/07/31

  语音合成芯片就是将完整的语音合成系统固化集成到芯片内部,通过简单的接口接收待合成的文本信息,将文本合成为清晰流畅的语音输出,完成机器代替人说话传达信息的过程,语音芯片应用简单,开发和使用成本低,在车载调度、气象预警、公交报站等领域被广泛应用。

  语音合成芯片最大的功能应用点在于用户需要播报一些大量、动态文本信息时,可以即时、方便的将文本信息内容合成为语音输出,从而解决传统录音芯片无法解决的大容量、动态文本信息播报问题。

  目前,市场上语音合成芯片价位从几十元到几百元的都有,另外芯片外形、产品封装形式、调用接口等纷繁复杂,让用户在选择语音合成芯片时经常陷入迷惑状态。那么如何正确分辨、选用一款高性能语音合成芯片?语音合成芯片重点需要考核哪些性能指标?以下参数将成为用户重点评估方向:

1、语音合成效果。

  语音合成芯片的应用目的是以语言的方式传达文本信息,机器说话是否标准,人能否听懂听舒服自然成为最最重要的衡量指标。语音芯片的朗读效果主要由两个重要技术指标决定:可懂度和自然度。可懂度就是人们能够听懂机器合成出来的内容,是语音合成芯片能否应用的基本要求;自然度则是机器发音效果是否易于理解,听着舒服,与正常人说话的差距。国家863专家组对语音合成效果的自然度综合评测有详细说明,规定采用5分制打分,达到可接受阶段为3.0分,普通人说话水平为4.0分,播音员的水平为5.0分。可懂度是衡量语音合成产品是否可用的标准,自然度则是评价产品是否可以大规模应用,以及应用于高端领域的重要指标。

2、能否识别常见的特殊格式文本。

  为了满足不同文本的合成需求,语音合成芯片除了能够自动识别常见文本内容外,在一些特殊格式文本方面,如时间、日期、网站名称等格式的文本,也要能够智能判读。“12:10:35”读成“十二点十分三十五秒”,“2008-1-13”读成“二零零八年一月十三号”,“http://www.abc.com”读成“h-t-t-p w-w-w点a-b-c点c–o- m”。

3、能否识别常见的特殊符号、单位符号。

  对于一些特殊符号及单位符号等,语音合成芯片也需要能够正确识别并合成出来,如:“-2℃”读成“零下2摄氏度”,其他的30%,a&b,¥80,20㎝,75㎏,90㎡等都能够人们按照阅读习惯进行读出。

4、能否判读常见多音字。

  多音字作为汉字中常见的发音重点和难点,是各家语音公司关注的焦点,特别是中文语音合成芯片,在这方面更需要优异的表现。如:音乐,银行,特长,即将,股市行情,调整,校正,灾难,没收,长三角,西藏,济南,重庆,成都等等,多音字能否正确判读直接影响合成信息的可懂度,信息受众者的理解,所以必须准确朗读。

5、能否支持多种汉字编码支持。

  多种汉字编码支持目前也已成为考核语音合成芯片性能的重点,这点在方便终端用户使用方面以及支持汉字识别范围方面均非常重要。目前常用的汉字编码格式有GB2312, Unicode,GBK,BIG5等。

6、能否支持数字的读法。

  生活离不开数字,数字串的正确识别合成输出,在众多应用领域成为普遍性关注点,合成文本中会经常出现类似如:“请拨打12345”、“电话:12345”“热线:12345” “我的号码:12345”等内容,一款高性能语音合成芯片能够智能判断把数字串读成数值、还是号码。如“12345”会自动按照号码的读成“一二三四五”。“139-11661189”自动按照号码读成“幺三九幺幺六六幺幺八九”。而“12345公斤”会自动读成“一万二千三百四十五公斤”, “345678个”会读成“三十四万五千六百七十八个”等等。

7、能否支持合成参数设置。

  参数合成设置主要是为了方便使用语音芯片进行二次开发的用户来进行设置、调试、修正文本合成效果。语音合成芯片应该能够支持多种标记功能,可以按照需要进行标记。使用多种标记进行设置更为直观方便、易维护。例如:设置音量,只要使用合成命令帧发送[v9],就可把音量设置9级音量。

8、用户使用接口简单、易用。

  以上是从语音合成芯片效果及语音合成芯片内核等方面来评估语音合成芯片的性能,其实,在实际选用一款好的语音合成芯片的时候,用户还需要注意芯片硬件方面的参数,如:是否单芯片,体积大小,能够大批量贴片焊接生产?以及功耗,工作温度等等方面。

科大讯飞语音合成技术及语音合成芯片简介:

  科大讯飞是一家专业从事智能语音及语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的国家级骨干软件企业,是我国众多软件企业中为数极少掌握核心技术并拥有自主知识产权的企业之一,其智能语音核心技术代表了世界的最高水平。

  讯飞嵌入式语音合成技术采用基于HMM的参数语音合成方法,在保证合成语音清晰流畅的同时,充分降低合成系统的存储与运算资源消耗,以满足嵌入式设备上的资源受限环境。

  基于科大讯飞世界领先的中文语音合成技术,讯飞嵌入式语音合成芯片自2001年起陆续推出了XF1M01、XF-1M02、XF-2S01E、XF-S3111、XF-S3231、XF-S3011、XF-S4240、XF-S4040、XFS3031CN、XFS4041CN共10款产品,并已经在车载GPS调度终端、气象预警机、考勤机、信息机、智能玩具、智能仪表等领域大规模普及应用。

  目前,科大讯飞针对普通、中端、高端市场需求推了XFS3031CNXFS4041CNXF-S4240三款语音合成芯片,三款芯片性能均非常突出卓越,其差异性主要体现在合成效果指标中自然度上,按照国家863专家组5分制标准来评分,其综合评分分别为3.01分、3.63分和3.76分,也就是说三者语音合成效果相比较,XFS3031CN一般,XFS4041CN居中,XF-S4240最好。

  另外,三款语音芯片均通过了车载、电力、气象等众多行业相关要求的专业认证和测试标准,并已在多个客户产品中成功集成上市,语音芯片的详细功能特性,有兴趣的朋友可以登陆科大讯飞网站(www.iflytek.com)下载详查或来电来函索要。联系方式如下:

北京分公司:
电话:010-58301005转8009
深圳办事处:
电话:0755-83073410
上海办事处:
电话:021-58318011

CTI论坛报道



相关链接:
安徽省语音产业发展座谈会胜利举行 2009-07-29
讯飞语音助力安徽评标专家库客服系统 2009-07-14
电视读报:为用户打造专属读报人 2009-07-08
科大讯飞推出语音合成芯片XFS3031CN 2009-07-07
嵌入式语音技术应用将实现爆发式增长 2009-07-02