语音合成芯片情况介绍和产品设想
      
2003/05/06
我们这里讨论的语音合成(Speech Synthesis)是指将压缩编码后的语音文件解码还原成原声的技术,至于更高级的如TTS技术等,不在此次讨论范围。目前主要的语音压缩编码技术有ADPCM、LPC、CELP、MELP、SACM等等。
目前在消费性电子产品中应用最广泛的语音合成芯片是Sensory的SC6xx系列,包含601、604、605、614、691等型号,此产品线是从TI收购来的。TI对应的型号是MSP50C601/604/605/614、MSP53C691。其中691其实是一种掩膜后的614,掩膜程序是一个包含了解码算法子程序及其调用接口,因此用户可以不用关心解码算法的细节,用任意的MCU来调用它。因为其易用性,SC691相对用量最大。
因为用的是TI的DSP技术,所以SC6xx从性能上来说,比同类其它芯片要好很多,支持LPC、CELP、MELP等多种格式,最低编码速率达到1Kbps。
在MSP50C6xx之前,TI还推出过MSP50C3x系列芯片,该系列芯片只支持LPC算法,但从音质上来说还是非常好的。我们现在正在以自有品牌推广的JT-10芯片其实就是MSP50C30的改进版。
相对来说,台湾产的芯片价格便宜一些,功能也不错,但不知道是不是因为知识产权的问题,台湾芯片基本上都不采用LPC、CELP、MELP算法。比如Sonix SNC745就采用自己的算法,而Sunplus SPDS107采用SACM算法,所以在相同码率时,音质就要差一些。一般台湾芯片最低码率可以做到2.4K左右。
附表是主要语音合成芯片的特性比较。
  表中所列芯片都是长时间(超过10分钟)、大容量的芯片,主要应用领域是早教机、外语学习机、语音电子书、旅游介绍产品等等。单以早教机而言,据行内人士估计,今年出货量(含出口)将达到100万以上,而且在飞速增长之中,成为第二个"复读机"行业,也不是不可能的事。所以,我们觉得国内的IC公司,瞄准这个行业,应该是大有可为的。
        下面是我推荐的三个芯片规格,供参考。
1、SC-614的兼容芯片。外接存储器用于存放客户应用程序、语音数据,而片内则保留部分固化ROM,内容包括:(1)LPC、CELP、MELP解码例程,供客户应用程序调用,降低编程复杂度;(2)In-System-Program程序,用于从串口接收应用程序代码和语音数据并写入片外存储器(如果片外存储器是Flash的话)。
此芯片特点是成本适中(比全掩膜方式成本高),客户灵活度大,但缺点是SC-6xx指令系统复杂,汇编语言编程不易。
2、SC-691全兼容芯片,或者和第一种合在一起,成为三模式芯片。模式一:下载模式;模式二:主控模式,运行片外存储器中的程序;模式三:从模式,也就是标准SC-691的应用模式,需要外加MCU
  此芯片运行于主控模式时,成本适中,客户灵活度大。如果客户需要快速开发,则可以运行于从模式,虽然系统成本要高一些。
        
        3、做一颗SOC,片上集成高速MCS51核 + SC-691内核。MCS51核要尽可能标准,以充分利用现有的开发平台(C51平台及仿真器)。
  此规格成本要高于主控模式,但要低于MCU+SC691模式。最大的好处在于开发容易。
        当然如果能用自己的高速8051实现LPC、CELP、MELP的算法,那就最好,能做到成本最低、应用速度最快。
  所有的规格都要注意:
        (1)Melody音乐合成功能(所谓的多少多少和弦)必不可少。
        (2)ISP功能很有用。
        (3)小量时外部存储器到大量时的内部掩膜ROM方案的平滑过渡能力很重要。
| 厂商 芯片系列 | Sensory SC-6xx | Sonix SNC745 | Sunplus SPDS107A | JT-10 | 
| 内核 | 16 bit MCU+DSP | 16 bit MCU+DSP | 8bit MCU+16bit DSP | 8bit MCU+16bit DSP | 
| 处理能力 | 12Mips@12.32MHz | 9Mips@18MHz | 12Mips@16Mhz | |
| RAM | 640*16bit | 2K*16bit | 128*8bit | 922*8bit | 
| PROGRAM ROM | 32Kx 17bit | 32K*16bit | 31K*8bit | 32K*16bit | 
| DATA ROM | Upto 288KBt | 960KB | 990KB | Upto 16MB | 
| DAC/PWM | DAC/PDM | DAC/PWM | PWM | PWM | 
| DAC/PWM精度 | 10bit | 10bit | 10bit | |
| 喇叭驱动 | 直接 | 直接 | 直接 | 直接 | 
| 压缩格式 | CX,MX,ADPCM | 自有格式 | SACM | LPC | 
| DataRate | 1.0kbps~11.2kbps | 2kbps/12kbps /24kbps | 2.4kbps~ | 1.2kbps~ | 
| Speech Channels | ? | 2 | 3 | 2 | 
| Melody Channels | 14 | 4 | ||
| 最大回放时间 | 2220S(内部ROM) 外接ROM最大可达18小时 | 3840S | 1650S | 外接ROM最大16小时 | 
| I/O | 16 24 32 64 | 16 | 23 | 32 | 
| 定时器 | 2个17bit定时器 | 3个8bit定时器 | 2个12bit定时器 | |
| 中断 | 15 | 9 | 7 | |
| RTC | 软件RTC | 软件RTC | 软件RTC | |
| Watch Dog | Yes | Yes | No | |
| 时钟源 | 32.768KHz晶振/ 内部RC振荡 | 16MHz晶振/RC振荡 | 20MHz晶振/ 内部RC振荡 | 16MHz晶振 | 
| 工作频率 | 64KHz~12.32MHz | 16MHz | MCU<5M DSP=20M | 16MHz晶振 | 
| 供电电压 | 3V~5.2V | 3.6~5.1V 2.4~3.6V | 2.4V~3.6V | 2.7V~5.5V | 
| 休眠电流 | <10uA | 2.0uA | RTC Stop:2uA RTC with Rosc:3uA RTC with Xtal:100uA | 100uA | 
| 开发工具 | 汇编 C语言 | 汇编,Easy Format | ? | 汇编 | 
| 其它 | 1bit比较器 (可用作电压监测) | |||
| 参考价格 | 15 | 11.2 | ¥11.50 | ¥12 | 
      
深圳捷通供稿 CTI论坛编辑
| 捷通82语音识别模块产品说明书 2003-06-09 | 
| 数字可视复读机方案 2003-04-09 | 
| 语音识别控制电话机方案 2003-04-04 | 
| 智能早教机方案 2003-04-03 | 
| 也谈语音识别技术在玩具领域的低成本应用 2003-01-06 |