首页   新闻  文摘   行业   产品  技术  厂商  标准  BBS  导航  搜索
呼叫中心 | CRM | 统一通信 | 企业通信 | VoIP | 视像通讯 | 语音应用 | 热点专题
首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品

力促语音技术国际联盟,捷通备战“奥运之声”

奥运之声专栏作家: 古源 2004/12/31

理想,无障碍交流的故事

  捷通人一直有一个理想,那就是如何在人与机器之间,一个人在多种条件下、正常人和伤残人之间实现无障碍的信息交流。奥运机遇使我们更要面对在多语言环境下人们如何进行沟通这一问题。

  这几个"之间"就决定了无障碍交流的几重意义。

  首先,依人所在环境的不同而处理信息的方式不同。当然坐在电脑前是最理想的,此时键盘和显示器无疑最为方便。手机和PDA的出现,小键盘和小屏幕使在办公室里已经熟悉的I/O(输入/输出方式)在移动状态中得以延续。而在手持设备、街头信息亭以及各种公共终端上面,手写笔及其触摸式手写技术又会大显身手。再继续看,人在驾车的时候双眼目视前方,双手握方向盘,眼睛和手都占上了,这时就剩下耳朵和嘴可以利用了,因此语音技术显露了其优势。语音技术的应用还不止于此,语音指纹在安检中的应用,语音识别在速记和替代输入方面的应用,都在使信息处理摆脱笔和键盘方面继续前进。这是从设备和环境方面分析的。捷通公司在键盘汉字输入、写笔板和触摸屏手写、电脑听说、PDA的嵌入式I/O技术及其DSP(信号处理)等诸多产品上拼杀已经有几年了,这些看似没有联系的研发,今天,其实现信息I/O无障碍的战略轮廓已清晰可见。

  次之,全方位的信息处理方式还在实现伤残人享受信息社会的权利方面具有特殊意义。聋哑人要看和写;视力伤残和手臂伤残的人要听和说;再进一步发展到自动服侍设备以及机器人的声音指令处理能力(DSP),这方面的开发才曙光初见,其任重而道远。

  最后,让操各种语言的人可以无障碍的交流,沟通将变得多么方便?众所周知这方面的进展并不理想,世界上的同声翻译们每小时可以领酬几百到几千美金,这个情况足以让CPU发展的摩尔速度显得乏味而无聊。在现阶段实现人们之间的无障碍交流还是不现实的,但是让各国人在异地继续方便使用本国语言总是可以的。捷通的"奥运之声"方案就是立足于此,让各国运动员、记者和旅游者无障碍地使用本国语言。

  一条清晰的脉路:让普通人不受场合和时间的限制;让伤残人克服处理信息时的障碍;让外国人在异国他乡无碍地交流信息;这就是捷通的"无障碍交流"的完整思路,也是捷通的语言技术的长期战略,而对于这个完整方案的划时代催生就是2008年北京奥运会。

  语音合成、语音识别、手写板和触摸屏手写、扫描仪和OCR工程、语音邮件和语音短信、呼叫中心集成和WAP流媒体应用、手机的音频、视频增值开发,捷通公司具有广泛的工程实践。曾经有一位投资机构的经理对于捷通公司涉及技术专题如此之多而表示不解:如此多的领域会使企业的战线过长,而在捷通的创业者们眼里却有一条专注并且清晰的线路,那就是统一信息处理。这个过程既是艰苦的,又是快乐的,来自国家的一个个专项技术的奖项不断鼓舞捷通人的信心。为了无障碍交流的理想,经过艰苦努力一粒粒珍珠已经成串,距离编成王冠的日子不远了。

  水到渠成,科技奥运送东风。在国家863计划、信息产业部、北京市科委的支持下,首信集团领军国内各领域的优秀企业与研究院所,勾画出了一个完整的服务奥运的多语言智能信息服务网络系统蓝图。经过数年的磨练,捷通公司终于抓住奥运机遇,成为科技奥运项目的重要参与力量。

信心,话说奥运之声的四个"Any"

  四个"Any"即Any-Terminal(任何终端设备)、Any-I/O(任何输入输出方式)、Any-Media(任何媒体)和Any-Language(任何语言)。

  不知读者是否注意到,四个"Any"(以后简称"4A")试图从横和纵两方面实现信息无障碍交流的目标。

  横的方面是本国语与外国语;纵的方面是终端、输入/输出方式、通信方式和媒体流。横的意义是实现异种语言交流的无障碍化;纵的意义是使终端设备边缘化、输入/输出方式随意化、固网、公网和无线网之间的通信无缝化,以及文字、话音、视频信息的统一流媒体化。

Any-Terminal(任何终端设备)

  这些终端设备包括个人电脑、笔记本电脑、PDA、手机、车载移动电话及街头信息亭。

  在"Any-Terminal"之中,可以保证人们在各种状态(固定地点和运动状态)利用适当的终端获得信息。

  从通信干线上看,个人电脑、笔记本电脑和街头信息亭的信息来自公网;PDA、手机、车载移动电话的信息来自无线通信网。随着通信线路的宽带化,线路是不成问题的,关键是各种终端上面的页面程序要相对地一致,设备不同,但是在操作上不能让用户感到相差太远。这项任务的工作量相当之大。尽管捷通公司在PDA等嵌入式设备和手机增值的研发上颇有建树,但是在通信技术快速发展的条件下,如何实现低成本、高质量开发仍然面临着巨大的挑战。

  从"奥运之声"角度看,终端及其应用程序将面临更大的考验。外国运动员、记者和旅游者所持的GSM或CDMA手机或PDA,通过漫游方式享用北京本地的无线服务需要支付较昂贵的切换入网费用,即使用户来自发达国家,估计他也会考虑费用问题。或许可以由北京电信运营商提供奥运专用或者短期旅游专用的、号码储值一体的手机SIM卡,旅游者把自己的设备换上这种卡就可以享用本地的奥运信息特服。相信到那时,北京的无线运营商一定会推出这种服务。针对电信在预期的几年内可能的发展,捷通公司确定了关于通信条件与手持设备发展的专门课题,当然包括与国内电信行业的接触和讨论,以求把握奥运时候个人信息终端的技术及其应用水平。

Any-I/O(任何输入输出方式)

  多种输入/输出方式包括语音输入、手写输入和一般的键盘输入;输出除文本外还有语音播送。

  目前手写输入和语音合成都是没有问题的,关键问题是面向公众的语音识别技术是否过关?

  以首信为首的攻坚团队不断寻找技术与应用的突破,捷通公司也希望与国内外同仁一起乘科技奥运的东风,全力攻克这个棘手问题。为此捷通还成立一个专门的小组加强与国内外语音研究单位与企业的合作,认真遴选质量最好的产品作为蓝本来打造奥运的多语种语音平台。

  更大的挑战,这实际是一个面向公众的、跨语种的人机对话的大系统。它将面临服务器的CTI优化设计、数据库的智能检索、应对访问量峰谷值的数学计算等一系列问题,恐怕不是一两家公司可以胜任的,需要采取合纵连横的策略,联合通信技术部门联合攻关。

Any-Media(任何媒体)

  随着通信线路的宽带化,"奥运之声"已经不再仅仅满足于文本和声音的传递,影像传递很可能将成为其中的另一重要角色。

  捷通公司利用自己在手机游戏和WAP增值服务领域的技术经验积累,目前已经成立了手机视频处理的技术专题组,并且和有实力的视频处理技术公司合作,计划在2005年开发出以手机为终端的视频转码程序。首先在目前的GPRS条件下开发30~40Kbit带宽的视频解码技术,待CDMA以致3G技术普及之后,其手机视频处理技术所获得的优势将可想而知。2008北京奥运会的时候到现场看当然最好,如果无法亲临,您的手机将像魔镜一样,让您不会错过每一幕精彩瞬间。

Any-Language(任何语言)

  Any-Language有两重意义。一是指如何让外国人在非母语地区照常用本国文字处理信息。二是如何实现当地语言与本国语言之间的准确译。

  "奥运之声"Any-Language的第一个关键任务是实现多国语言页面的自由切换。

  其第二个任务是如何把汉语或英语的内容数据库,经过机器翻译而镜像成为十几种乃至二十几种其他语言的数据库。

  实现海量信息的多语种同步翻译是继语音识别之后难度最大的技术之一,这对当今国内外机器翻译技术都是一次考验。"奥运之声"将联合国内外机器翻译的实力企业,共同探索机器翻译的首次超大规模应用。

策略,合纵连横共织王冠

  "奥运之声"是现代信息技术的一次集中演练,它包括了语音技术、流媒体技术、CTI技术、智能数据库、机器翻译、人机对话等多项关键技术的复合应用。

  出路在于联合,合纵连横,协同作战。

  在CTI服务器群的集成方面,首信集团当仁不让地成其领军。首信集团自1998年成立以来,已经为打造数字北京完成了多项大的信息工程,在北京2008奥运会信息工程的竞标中,首信集团又再次成为佼佼者。

  以中国科学院自动化所徐波博士领军的语音识别研究团队"中科模识",科学院声学所颜永红博士带队的"中科信利",清华大学邓方博士率领的"得意音通"都在中国中文语音识别领域中占有重要的地位。

  在多语言语音识别、语音合成技术方面有美国 ScanSoft 公司。它是一家全球知名的语音和图像解决方案供应商,特别是其语音识别引擎,在识别率、识别速度、系统稳定性等方面都处于行业领先的地位。伴随语音产业在全球的快速发展,ScanSoft 公司高瞻远瞩,以雄厚的实力、果断的行动在两年之内兼并了 L&H ( Dragon ), SpeechWorks 两家欧洲与美国的实力雄厚的国际知名语音技术公司,并成功收购飞利浦语音实验室,建立了其在国际多语言语音识别、语音合成技术最大的市场份额。

  在机器翻译工程,国内有实力强劲的华建机器翻译有限公司,作为日本移动通信行业的领导者NTT,也非常希望在多语言机器翻译方面加强与中国企业的合作。

  捷通公司旗下捷通华声、捷通华文公司,凭借其多年在语音技术、手写识别、移动增值等市场发展中积累的丰富技术与经验,携手国内外强势企业共同为"奥运之声"的发展贡献力量!

  这是在科技奥运旗帜下的一次国内、国际间的重要合作,是人机交互技术与移动通信技术最全面融合的一次大胆创新,相信"奥运之声"一定会在现代信息处理领域的强强合作中奏鸣。

作者供稿 CTI论坛编辑


发表评论


  ·Dialogic IP呼叫中心及增值业务主题研讨会  [11月27 成都]  
  ·面对严峻经济形势,如何降低联络中心成本  [11月26-28 上海 北京] 
  ·招聘:亿迅(中国) 拓敏信息 易谷网络 盈联信息 商路通 怡海软件

  ·《2008中国呼叫中心产业发展研究报告》    免费下载简本  
  ·最新资料:《企业呼叫中心建设指南》 《企业通信案例及方案大全》
  ·免费索取:《多媒体交换机资料》   技术前沿资料:《IP、无线和视频方案》

  ·鼎晟DS-iTouch联络中心
  ·东进Seegoe Enterprise/Office呼叫中心产品介绍
  ·新太科技企业呼叫中心解决方案

            


企业会员
华瑞中鹏 井星科技 Voxeo
FDS 上海盈联 易宝通讯
加入办法 ->





CTI论坛推荐
·语音合成:InterPhonic 5.5在线演示系统
·东进技术:Seegoe Enterprise/Office呼叫中心
·HXD09可编程智能语音交换机
·鼎晟DS-iTouch联络中心
·新太科技企业呼叫中心解决方案
·上海维卡推出VN系列电话语音卡
·CTstage 5i客户联络中心-适用大规模分散网点
·三友亚星:上海红孩子电话营销和客服系统
   
相关链接
CTI论坛周刊 融合通信专栏
行业案例汇编 免费发布新闻
管理员俱乐部 服务与营销论坛

热 点 专 栏
|业界新闻|论坛文摘|行业应用|产品展示|技术天地|厂商汇总|免责声明|咨询服务|公司简介|联系方法|广告服务|企业会员|

编辑投稿信箱      如何查找厂商联系方法

电话:010-82012787,82079677   传真:010-62041062
呼叫中心建设及运营管理咨询服务:优胜资讯(010)87768798 87768726