首页 > 技术 > 技术文摘 > 关于制定中国移动互联网语音应用协议标准的建议

关于制定中国移动互联网语音应用协议标准的建议

2001-03-11 00:00:00   作者:   来源:   评论:0 点击:


 

一 引言

以互联网为代表的信息产业为中国带来了巨大的机会和挑战,中国社会开始进入一个以信息为核心的时代。如何快速准确地获取所关心的信息,对人们的日常工作和生活已经具有越来越重要的影响。

计算机作为互联网络的一种重要信息终端,是目前人们从互联网上获取信息的主要工具。然而,在计算机普及率、互联网普及率以及教育程度相对较低的中国,使用计算机上网,获取信息和进行通讯对于广大百姓来说,还是一个神秘的期望。

至今为止,Internet 的访问模式逐渐从单一的PC访问方式向多种用户终端发展 ,出现了移动电话、PDA、机顶盒等。

如何解决信息产业化和社会发展水平之间的矛盾,依据中国具体国情,尽可能的实现信息技术的普及,促进中国信息社会进步的发展,使信息技术这样的高科技轻松的进入中国大多数百姓家,在中国具有巨大的市场前景和社会效益。

而近年来语音技术的飞速发展和不断成熟,以及中文语音应用技术的突破,为信息网络带来了一种极具诱惑的信息终端-----电话。

电话是中国百姓最为熟悉的通信工具,中国电话的普及率为全球第二,相对现今不到1000万的互联网电脑终端用户来说,高达2亿的电话用户具有更为重要的意义。而语音应用技术,为中国百姓建立了一条轻松通达信息时代的高速公路,将信息科技以最为亲切的方式带到了人们身边。

二 为何选择语音应用技术

语音应用技术,是连接互联网的与电话用户的纽带,其使普通电话、手机等成为五花八门的网络终端之一,并最大的扩展了互联网用户。

2.1.语音与计算机

语音,是人类最为熟悉的交流方式。人有70%的信息获取是通过听,而90%的信息表达是通过说。语音是人们询问问题,交换观念、分享经验和建立关系的最主要方式,人类通过语音传达着大量的信息。

长期以来,人与计算机的交互主要是通过键盘、鼠标和屏幕。虽然随着图形用户界面(GUI)的日臻完善、各种输入法的不断出现和成熟,以及手写输入的应用使人与计算机的交换越来越简单方便,但追求完美和卓越的网络时代,人们也愈加强烈地渴求一种更方便更自然的人机界面。而语音必然成为人们最为熟悉和轻松的人机交互方式。

2.2.语音技术

作为智能计算机研究的主导方向和人机通信的关键技术,语音技术对计算机发展和社会生活的重要性日益凸现出来。作为语音技术中最主要的两大技术:语音识别技术(ASR)和语音合成技术(TTS),随着近年来人们在数学算法和声学模型取得的突破和飞速提高,语音识别和语音合成技术以及自然语言处理技术的成熟,使电脑能“说”,能“听”,使人与机器的交流能象人与人之间对话一样轻松和自然。

正如当初图形用户界面(GUI)改变了个人电脑一样,以语音技术为核心的语音用户界面(VUI)正在改变着电脑和电话系统,以及各种智能设备。

2.3.语音应用技术

语音应用技术(Voice Application Technology ),是指人们可以使用有线电话或移动电话,以及PC、PDA和其它智能设备通过语音识别、语音合成的交互技术,以及语音浏览、智能信息处理技术等实现人们访问互联网络,以及实现个人服务和商业服务的应用技术。

语音应用技术,是语音技术(ASR和TTS TT)、语音浏览技术、智能文字信息处理技术等技术的集合,其形成一个完整的技术应用规范体系,建立于已有相关技术协议标准上,着重于应用开发。

语音应用技术是跨接以语音为核心的电话网络和以数据为核心的互联网络的一座桥梁,使有线电话和移动电话成为互联网络信息终端,为人们以自然语言交互的方式来遨游信息信息打开了一扇自由的大门。语音应用技术覆盖语音识别、语音合成、语音浏览、语音集成、语音交互、Web服务等技术领域,可以轻松介入现有的网络信息系统,集成现有的各类信息处理技术,如Web 、WAP、GPRS等等。

2.4.语音应用技术的优势

为何语音应用技术对于互联网络,对于信息技术如此重要?首先,是因为电话的重要性。电话在的全球发达地区几乎无所不在,时刻出现在人们身边。电话的数量远远大于电脑的数量,更远大于连接了互联网的电脑数量。尤其是在中国,电话相对电脑在更大程度上更是人们生活中最平常的设备。

随着移动电话越来越小,越来越轻,越来越便宜,以及移动电话电池使用时间越来越长,其所具备的便携性远胜于电脑。而伴随移动通信技术的飞速发展,他们更具备了电脑不具备的优势,比如全球定位。你甚至可以在开车时方便的使用移动电话。

语音对于电话具有同样的重要性,语音是电话的生命,是电信网络的数据血液。虽然在移动电话中出现了WAP这样很有用的技术,使移动电话可以作为网络终端,但WAP手机的屏幕太小而具有很大的局限性,在手机键盘上进行输入也相当麻烦。虽然I-Mode系统正引人关注,但它同样具有类似问题。

语音具有其独特的优势,而且语音比键盘和阅读更具亲切感。当然,图象和文字依然很重要,我们相信,我们不久就可以见到“多模式”的设备,可以图象和文字的方式进行,或以语音的方式进行,甚至可以混合语音和图象。而这正是语音应用技术带来的美好情景。

同样,语音对于Internet也一样重要。首先,基于语音浏览技术的语音应用系统的开发很容易,应用应用技术可以轻松建立丰富的、廉价的和高效的Web应用,以及开发工具。其次,语音应用系统很容易发布,不再需要建立一个指定的专用的语音服务器,基于语音浏览机制的语音应用可以放在Internet 上的任意一个地方,而用户通过电话,可以象使用IE这样的浏览器一样进行查询、书签以及链接等其他Web的浏览方式。

而基于现有Web技术的语音Web服务技术,具有现有Web技术的同样优势,可以进行安全交易、下载信息、收听mp3等服务。且更为快捷和自然。

语音自然交互更具有其它信息终端不具备的优势,利用自然语音交互技术,用户不再需要一项一项的填写Web的Form表单,不再需要痛苦的在小小的手机键盘上换着数字输入名字和E-mail地址。基于关键字捕捉和自然语言处理技术,用户可以轻松的说一句:“我是注册用户 张三,请帮我查 深发展A 现在的股价,发个短消息给我。”一切轻松自然。

2.5.语音应用技术和移动互联网络

Internet和移动通信,作为迈向信息社会的两个重要标志分别对应着对大量信息资源的有效访问和随处漫游的个人通信。如何结合它们的技术优势,在不受信息源的限制和用户访问时位置限制的同时,以统一的标准向用户提供无处不在的信息网络服务,已成为网络界和电信界共同关注的一个焦点问题。

现在出现的WAP、GPRS、Mobile IP、Mobile IP Phone等等技术,使移动互联网带来了全新的概念。而应用正是启动移动互联产业链的引擎,是连接移动互联与最终用户的纽带。而多种信息终端设备的出现和应用以及多种数据通信技术的发展和应用促进了移动互联业务的普及与推广,缩短了移动互联与最终用户之间的距离,在个人定位、个人信用、人性化服务等方面开辟了新的发展空间。

语音应用技术相比较WAP、GPRS等其它技术,则更有利于移动互联网的普及和发展,体现了移动互联网络的特性。语音应用技术可以介入移动互联网络几乎所有的信息终端,其基于语音服务器和语音网关的体系结构模型使得移动新业务服务的开发和发布轻松而简单,将原来基于Web的服务带到了电话用户和移动用户面前。

三 制定中国语音应用协议标准的建议

语音应用技术在中国,有着广阔的前景和市场,对中国移动互联产业的建设和发展,促进中国社会信息化,普及信息技术应用有着重要的意义。

我们建议,制定我国有关于语音应用技术的标准协议,以促进中国语音应用技术的发展,普及中国信息技术应用,加速移动互联和网络信息服务的产业化。做为中国汉语语音应用技术的先行者和探索者,我们根据中国国情和汉语语音应用的特点,参考国际行业技术规范和标准,综合我们在长期的探索中的经验,提出语音应用协议的规范建议。

3.1.定义

语音应用协议(Voice Application Protocol ),是在互联网络和通信网络(有线电话网络和无线通信网络)基于语音技术开发应用和服务,以及相关设备的工业技术规范。语音应用协议(VAP VA)制定了语音应用的架构和网络协议,详细说明语音终端设备(如电话、手机、内嵌语音浏览器的智能设备、PC等)与网络的通信协议和技术规范。该协议扩展和协调了通信网络技术(如移动网络数字通信标准和Internet技术(如XML、Web以及多种的信息内容格式等)。该协议可以帮助移动互联网络的运营商、设备厂商、应用开发商等建立基于语音方式的灵活、快捷、高效的服务。

3.2.动机

语音应用协议(VAP VA)定位于通信网络和Internet的聚觉点,制定以语音的方式提供两者通讯和为庞大的电话用户和飞速发展的互联网络用户提供快捷、方便、自然的语音应用服务。

语音应用的特征是以非形象的信息方式-----声音为信息表征,其终端设备局限于电话和手机等简单输入设备。可以利用的人机对话工具只有话筒、听筒、数字键盘,以及手机屏幕。由于人对语音信息较快的反应能力和弱的记忆力,决定了语音应用的信息呈现方式必须简短和简单。

利用语音应用协议的相关技术,可以提供给客户方便、轻松、自然的对话式的用户界面,为简易终端(电话、手机)的用户提供Internet上的信息和服务,以及语音电子商务和个性化电信服务等等。

使用简易的语音终端设备,可以实现例如以下的语音应用:

  • 信息服务应用 在这样的服务中,输出的语音以预先录制的语音为主(如提示音、音乐等),以语音合成技术合成动态的信息(如股票行情、E-mail内容等)。而输入方式以语音识别的导航指令和有限的语音识别数据输入为主。信息服务应用可以提供新闻、体育、交通、天气和股票行情等等这样的专门信息。
  • 电子商务应用 象以目录分类的订购应用可以很好的用语音应用实现,这是因为语音可以自由在各级目录中直接跳跃,而不需象在IE浏览器中那样必须一级级的操作。当语音电子商务也有一定的限制,这是因为语音所能传载的信息量要小,而且无法象图象那样进行形象的商品描述。
  • 客户服务应用 如包裹跟踪、帐户查询、呼叫中心等。这类服务可以较好的用语音方式实现。用户只需要很简短的说出必要的信息,或配合电话上的数字键盘即可以轻松完成。而需要反馈给用户的信息简单扼要,并且可以以短消息、E-Mail等形式并列发送。
  • 电话服务应用 如个人电话拨号、电话会议、声讯服务以及企业的语音界面(如公司或组织可以将自己的电话号码簿形成语音应用,客户可以使用它进行语音拨号)等等。
  • 其他丰富的语音应用

3.3.需求

根据语音应用技术的特性和应用,语音应用协议(VAP)的需求如下:

  • 尽可能的协调现有的技术标准和规范协议
  • 定义一个分层的、可扩展的兼容性的体系结构
  • 尽可能支持现有的网络和设备
  • 优化简单设备的信息传载方式
  • 兼容现有的其它应用协议(如WAP、GPRS GPR等)
  • 提供安全的语音应用、商务和通信机制
  • 提供简单、容易的应用开发机制
  • 优化语音与智能设备的结合
  • 为信息服务和集成提供可编程模型

3.4.体系结构

语音应用协议的体系结构类似于WWW的体系结构和WAP的体系结构,图一是WWW的体系结构:

而下图(图二)是WAP的体系结构模型:

类似的,我们可以看到语音应用协议(VAP)的体系机构模型如下:

语音应用协议(VAP VA)定义了终端-- 网关-- 服务器的体系结构。语音服务器(Voice Server )是语音应用的服务器,其包含语音应用和数据、内容;与WAP体系结构不同的是,语音网关(Voice Gateway) 做为终端和语音应用服务器的桥梁,作为语音应用协议中的重要部分:语音浏览器(Voice Browser)建于语音网关(Voice Gateway)内,而不象WAP协议中,micro browser 建于终端中。这是因为语音终端过于简单以及语音数据可以通过电信网络轻松与语音网关(Voice Gateway)交互。

语音应用协议(VAP)定义了:

  • 语音服务器( Voice Server)的结构和其与语音网关的交互协议
  • 语音网关(Voice Gateway)的结构和协议
  • 语音应用内容(content)类型和标准格式
  • 语音传输编码协议
  • 相关协议和接口规范
  • 安全协议

3.5.组成部分

语音应用协议(VAP VA)也有一个类似于TCP/IP和WAP的层次结构,如下图(图四)所示:

  • 应用层,其中包括
    • 语音标记语言 (Voice XML) ,一个类似于HTML的描述标记语言,基于XML技术。Voice XML 为现在国际上广泛认可的行业标准,其1.0版已被W3C组织确定为行业规范。
    • 对话标记语言 ( Dialog Markup Language),用于与VoiceXML一起描述和建立对话式的语音交互应用的标记语言。
    • 内容格式(Content Format),是一套定义好的数据格式,针对语音应用技术的特点而制定,如数字、日期的识别语法;模型化的识别对象(Objects);语音通讯录;流式语音邮件格式等。
    • 数据交换应用,语音应用与其它信息应用的数据交换协议

  • 会话层,其中包括
    • 语音交互协议,其为语音网关中的一个重要组成部分,规范了语音交互系统(如CTI、IVR)的体系规范和协议。例如语音应用开发接口(SAPI)、电话应用开发接口(TAPI),语音交互接口(SIP),会话管理等。
    • 数据传输协议,基于http的传输协议,和rtp (Real-time Transport protocol )的实时媒体数据传输协议。

     

  • 事务层,其中包括

    • 语音浏览器规范,为语音浏览技术的重要组成部分。
    • 语音识别接口规范,为语音识别引擎与语音浏览器的交互接口协议规范。
    • 语音合成接口规范,为语音合成引擎与语音浏览器的交互接口协议规范。
    • 语音广播协议,为提供语音广播机制的协议
    • 数据转换协议,将所处理的数据转换为其它应用或协议(如WAP等)的数据内容和格式,或从其它应用系统、协议中获取数据用于语音浏览或处理的协议。

     

  • 安全层,其中包括
    • 语音认证协议,以语音方式认证身份的协议。
    • 数据完整检查,确保用户提交的数据在传输和处理中保持完整一致。
    • 独立保密,确保用户唯一终端和应用服务器处理线程的对应。
    • 拒绝服务保护,对于没有认证或重复请求的数据,安全层予以拒绝服务。
    • 安全层也可以用于身份认证,语音数字签名以及电子商务交易安全保证。

     

  • 控制层,其中包括
    • 语音控制协议,指在内嵌语音识别或合成引擎,或装有微型语音浏览器的智能终端设备、PC、IP设备等终端中语音控制的协议。
    • 语音控制信号协议,以非识别性的语音信号传送于语音终端和语音网关中的控制信号协议。

     

  • 信号层,其中包括
    • 语音压缩协议,在语音应用系统中所确定的规范压缩和编码协议。

     

语音应用协议不仅仅为实现语音应用技术而设计,它的设计中使语音应用可以操作多种不同的应用,如短消息、WAP等。其在每个层次上都提供扩展性的已定义好的接口,使其不仅仅限制于语音应用协议(VAP)所描述和定义的范围内。

四 语音应用协议方案的好处

语音应用协议(VAP)用以实现互联网络与有线电话、移动电话等简单终端进行交互,将信息应用技术和服务,以及移动互联服务最大限度的带到用户身边。其关注于语音应用服务的开发和实现,将为为移动互联和信息服务带来巨大影响。

4.1.提供了良好的用户界面模型

作为最为亲切友好的人机界面交互方式,语音应用协议(VAP)为电话终端以及其它终端提供了遨游信息世界良好的拥护界面。传统的键盘、鼠标和屏幕为自然对话的交互方式所代替。语音应用协议(VAP)不仅仅通过语音交互协议、语音标记语言、对话标记语言和语音浏览器规范等定义了“说”和“听”的交互界面,而且语音应用协议(VAP)使用已有的Internet模型作为起点,提供了和在传统PC机的浏览器一样熟悉的Web浏览习惯。

同时通过数据转换协议、语音控制协议等协议,提供了兼容WAP的电话键盘输入的界面。而可以内嵌于智能终端设备中的语音控制器和微型语音浏览器,可以使用户不仅以对话方式获取信息和服务,而且可以用语音指挥终端设备,做到“听、说、看”的全面交互。

4.2.提供了语音技术与信息技术的集成规范

语音应用协议(VAP)中,语音网关(Voice Gateway)中制定的语音浏览器规范,作为应用协议的语音标记语言的解释器,语音浏览器解析 Voice XML 所描述的应用。而作为语音识别语法描述规范的JSGF规范和VAP语音识别引擎接口规范(基于JSAPI和SAPI)使人机间的交互以一种自然的,对话式的方式进行。语音应用协议(VAP)的这些规范对于对话浏览和语音识别、合成引擎之间的工作和数据交换等集成电路工作提供了标准。而语音浏览器、语音合成、识别引擎、CTI平台之间的集成开发工作变得轻松而规范。

4.3.提供了安全的连接

语音应用协议(VAP)对语音认证、语音数字签名等安全制定了协议,使语音应用和语音电子商务的交易和安全更有保障。在基于Web机制的Transport Layer Security (TLS)协议基础上,语音引协议(VAP)增加了在电话网络中基于语音数据的安全机制以及基于个人声纹认证的安全验证。在语音应用协议(VAP)中,语音网关(Voice Gateway)自动的高度觉察性的管理数据安全。

4.4.提供了容易简单的应用开发机制和工具

利用语音标记语言(Voice XML),用开发HTML页面和Web应用的方式就可以简单的开发复杂的语音应用。Voice XML 是一种XML文档语言,其与数据库、HTML、WML以及其它文档处理和发布系统的资料交换几乎没有障碍。而语音应用协议(VAP)中使用http协议作为语音网关(Voice Gateway)与语音服务器(Voice Server)之间的通讯协议,所以在Web所能使用的CGI、Perl、ASP等动态数据机制同样适用于语音应用。而语音应用交换方式基于java 的设计,使Jsp 这样的动态数据机制可以更容易的应用于语音应用。

五 获益者

语音应用协议(VAP)不仅仅使广大电话和手机用户获得轻松快捷享受信息服务和移动互联服务,而且为整个社会和信息产业带来更大的效益。

5.1.服务提供商的获益

不仅仅信息服务的提供商可以为他们现有的信息服务系统增加语音应用服务和庞大的用户群,而且电信运行商将从语音应用为他们带来的增值服务中获得巨大收益。语音应用的普及和推广,必然使语音话务通讯的数量大大增加。而个性化的自然亲切的语音应用,将为服务提供商带来巨大的新的服务内容和语音电子商务行为。

而依靠Voice XML和对话标记语言(Dialog-ML),服务提供商可以用开发Web服务一样简单的方式开发他们的语音应用,并可以轻松发布和维护。而语音应用协议(VAP)带来电话服务语音应用(例如个人拨号服务、电话会议、电话远程管理等)将为电信服务商带来巨大商机。

5.2.设备厂商的获益

集成语音应用协议(VAP)中语音控制器的智能终端,以及内嵌微型语音浏览器的信息终端设备,将为设备生产厂商带来新的产品和收入。而智能语音家电设备、远端控制设备等将更为广大用户所关注。语音应用协议(VAP)产生了大量新的语音应用的产品,将为设备厂商带来广阔的市场。

5.3.开发商的收益

语音应用的开发商也许将无法估计他们从语音应用中获得的收益,以语音应用协议(VAP)为工业标准而进行开发,他们将能轻松的开发各种各样的丰富的语音应用系统。而作为语音技术产品的开发商,如语音识别、语音合成引擎的开发商,语音浏览器开发商,语音网关开发商等等,他们将不再需要自己解决语音应用系统中的所有其它他们不关心的部分,统一的规范使他们可以自由的选择其它部分配合自己的开发。而语音应用协议(VAP)也为开发商带来了简单的开发规范和工具。

六 未来展望

我们可以预见,在不久的将来电话作为信息访问的终端将远远超过电脑的数量。语音应用技术将成为统一信息、统一网络的移动互联中的重要技术成分。作为高科技的网络信息对广大的中国百姓将不在神秘,中国百姓将随时随地在对电话机或手机说话,享受语音应用技术为他们带来的美好服务。

相关阅读:

分享到: 收藏

专题