与电脑面谈_语音识别

与电脑面谈

周密陶建华 2007/07/06

　　人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术。随着计算机的迅速普及，其使用者也从专家一级迅速扩大到了未受过专门训练的普通用户，由此强烈地刺激了人机交互界面的进步。

　　目前，语音识别与合成、脸部表情识别与生成、身体姿态分析等一系列研究成果开始集成到电脑中，计算机开始逐渐以语音和视频的方式与人类进行交互。

　　本期专题从一个多模态融合面对面人机交互系统着手，介绍了人机交互领域关键的个性化语音生成、说话人头像、多模态情感识别等技术的最新研究和发展状况。

　　多模态融合建立人机交互平台

　　采用键盘和鼠标是人与计算机之间的典型交互方式。为了让计算机更具拟人化的特征，并更好地为人类服务，从上世纪八十年代开始，语音识别与合成、脸部表情识别与生成、身体姿态分析等一系列研究成果开始集成到电脑中，计算机开始逐渐以语音和视频的方式与人类进行交互。然而，即使如此，目前绝大多数的研究依然停留在单个通道上，语音和视频通常作为两个完全不相关的课题进行研究。大多数人在人机对话平台的设计上，要么是单纯的语音信息，要么只采用脸部表情或姿态信息。真正将这些信息有效地融合并不多见。由于人们在相互交流过程中，语音、脸部表情和姿态往往是同步动作，所表达的含义相互影响。举例来说:

　　当一个人说: “你今天做得不错。”如果是用陈述或感叹语气，通常意味着肯定或表扬; 如果是采用疑问语气，则可能是表达一定的询问或讽刺意味; 而即使用陈述语气表达，但脸部表情却是一副不屑一顾的样子，这通常也意味着讽刺。

　　从这个简单的例子可以看出，在人与人的对话中，表达的文字信息与不同语气和脸部表情的组合，可能会出现不同的含义。然而大部分传统的人机对话研究，主要侧重在单纯的语音识别、合成和文字理解上，既缺乏对语气（或情感）的识别，也缺乏有效的语音与表情同步分析工作。

　　事实上，从多模态融合（本文主要指语音和视频信息融合）角度建立人机交互平台已是近几年非常热的研究课题，与此相关的研究计划还包括: 情感计算、普适计算等。国外有许多单位在从事相关技术的研究，如: MIT，CMU，UIUC，IBM等大学或跨国公司，国内也有清华大学，浙江大学，中科院自动化所、计算所、软件所等相关单位在从事这方面的研究。即使如此，从总体上看，多模态融合方法的研究还只是处在初期阶段。本文以中科院自动化所建立的一个多模态天气查询系统为例，介绍一种人与电脑进行面对面对话的交互模式。在这种交互模式中，用户可以综合使用语音、脸部表情、语气等信息传输希望表达的内容，而电脑则将获得的天气信息采用语音合成、人脸动画等方式生动地进行信息反馈。

　　系统概述

　　多模态天气查询系统包括语音识别及理解(ASR)、人脸跟踪与表情识别(TRK)、说话人头像(ANM)、语音中情感识别(SP)、多模态对话管理(CTR)等几个主要模块。

　　系统与互联网中天气信息源进行结合，实现了一定的天气查询功能: 当用户进入摄像头视野范围内时，系统自动运行人脸跟踪模块进行人脸定位，找到人脸的有效区域，然后对眼角、嘴角等特征点进行定位。

　　如果用户没有先开始说话，系统会用语音合成系统先说: “您好，请问我能为您做些什么？”当用户开始说话后，系统的人脸表情跟踪与识别、语音识别、语气检测及语音中情感识别三个模块同时并行工作。语音识别的结果会自动转到对话管理模块，在对话管理模块中，将根据语音语气和情感识别、人脸表情识别或动作识别等信息综合进行判断，若是提问天气信息，则将时间或地点信息输入至中心控制模块，时间和地点信息不完整时，系统会针对缺失信息提问和确认，直到得到完整有效的信息后开始启动查询，然后将结果通过虚拟角色表达出来。

　　说话过程中，表情识别模块实时分析用户的表情及其他非语音信息，辅助语言的理解，如: 点头或摇头的动作可以帮助信息的确认，而用户如果出现了惊讶、厌恶表情的时候，说明对话过程出现了问题，系统需要对关键信息进行重新确认了。

　　下面分别对不同模块的工作方式进行说明。

　　人脸跟踪与表情识别

图2 说话人头像系统

　　该模块首先进行人脸检测，对眼角、嘴角等特征点进行粗略定位，然后根据小波变换进行精细定位，最终得到较为精细的人脸表情参数初始值。之后运用Lucas-Kanade算法进行特征点的跟踪，利用跟踪得到的特征点位置首先根据Ekman的人脸表情编码规则进行编码，然后根据所得到的编码结果进行表情识别。该系统不仅实现了全自动的特征点定位和跟踪，而且根据人脸特征点的分布模型，可以对跟踪时特征点的丢失现象进行补偿。

　　2007-7-1语音识别及理解模块

　　语音识别及理解模块用于自动监听用户的语音表达内容。常用的方法有两大类: 一种是使用关键词检出的方法，主要是找出一句话里有代表意义的词，根据这些词就可以理解整句话的意思，在这种情况下，输入的语句必须严格符合系统所规定的语法结构; 另一种方法是基于连续语音的搜索，与一般听写机不同的是，这种搜索过程会把对话系统所应用领域的信息添加进去，这种方法效果比较好，但是在处理集外数据时则往往容易表现不稳定。

　　由于天气查询是一个限定领域的系统，因此我们选择了基于关键词检索的方法。在识别的过程中: 首先利用声学模型得到候选子词序列; 然后在词法层得到候选词条序列，最后根据语法规则，即语言模型进行句法层的搜索，得到最终的识别结果。

　　在模块工作过程中，系统首先判断语音识别的结果是否符合查询语法，若符合语法，则给出正确的天气查询语言。比如已经识别出来了“北京” 和“今天”，比照事先制定的语法结构，发现它们分别属于“地点”和“时间”类别，所以可以理解为: “需要查询北京明天的天气”。当系统无法识别出用于表达的含义时，会进行智能反馈，保证整个天气查询系统正常运行。

　　在语音处理模块中，我们还融入了语气检测和情感识别算法，能够动态地根据用户的语音状态，判断该说话人用的是陈述语气、疑问语气还是感叹语气，在有典型情绪的地方，还能够输出该说话人的情感状态。这些信息与语音识别结果一起送入到整个查询系统的控制模块中进行集中决策。

　　说话人头像模块

　　说话人头像模块包括语音合成、人脸动画两个子模块。语音合成模块是为了将天气查询获得信息表达出来。本文中，语音合成模块是基于中科院自动化所设计的“绘声”语音合成系统，该系统能够将任意输入的文本，以连续自然的声音朗读出来，并能够处理中文普通话、粤语、英语等多种语言或方言。

　　“面对面的人机交互系统”实现方法，涉及语音合成与识别、表情识别与生成、自然语音理解、多模态融合方法等多个学科领域。通过本项目的研究，可以对传统人机交互模式进行革命性的革新，使之更符合现代信息社会获取信息的需要。同时在无人值守环境、智能交互平台、虚拟现实、数字化娱乐等领域中，均有很强的应用性，可以不分语种和人群地提供服务，对信息服务业的长期发展具有非常重要的意义。

　　语音合成模块配上人脸动画，可以实现栩栩如生的说话人头像系统，让用户感觉到是在与一个虚拟人进行交互。人脸动画的研究难点是如何与语音合成系统进行配合，既保持语音、唇形、舌位的同步，又要能够恰如其分地生成不同的表情。

　　中心控制（CTRL模块）

　　中心控制模块相当于整个虚拟人的“大脑”，它从“眼睛”，“耳朵”处得到对方的语音和表情信息，经过处理以后，做出适当反馈，再由说话人头像系统说出来，它实际上实现了对话管理和多模态融合两方面的功能。

　　对话管理

　　目前主要的对话管理的控制策略大概有三种，包括基于有限状态机(finite-state based)、基于框架(frame based)以及基于代理(agent based)的控制策略。

　　在总结了前人工作经验和结合本系统的实际问题的基础上，我们在对话管理的具体实现上，将框架理论和有限状态自动机理论相结合，完成了一个智能的对话管理模块。我们先将对话管理限制在天气查询领域。在系统中，通过人机之间的对话和确认，系统需要得到要查询的时间和地点信息之后反馈查询结果。

　　我们为需要得到的信息先设计了一个槽结构如下: Slot_name表示槽名，在本系统中就是City和Date。Slot_value 指示该项信息是否已经得到，所以有2个状态: Known 和Unkown。

　　图3中，初始状态为Unknown，当收到用户提供的信息时，槽状态转化为Known，即为终止状态。当再收到用户的信息时，槽状态不变，只是具体的槽值发生了变化。

　　根据系统的实际需求，同时考虑到系统的灵活性和鲁棒性，我们设计了如下的状态转移过程: S0为系统的初始状态，S3为系统的终止状态。状态转换过程中的转换条件，是信息融合的结果，不仅仅是语音信号的信息，也包含了图像的信息。

　　多模态融合

　　所谓多模态融合就是将电脑“看到”和“听到”的信息都考虑进来，帮助理解说话人真正的意图。在语音识别中加入语法后大大提高了语音识别的准确率，而人脸跟踪模块能够得到现有人脸的绝对位置和特征点的相对位置，知道人脸绝对位置的变化可以帮助判断点头、摇头的动作，而利用特征点的相对位置信息可以知道说话人的情感状态信息，在我们的系统中主要用到了点头、摇头信息和“厌恶”，“高兴”2种情感状态来判断对电脑提出问题的确认和人是否对电脑的回答表示满意。在今后的工作中，我们可以考虑结合语音分析的结果，利用双模态的信息，提高情感识别的准确性和鲁棒性。

通信世界网(www.cww.net.cn)