与电脑面谈
周密 陶建华 2007/07/06
人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。随着计算机的迅速普及,其使用者也从专家一级迅速扩大到了未受过专门训练的普通用户,由此强烈地刺激了人机交互界面的进步。图2 说话人头像系统
该模块首先进行人脸检测,对眼角、嘴角等特征点进行粗略定位,然后根据小波变换进行精细定位,最终得到较为精细的人脸表情参数初始值。之后运用Lucas-Kanade算法进行特征点的跟踪,利用跟踪得到的特征点位置首先根据Ekman的人脸表情编码规则进行编码,然后根据所得到的编码结果进行表情识别。该系统不仅实现了全自动的特征点定位和跟踪,而且根据人脸特征点的分布模型,可以对跟踪时特征点的丢失现象进行补偿。
2007-7-1语音识别及理解模块
语音识别及理解模块用于自动监听用户的语音表达内容。常用的方法有两大类: 一种是使用关键词检出的方法,主要是找出一句话里有代表意义的词,根据这些词就可以理解整句话的意思,在这种情况下,输入的语句必须严格符合系统所规定的语法结构;
另一种方法是基于连续语音的搜索,与一般听写机不同的是,这种搜索过程会把对话系统所应用领域的信息添加进去,这种方法效果比较好,但是在处理集外数据时则往往容易表现不稳定。
由于天气查询是一个限定领域的系统,因此我们选择了基于关键词检索的方法。在识别的过程中: 首先利用声学模型得到候选子词序列; 然后在词法层得到候选词条序列,最后根据语法规则,即语言模型进行句法层的搜索,得到最终的识别结果。
在模块工作过程中,系统首先判断语音识别的结果是否符合查询语法,若符合语法,则给出正确的天气查询语言。比如已经识别出来了“北京” 和“今天”,比照事先制定的语法结构,发现它们分别属于“地点”和“时间”类别,所以可以理解为:
“需要查询北京明天的天气”。当系统无法识别出用于表达的含义时,会进行智能反馈,保证整个天气查询系统正常运行。
在语音处理模块中,我们还融入了语气检测和情感识别算法,能够动态地根据用户的语音状态,判断该说话人用的是陈述语气、疑问语气还是感叹语气,在有典型情绪的地方,还能够输出该说话人的情感状态。这些信息与语音识别结果一起送入到整个查询系统的控制模块中进行集中决策。
说话人头像模块
说话人头像模块包括语音合成、人脸动画两个子模块。语音合成模块是为了将天气查询获得信息表达出来。本文中,语音合成模块是基于中科院自动化所设计的“绘声”语音合成系统,该系统能够将任意输入的文本,以连续自然的声音朗读出来,并能够处理中文普通话、粤语、英语等多种语言或方言。
“面对面的人机交互系统”实现方法,涉及语音合成与识别、表情识别与生成、自然语音理解、多模态融合方法等多个学科领域。通过本项目的研究,可以对传统人机交互模式进行革命性的革新,使之更符合现代信息社会获取信息的需要。同时在无人值守环境、智能交互平台、虚拟现实、数字化娱乐等领域中,均有很强的应用性,可以不分语种和人群地提供服务,对信息服务业的长期发展具有非常重要的意义。
语音合成模块配上人脸动画,可以实现栩栩如生的说话人头像系统,让用户感觉到是在与一个虚拟人进行交互。人脸动画的研究难点是如何与语音合成系统进行配合,既保持语音、唇形、舌位的同步,又要能够恰如其分地生成不同的表情。
中心控制(CTRL模块)
中心控制模块相当于整个虚拟人的“大脑”,它从“眼睛”,“耳朵”处得到对方的语音和表情信息,经过处理以后,做出适当反馈,再由说话人头像系统说出来,它实际上实现了对话管理和多模态融合两方面的功能。
对话管理
目前主要的对话管理的控制策略大概有三种,包括基于有限状态机(finite-state based)、基于框架(frame based)以及基于代理(agent
based)的控制策略。
在总结了前人工作经验和结合本系统的实际问题的基础上,我们在对话管理的具体实现上,将框架理论和有限状态自动机理论相结合,完成了一个智能的对话管理模块。我们先将对话管理限制在天气查询领域。在系统中,通过人机之间的对话和确认,系统需要得到要查询的时间和地点信息之后反馈查询结果。
我们为需要得到的信息先设计了一个槽结构如下: Slot_name表示槽名,在本系统中就是City和Date。Slot_value 指示该项信息是否已经得到,所以有2个状态:
Known 和Unkown。
图3中,初始状态为Unknown,当收到用户提供的信息时,槽状态转化为Known,即为终止状态。当再收到用户的信息时,槽状态不变,只是具体的槽值发生了变化。
空口有凭:用声音来付账 2007-06-25 |
智能通信终端的关键技术研究 2007-06-19 |
声控你的系统 Vista语音识别全体验 2007-03-22 |
跨国巨头猛攻语音识别技术 2007-03-09 |
自动语音系统:虚拟人物提供人性化呼叫业务 2007-01-23 |