第1页:智能视频监控技术两种构架方式
视频监控是视频工程中重要的技术和应用领域,支撑其发展的视频技术在不到一个世纪的发展过程中,大致经历了3个跨越式的发展阶段。20世纪30年代,以电视广播为代表的视频技术走出了实验室,进入广播电视台和千万家庭,实现了从静止图像传输到活动图像传输的跨越;20世纪80年代末,以会议电视、视频监控等为代表的视频技术走出了实验室,进入众多的电视会议室、安防系统,实现了从模拟视频通信到数字视频通信的跨越;如今,以智能视频监控(ivs)为代表的视频技术,正处在走出实验室、进入到各行各业的应用阶段,将要实现从“机械”的视频信息处理向智能化视频信息处理的跨越。当前中国正处在这一跨越的关键时段。智能视频监控只是智能视频技术的一个部分,一个将视频技术引入智能时代的部分。
智能视频监控技术两种构架方式
视频监控的智能化表现为计算机视觉算法在视频分析中的应用。智能视频监控区别于传统意义上的监控系统在于变被动监控为主动监控(自动检测、识别潜在入侵者、可疑目标和突发事件),即它的智能性。简单而言,不仅用摄像机代替人眼,而且用计算机代替人、协助人,来完成监视或控制的任务,从而减轻人的负担。智能视频监控系统的结构通常有如下两种:
主动智能监视系统,这类系统的特点是主动摄像机不仅可以理解视场内的场景,还可以有选择性专注于特定的活动或感兴趣的事件。主动智能监视系统需要额外完成两个任务:管理主动摄像机资源,即确定哪些摄像机用于监视全景,哪些摄像机用于监视特定行为或事件;利用视频分析算法提供的信息控制摄像机的运动和变焦。
分布式智能视频监视系统,通过无线视频通信网络将各点智能摄像机与中心站连接起来,智能监视服务器不仅可以生成图像还可以分析视频,根据视频分析的信息控制摄像机以及确定使用恰当的存储资源和带宽传送高质量视频给终端用户。智能摄像机最大程度减小了系统结构的成本。
智能视频监控技术特性
智能视频监控技术一直在发展,然而,环境的复杂性以及目标行为的多样性等原因使得智能监控算法变得复杂,且算法通常是针对具体的应用而设计的。尽管已经提出许多被证明是有效的智能分析算法,但是受计算机数据处理能力的限制,难以适合实时计算,自适应性也较差,应用场合受限。目前,对于以目标整体的运动轨迹作为研究目标,提取运动目标的运动特征或者其本身所具有的特性这种类型的视频智能分析已经取得了一定的成果。
这一类研究目标不一定是人,也可以是车辆、动物或飞机、坦克等军事目标。以目标的局部部分运动为研究目标,提取其局部的“肢体语言”特征分析判断目标的行为,比如视频的手语识别、步态识别、表情识别或者动作识别等。此类监视问题的困难在于运动模式的提取以及高效可靠的识别算法。
智能视频监控系统可以解决两个主要问题:一个是将安防操作人员从繁杂而枯燥的“盯屏幕”任务中解脱出来。由机器来完成这部分工作,对异常情况能够及时处理等,比如报警等;另外一个是为在海量的视频数据中快速搜索到想要找的图像。对于上述两个问题,视频分析厂家经常提到的案例是:操作人员盯着屏幕超过1o分钟后将漏掉90%的视频信息而使这项工作失去意义;伦敦地铁案中,安保人员花了70个工时才在大量磁带中找到需要的信息。
智能视频监控的核心内容是对特定目标的自动检测、跟踪与行为识别,包括运动检测、目标分类、目标跟踪、行为识别等4个方面内容。例如对人体的跟踪:首先从实时图像序列中检测出运动物体,再判定运动物体中的人体,然后跟踪人体的运动轨迹,并分析和选定有异常行为的人,如在车站,机场等遗留包裹的人。最后对行为异常的人进行持续跟踪。
移动目标提取
运动检测是从图像序列中将变化区域从背景图像中提取出来。运动区域的有效分割将大大减少后续过程的运算量。然而,背景图像的不稳定性,如阴影、光照、慢移动、静移动(树叶的摆动)等等,也使得运动检测非常困难。目前较为实用的视频分析方法主要有两类:一类是背景减除方法,另一类是时间差分方法。背景减除方法是利用当前图像和背景图象的差分来检测出运动区域的一种方法,可以提供比较完整的运动目标特征数据,精确度和灵敏度比较高,具有良好的性能表现。时间差分法利用视频图像特征,从连续得到的视频流中提取所需要的动态目标信息。时间差分实质是利用相邻帧图像相减来提取前景目标移动的信息,此方法不能完全提取所有相关特征像素点,在运动实体内部可能产生空洞,能检测出目标的边缘。
第2页:移动目标跟踪
移动目标跟踪
移动目标跟踪等价于在连续的图像帧间,创建基于位置、速度、形状、纹理、色彩等有关特征的对应匹配问题。常用的数学工具有卡尔曼滤波、condensation算法及动态贝叶斯网络等。其中kalman滤波是基于高斯分布的状态预测方法。不能有效地处理多峰模式的分布情况;condensation算法是以因子抽样为基础的条件密度传播方法,结合可学习的动态模型,可完成鲁棒的运动跟踪。就跟踪对象而言,跟踪如手、脸、头、腿等身体部分与跟踪整个目标;就跟踪视角而言,有对应于单摄像机的单一视角、对应于多摄像机的多视角和全方位视角;当然还可以通过跟踪空间(二维或三维)、跟踪环境(室内或户外)、跟踪人数(单人、多人、人群)、摄像机状态(运动或固定)等方面进行分类。从跟踪方法的不同讨论跟踪算法。
(1)基于模型的跟踪
传统的人体表达方法有如下三种:①线图法:人运动的实质是骨骼的运动,因此该表达方法将身体的各个部分以直线来近似。②二维轮廓(2d contour):该人体表达方法的使用直接与人体在图像中的投影有关,如ju等提出的纸板人模型,它将人的肢体用一组连接的平面区域块所表达,该区域块的参数化运动受关节运动(articulated movement)的约束,该模型被用于关节运动图像的分析。③立体模型(volumetric model):它是利用广义锥台、椭圆柱、球等三维模型来描述人体的结构细节,因此要求更多的计算参数和匹配过程中更大的计算量。
例如rohr使用14个椭圆柱体模型来表达人体结构,坐标系统的原点被定位在躯干的中心,目的是想利用该模型来产生人的行走的三维描述;wachter与nagel利用椭圆锥台建立三维人体模型,通过在连续的图像帧问匹配三维人体模型的投影来获得人运动的定量描述,其中,它利用了迭代的扩展卡尔曼滤波方法,结合边缘、区域信息及身体解析约束确定的身体关节运动的自由度,实现单目图像序列中人的跟踪。