计算机视觉读书报告.docx

资源描述

计算机视觉读书报告.docx

《计算机视觉读书报告.docx》由会员分享，可在线阅读，更多相关《计算机视觉读书报告.docx（10页珍藏版）》请在冰豆网上搜索。

计算机视觉读书报告.docx

计算机视觉读书报告

计算机视觉在智能视频分析中的应用

摘要：

计算机视觉是一门研究如何让计算机达到人类那样“看”的学科。

更加准确地说，它是利用摄像机和电脑代替人眼使得计算机拥有类似于人类的那种对目标进行分割、分类、识别、跟踪、判决决策的功能。

智能视频分析是将场景中背景和目标分离，识别出真正的目标，去除背景干扰，进而分析并追踪在摄像机场景内出现的目标行为。

本报告通过文献查阅与学习，主要介绍了当前计算机视觉的发展状况，智能视频分析的研究现状及难点，最后是介绍常用的目标跟踪算法在智能视频分析领域中的应用。

关键词：

计算机视觉、视频分析、目标跟踪，MeanShift算法

ApplicationofComputerVisioninSmartVideoAnalysis

Abstract：

Computervisionisanewrapidlydevelopedsubjectsincethe1960smedium-term.Computervisionisusedforananalogofbiologicalvisionwithcomputersandrelatedequipments.Itsmaintaskisobtainingcorrespondingscene3-dinformationbycollectingthepictureorvideoprocessed,justlikehumansdoeveryday.Intelligentvideoanalysisistoseparatethescenebackgroundandobjectives,identifytherealtarget,removebackgroundinterference,andthenanalyzesthesceneandtrackthetargetbehaviors.Thispaperbrieflyintroducesthedevelopmentofcomputervisionandresearchstatusanddifficultyofsmartvideoanalysistechnology.Atlast,somespecialtargettrackingalgorithmsusedinvideoanalysisaresharedandstudied.

Keywords：

computervision、videoanalysis、targettracking、MeanShiftalgorithm

1．计算机视觉概述及其发展现状

视觉是人类最重要的感觉，人类认识外界信息80%来自视觉。

人类的视觉系统在给人类带来好处的同时，也会给人类造成失误。

常言道：

“眼见为实”果真如此吗？

有很多情况下“眼见”的并不一定都是“实”的。

原因在于，通过我们的眼睛（以及其他感觉器官）而感觉到的外界事物的形象和特性，需要经过大脑的加工处理才能形成相应的知觉和判断。

在一定的条件下，大脑会对所看到的形象形成不正确的知觉和判断，即产生视错觉。

较为大家熟知的几种视错觉现象包括长短错觉、大小错觉、平行错觉、弯曲错觉。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

一般来说，在人类的五种基本感觉中，视觉提供了人类对周围世界了解的大部分信息。

通过视觉，人和动物感知外界物体的大小、明暗、颜色、动静，获得对机体生存具有重要意义的各种信息，至少有80％以上的外界信息经视觉获得，视觉是人和动物最重要的感觉。

如今计算机视觉涉及到很多领域，计算机视觉的应用领域主要包括对照片、视频资料如航空照片、卫星照片、视频片段等的解释、精确制导、移动机器人视觉导航、医学辅助诊断、工业机器人的手眼系统、地图绘制、物体三维形状分析与识别及智能人机接口等。

2．智能视频分析

2.1智能视频分析概述

智能视频分析目前在国际上有多种叫法，如IVA（IntelligentVideoAnalytics）、VCA（VideoContentAnalysis）、VA（VideoAnalysis）、IV（IntelligentVideo）、IVS（IntelligentVideoSystem）。

它是计算机图像视觉技术在安防领域应用的一个分支，是一种基于目标行为的智能监控技术。

区别于传统的移动侦测（VMD-VideoMotionDetection）技术，智能视频分析首先将场景中背景和目标分离，识别出真正的目标，去除背景干扰（如树叶抖动、水面波浪、灯光变化），进而分析并追踪在摄像机场景内出现的目标行为。

2.2智能视频分析核心技术

智能视频分析技术也属于模式识别技术的一种，它是通过设计一定的计算机算法，从视频中分析、提取和识别个体运动行为的特征，令计算机判断出这些个体进行了一些什么行为，进而可以判断这些行为是否符合某些规则，是否属于“某一类型”的行为。

而这些类型的行为是应该提醒监控人员注意的“可疑行为”，这样当计算机发现了这些“可疑行为”时就可以进行即时的报警，摆脱了人工的干预和判断，实现令计算机“代替”人进行监控，也即实现了“自动监控”或是“智能监控”。

从更形象一点的角度来解释，监控系统中摄像头和视频传输技术解决了“眼睛”的问题，使监控人员能够在不身处现场的情况下通过摄像头看到现场的情景，而这一现场还由于传输技术的进步摆脱了地域的限制，甚至于可以在千里之外（通过数字网络传输视频）；而智能视频分析监控技术则给监控系统加上了“大脑”，使机器能够代替人来实现监控，无须再由人工随时去监控这些视频。

2.3智能视频分析当前存在的问题

实际环境下光照变化、目标运动复杂性、遮挡、目标与背景颜色相似、杂乱背景等都会增加目标检测与跟踪算法设计的难度，从而给智能视频分析带来更多的困难，其主要体现在以下几个方面：

光照变化引起目标颜色与背景颜色的变化，可能造成虚假检测与错误跟踪。

采用不同的色彩空间可以减轻光照变化对算法的影响，但无法完全消除其影响；目标阴影与背景颜色存在差别通常被检测为前景，这给运动目标的分割与特征提取带来困难。

目标特征的取舍，序列图像中包含大量可用于目标跟踪的特征信息，如目标的运动、颜色、边缘以及纹理等。

但目标的特征信息一般是时变的，选取合适的特征信息保证跟踪的有效性比较困难。

遮挡是目标跟踪中必须解决的难点问题。

运动目标被部分或完全遮挡，又或是多个目标相互遮挡时，目标部分不可见会造成目标信息缺失，影响跟踪的稳定性。

大多数系统一般是通过统计方法预测目标的位置、尺度等，都不能很好地处理较严重的遮挡问题。

序列图像包含大量信息，要保证目标跟踪的实时性要求，必须选择计算量小的算法。

鲁棒性是目标跟踪的另一个重要性能，提高算法的鲁棒性就是要使算法对复杂背景、光照变化和遮挡等情况有较强的适应性，而这又要以复杂的运算为代价。

3．目标跟踪算法

目标跟踪是智能视频分析过程必不可少的一部分，国内外对目标跟踪算法的研究仍在继续，本次读书报告较详细的学习并了解常用的目标跟踪算法，在这里介绍以下几种。

3.1基于对比度分析的目标跟踪算法

基于对比度分析的目标跟踪算法利用目标与背景在对比度上的差异来提取、识别和跟踪目标。

该类算法按照跟踪参考点的不同可以分为边缘跟踪、形心跟踪和质心跟踪等。

本算法不适合复杂背景中的目标跟踪，但在空中背景下的目标跟踪中非常有效。

边缘跟踪的优点是脱靶量计算简单、响应快，在某些场合（如要求跟踪目标的左上角或右下角等）有其独到之处。

缺点是跟踪点易受干扰，跟踪随机误差大。

重心跟踪算法计算简便，精度较高，但容易受到目标的剧烈运动或目标被遮挡的影响。

重心的计算不需要清楚的轮廓．在均匀背景下可以对整个跟踪窗口进行计算，不影响测量精度。

重心跟踪特别适合背景均匀、对比度小的弱小目标跟踪等一些特殊场合。

通过图像二值化后，按重心公式计算出的是目标图像的形心。

一般来说形心与重心略有差别。

3.2基于匹配的目标跟踪算法

基于匹配的目标跟踪算法主要有特征匹配、贝叶斯跟踪以及核方法等，这里主要介绍核方法的使用。

核方法的基本思想是对相似度概率密度函数或者后验概率密度函数采用直接的连续估计。

一方面可以简化采样，另一方面可以采用估计的函数梯度有效定位采样粒子。

采用连续概率密度函数可以减少高维状态空间引起的计算量问题，还可以保证例子接近分布模式，避免粒子退化问题。

核方法一般都采用彩色直方图作为匹配特征。

MeanShift是核方法中最具代表性的算法，其含义正如其名，是“偏移的均值向量”。

其算法的实现如下所述：

在给定d维空间

中的n个样本点

，i=1,…,n,在

点的MeanShift向量的基本形式定义为：

（1）

其中，

是一个半径为h的高维球区域,满足以下关系的y点的集合，

（2）

k表示在这n个样本点

中，有k个点落入

区域中。

我们可以看到

是样本点

相对于点

的偏移向量，

（1）式定义的MeanShift向量

就是对落入区域

中的k个样本点相对于点

的偏移向量求和然后取平均。

从直观上看，如果样本点

从一个概率密度函数

中采样得到，由于非零的概率密度梯度指向概率密度增加最大的方向，因此从平均上来说

区域内的样本点更多的落在沿着概率密度梯度的方向。

因此，对应的MeanShift向量

应该指向概率密度梯度的方向。

图1MeanShift示意图

如上图所示，大圆圈所圈定的范围就是

，小圆圈代表落入

区域内的样本点

，黑点就是MeanShift的基准点

，箭头表示样本点相对于基准点

的偏移向量，我们可以看出，平均的偏移向量

会指向样本分布最多的区域,也就是概率密度函数的梯度方向。

MeanShift算法在许多领域获得了非常成功的应用，下面简要的介绍一下其在物体跟踪中的应用，一来说明其强大的生命力，二来使对上文描述的算法有一个直观的了解。

我们用一个物体的灰度或色彩分布来描述这个物体，假设物体中心位于

，则该物体可以表示为

（3）

候选的位于

的物体可以描述为

（4）

因此物体跟踪可以简化为寻找最优的

使得

与

最相似。

与

的最相似性用Bhattacharrya系数

来度量分布，即

（5）

式（5）在

点泰勒级数展开可得，

（6）

把式（6）带入式,整理可得，

（7）

对式（7）右边的第二项,我们可以利用MeanShift算法进行最优化。

在查阅的资料中，在Comaniciu等人的文章中，他们对MeanShift算法作了如下测试：

他们用平均每帧图像只用4.19次MeanShift迭代就可以收敛，结果很显示在600MHz的PC机上，他们的程序可以每秒处理30帧352

240象素的图像。

下图显示了各帧需要的MeanShift迭代次数。

图2每一帧的MeanShift迭代次数

下图是阅读的文献中Comaniciu等人的测试目标跟踪结果。

图3基于MeanShift的目标跟踪结果

3.3基于运动检测的目标跟踪算法

基于运动检测的目标跟踪算法通过检测序列图像中目标和背景的不同运动来发现目标存在的区域。

这类算法不需要帧间的模式匹配，不需要在帧间传递目标的运动参数，只需要突出目标和非目标在时域或者空域的区别即可。

这类算法具有检测多个目标的能力，可用于多目标

展开阅读全文