基于视频结构化图侦系统的应用.docx

资源描述

基于视频结构化图侦系统的应用.docx

《基于视频结构化图侦系统的应用.docx》由会员分享，可在线阅读，更多相关《基于视频结构化图侦系统的应用.docx（55页珍藏版）》请在冰豆网上搜索。

基于视频结构化图侦系统的应用.docx

基于视频结构化图侦系统的应用

目前，视频监控系统已经成为治安防控、侦查破案的重要手段。

但是，面对海量的视频信息、非结构化的数据形式和内容的多义性，在案发后人工调阅方式耗时耗力，大量视频未经梳理而流失，严重影响了监控系统的建设成效。

目前在安全防范领域中，有效分析、组织和管理视频数据，研究基于内容的视频应用系统取代人工方式，已经成为警务信息化应用的研究重点。

本文分析研究了视频数据的规范化采集、结构化存储和全局性共享等问题，提出基于视频内容结构化分析技术，按照“一个证据中心，两个核心应用”方式来构建图侦系统的技术方案和应用模式。

主要工作包括：

（1）分析了当前公安图侦工作的困难和制约，研究了视频图像从采集、研判，到管理、应用的一体化工作模式，基于视频内容结构化分析技术，提出了“视频证据中心、视频图像取证、视频研判分析”为框架的网侦系统研发思路。

（2）从警务一体化的角度，以视频采集、证据管理、研判应用为业务主线，研究了基于视频结构化图侦系统建设的总体技术方案、基本功能点，设计了系统研发的体系架构、逻辑架构、数据架构，以及与外部系统之间的关系。

（3）分析了视频结构化建库的主要任务和核心问题，从视频人、车、物基本要素入手，进行了视频证据中心的模型设计，包括证据中心的体系结构、视频对象结构化定义、对外数据交互视图，以及证据中心实体-关系图（ERD）。

（4）从工作模式和核心应用出发，分析了图侦业务的主要角色和主要环节，设计了图侦工作的业务流程、关键业务交互顺序、摘要索引业务流程和基本功能点，整合运用视频结构化、视频摘要、视频索引等先进技术，进行了软件的设计和实现。

使用结果表明，基于视频内容结构化开发的图侦系统，能够实现视频监控信息的全程筛选，防止有用信息的流失，再造了视频监控及研判应用的信息流及业务流，能够有效支撑了图侦工作机制的转型发展。

第一章绪论

1.1.研究的背景和意义

随着国家经济、社会的快速发展,人民群众的安全防范意识不断提高。

特别是2005年以来，公安部大力推动“3111”工程和城市报警服务与监控系统建设，以“天网工程”、“平安城市”项目为引领的社会治安视频监控系统建设迅猛发展，保守估计全国各级公安机关可直接调控的视频监控摄像机已超百万支[1]；各行各业、各重点企事业单位社会也广泛开展视频监控系统建设，加强对重点部位、重要场所的实时监控。

视频监控系统已经成为维护社会稳定、治安安定和创新社会管理的重要手段，在指挥决策、治安防控、侦查破案和执法监督等方面发挥着积极的作用。

当前，视频监控系统已经成为治安防控、侦查破案的重要手段。

但是，由于视频数据量庞大且格式复杂，存储代价昂贵且难以管理，面对海量的视频信息、非结构化的数据形式和内容的多义性，在案发后人工调阅方式耗时耗力，大量视频未经梳理而流失，严重影响了监控系统的建设成效。

2012年2月公安部下发

《全国公安机关视频图像信息整合与共享工作任务书》，要求充分利用先进的视频监控、图像处理技术，深入开展视频图像信息共享应用平台建设。

目前在安全防范领域中，有效分析、组织和管理视频数据，研究基于内容的视频应用系统取代人工方式，提升监控系统建设成效，已经成为警务信息化工作的研究重点。

为此，必须充分运用先进的图像处理技术，突破视频监控系统联网、整合与共享工作中存在的发展瓶颈。

原有监控工作模式的不足，主要表现在“视频图像采集”、“视频图像检索”和“视频要素建库”这三个环节。

（1）视频图像采集不规范

按照公安机关对视频监控系统建设的相关规定，一般要求视频监控系统具备至少30天连续视频图像存储能力，并能自动循环覆盖存储。

在实际工作中，由于视频图像采集速度慢且过程繁琐，原始视频数据量庞大且格式复杂，备份海量视频需要海量存储空间等原因，难以建立起一套有效的视频图像信息采集机制，只有在查处大要案事件时，办案部门才会调阅视频监控资源，查找嫌疑人或可疑物品，并随案保存相应视频资料，99%以上的视频图像被自动循环覆盖而没有经

过图像信息的梳理采集并保存使用，存在有价值的视频图像信息被覆盖、被流失、

被放弃等问题，严重降低了视频监控系统的建设成效。

在传统的视频监控系统，即使建设了大量的摄像镜头，但是缺乏对数据的有效分析和利用，大量的有价信息被丢弃或湮没于数据海洋中，成为数据垃圾，投资大、成效低。

图1-1描绘了原有视频监控图像信息的完整生命周期，仅有不到1%的视频信息经过梳理研判，绝大部分的视频监控信息没有经筛选而直接流失。

因此，充分运用先进的图像处理技术，特别是视频信息的结构化分析技术，建立成熟、规范的视频图像信息采集、管理和研判、应用机制已经十分紧迫。

图1-1传统视频监控图像信息的完整生命周期分析在日常网上监控巡逻工作中，由于缺乏一个可操作性的工作平台，也没有建

立健全视频图像信息的采集、管理机制，视频监控有“巡”无“查”，监控操作人员缺乏有效的可操作性工作指标。

因此，构建规范化的视频图像采集机制对于提升视频监控系统运用价值具有积极意义。

（2）视频图像检索困难当前，视频监控系统深度运用的另一个瓶颈是视频调阅耗时耗力，以人工方

式进行检索，效率低下。

主要表现在：

在案发后对海量涉案视频信息的调阅过程耗时严重，所需人员投入量巨大并随着案情的复杂程度递增；原始涉案视频质量参差不齐，有时还需要另外工具和受过专业图像处理训练的人员。

因此，对海量涉案视频的调阅，对人的体能和精力都是极大的考验，从而直接导致检索效率下降，无法有效地快速浏览视频、定位目标。

运用视频图像转码技术，可以将非标

格式图像转换成标准格式，便于开展统一视频图像信息采集和建库管理；基于视

频摘要技术处理后，整合形成的摘要视频远远短于原始视频，从而缩短了人工调阅的时间，便于快速锁定目标，快速提取线索信息，截取可疑目标出现和消失的视频片段，并与警务数据库进行图片或视频的关联标注保存。

这样当有案件需要检索线索时可直接查看标注图片或截取视频，提高了检索线索的效率。

（3）视频对网络带宽的瓶颈制约

随着视频监控的联网发展，警务人员在需要倒查录像的时候，都会采用联网下载的方式，这样虽然提升了办案的效率，但也带来了一些弊端，例如对网络带宽的依赖，在倒查录像的时候需要对录像进行下载或者以流媒体的方式进行查看，无论采用何种方式，都会占用非常巨大的网络带宽资源，如果网络无法正常工作或者出现网络堵塞等情况，录像文件往往还有可能出现数据丢失的情况，如何摆脱或者降低对网络的依赖以成为了当前视频监控市场一个迫切需要解决的难题。

（4）视频结构化建库不足

目前，各地都在积极探索建立视频信息库，对各部门、警种关注的视频图像信息进行整理、分类存储。

但是，在实际工作中，由于视频信息的非结构化、多语义性，所建的视频信息库，只能对案件进行简单标注，各地仍然以人工查看为主。

近年来，视频特征提取、视频结构化分析、视频索引、视频检索等技术已经取得了明显的进步，但在整合应用上还有距离，还没有形成一个成熟的工作平台和应用体系。

因此，充分利用视频结构化分析、视频摘要等图像处理技术，从案事件证据的角度，建立案事件视频证据库，用来存储从视频监控系统中提取的视频片段和图像特征信息，构建以视频图像共享应用为核心的工作平台，对强化公安机关视频图像信息资源的综合开发利用，提升公安机关的核心战斗力具有积极的现实意义。

图侦系统是吴江市“1+X”视频监控系统项目建设的核心系统，系统建设的部分成果，例如视频摘要子系统、视频检测子系统等，已经在吴江市公安局进行试用，效果满足公安实战需要，有关基层公安机关视频巡逻、视频取证、视频研判、新机制也在逐步推进之中。

1.2.项目研究的目的

本文将整合运用视频结构化、视频摘要和数据挖掘等先进技术，研究构建视

频图像信息共享侦查应用系统（以下简称“图侦系统”），提供覆盖视频业务从“采集”、“研判”到“保存”、“管理”、“应用”的全局能力支撑，使视频图像成为重要的案件侦破手段和情报来源，前瞻性地推进视频监控系统建设由“信息”到“情报”的演进，并将最终为基层公安民警提供一个“贴近实战、研判高效、管理有序”全局性的视频研判作业环境。

主要目标如下：

1、对接视频监控联网系统，实现对联网监控视频图像的统一采集、调取，进行案事件视频处理、研判、统一管理、图像要素布控等提供技术手段。

2、满足案事件现场移动视频图像采集，实现案事件现场视频图像处理、现场研判；能够快速对现场周边图像进行采集、视频转码播放、视频属性编辑等。

3、能够实现视频的结构化分析，具有视频摘要、视频索引、视频检索、视

频编辑、图片处理等多种视频图像处理手段，提高视频自动分析能力。

4、实现基于PGIS系统资源，实现案事件视频图像轨迹标注、作案路线推演。

同时通过电子地图，快速调取需要关注的监控点、监控区域图像以及警务资源。

5、对接警务综合信息系统，建立视频图像信息证据数据库，为全警日常警务工作中收集到的可疑或涉案图像资源提供统一的资源管理及存储空间。

为重要信息的收集与查询、关联资源的碰撞、串并案分析研判提供基础环境。

总之，通过构建和部署应用图侦系统，要求能够：

（1）快速锁定突发事件的嫌疑目标；

（2）快速标定嫌疑目标的运动轨迹；（3）发现潜在破案线索—可以有更多的机会审视更长的录像文件，发现更多的破案信息。

从而，使公安机关能够：

（1）缩短破案时间，节省办案人员；

（2）降低警员劳动强度，降低办案成本；（3）极大提升办案效率。

1.3.国内外应用研究现状

在形式上，视频数据具有非结构化、内容多义性和流媒体传播的特征。

因此，视频数据不同于传统数据库所处理的数据类型，它不是一种简单的数值或字符型数据，传统数据库中对字符或数值型数据的处理方法己经完全不能适应对视频数据的处理要求。

长期以来，人们只能以流媒体的方式按时间段来存储视频数据。

同时，由于数据量庞大、非结构化形式，视频数据存储代价昂贵难以长期保存，也不具备传统数据

库的结构化管理能力，严重阻碍了用户的交互操作使用。

为此，随着视频监

控系统在社会治安防控体系中应用的日益广泛，视频监控系统的深度应用研究越来越成为人们的关注和研究的热点，国内外许多研究机构和单位开展相应的研究。

1.3.1国外应用研究现状

在国外,对视频结构化分析、摘要技术的研究起步稍早一点，1994年，卡内基梅隆大学就己经开始研发视频数据库系统，该系统在视频摘要方面有非常系统而深入的研究。

它更注重缩略视频的生成，即怎样从一段长视频中抽取出视音频信息生成能够表达原视频语义内容的精简视频。

特别地，它运用了熟知的

TF-IDF方法从脚本中抽取文字。

之后，Mannheim大学也做了与hiformed系统类似的研究。

他们研究出的

系统MOCA主要针对的是电影，能生成电影的精彩场景亦或是预告片[2]。

近年来，国际上有许多研究机构开展了深入的研究，有微软研究院（张宏江、

马宇飞和YongRui等人）、IBM研究院（JohnR.Smith等人）、北卡州立大学（JianpingFan等人）、南洋理工大学（Yap-PengTan等人）等，并产生了一些“基于内容”原型系统。

例如，IBMAlmaden研究中心研究开发的QBIC系统[3]，是“基于内容”检索系统的典型代表。

QBIC系统允许使用例子图像、用户构建的草图和图画及其选择的颜色和纹理模式、镜头和目标运动等图形信息，对大型图像和视频数据库进行查询。

QBIC技术集成语音识别的成果，形成CueVidco系统。

WebSeek系统[4]是美国哥伦比亚大学研究开发的一种基于内容的多媒体搜索引擎的原型系

统,它通过提取图像/视频的颜色、纹理以及文本等特征实现了运行于网络环境下的基于内容的图像/视频检索[5]。

目前，国外视频内容结构化技术在警务工作中普及应用、成熟应用的案例仍鲜见报道。

1.3.2国内应用研究现状

对于国内来说,关于基于内容的视频结构化技术的研究起步比较晚,从20世纪90年代后期开始,才逐渐受到多媒体研究领域的关注,因此,相应的技术水平较国外有一定的差距。

近年来，为满足案件侦查、治安管理工作的需要，国内一些公安机关还专门组建了视频侦查部门，探索建立视频数据库，对视频图像信息进行整理、分类存储。

但是，目前由于视频的非结构化、多语义性和大数据量，加上案事件侦查对

智能化手段应用的严密性、成熟度要求高，在实际工作中仍然以人工调阅为主，在视频信息的结构化、体系化共享、整合应用上还在探索、实践阶段，相关的产品和案例不多，还没有形成统一的平台应用模式。

具体表现在：

（1）在视频数据采集上，大量的视频数据主要在案事件发生以后，根据案件进行事后视频调阅、查看采集为主，而在线实时采集主要运用于道路通行车辆的车牌抓拍识别，对其他方面的识别运用较少。

（2）在视频数据库建设上，目前各地所建的视频数据库主要是对截取的视频片段进行简单的案件关联标注，以原始视频媒体的方式存储，只能通过案件进行关联查询，视频检索仍然靠人工查看方式。

（3）在软硬件产品上，受制于图像识别、成像环境等的复杂性，目前国内基于视频图像系统的设备大都以图像传输为主的，用于视频摘要、证据提取上的产品较少。

目前，主要有广东省公安厅研发的VCS视频图像采集摘要比对器[1]、北京能通公司的S80视频取证终端、成都索贝科技公司的i3DSP视频侦查器等产品。

（4）在应用平台建设上，目前各地都在积极整合运用先进的视频特征提取、结构化分析、视频摘要等技术，结合警务工作，探索建立规范化、系统性视频信息共享工作平台。

例如，广东深圳、重庆等地公安机关已经在探索建立图侦系统，江苏吴江市公安局研发的视频图像智能分析系统，能够对1小时普通视频录像，经处理形成不到5分钟的摘要视频，且不会丢失有效运动对象，便于快速定位嫌疑目标。

2000年以来，国内大学、研究机构积极开展视频内容结构化领域的理论与实践研究，取得了一些积极成果。

比较典型的视频检索系统有:

国防科技大学研制开发的NewVidcoCAR和MIRC系统[6]，主要用于对对新闻节目和多媒体数据库进行查询和检索多媒体信息；由清华大学研发的TV-FI系统[7]，是一个视频节目综合管理系统,提供浏览、查询等多种模式的视频数据访问方式；中科院计算技术研究所开发的MIRES（MultimediaInformationRetrievalSystern）系统[8]，是一个基于特征的多媒体信息检索系统，该系统实现了基于内容的图像检索及文本检索,同时还可以应用于视频检索等相关应用领域。

目前，国内“基于内容”视频数据检索方面，已经形成了由视频特征提取、

结构化分析、视频摘要，以及视频检索和浏览等五项关键技术组成的视频数据检索系统，其处理流程如图1-2所示。

图1-2基于内容的视频数据检索系统处理流程

1.4.主要工作

本文对视频信息的规范化采集、结构化存储和全局性共享等问题进行了研究与分析，提出基于视频内容结构化分析理论，整合先进的视频特征提取、视频结构化、视频摘要、视频索引等图像处理技术，按照“一个证据中心，两个核心应用”方式来构建图侦系统的技术方案和应用模式，使图像处理技术成为案事件的侦破手段和情报来源，推进视频图像监控系统建设由“信息”到“情报”的演进。

主要工作包括：

（1）分析了当前公安图侦工作的困难和制约，研究了视频图像从采集、研判、管理的一体化应用工作模式，基于视频内容结构化分析技术，提出了“视频证据中心、视频图像取证、视频研判分析”为框架网侦系统研发思路。

（2）针对当前图侦工作信息化的迫切需求，结合警务实际，以视频采集、证据管理、研判应用为业务主线，从各个层面研究图侦系统建设的总体技术方案，设计了系统研发的体系架构、逻辑架构、数据架构、基本功能，以及与外部系统之间的关系。

（3）针对非结构化视频建库的不足，从警务一体化的角度和人、车、物基本要素入手，研究并设计了视频结构化证据库的建库模型，包括证据库的体系结构、视频数据结构化定义、对外数据交互方式，以及证据库管理的基本功能。

（4）为提升图侦手段的应用水平，研究分析了图侦工作的关键业务角色、

业务环节和主要业务流程，明确了视频取证、情报研判对图侦系统的基本功能需

求，整合运用视频结构化、视频摘要、视频索引等先进技术，进行了应用软件的设计和实现。

使用结果表明，基于视频结构化开发的图侦系统，能够实现视频监控信息的全程筛选，防止有用信息的流失，再造了视频监控及研判应用的信息流及业务流，有效地支撑了图侦工作机制的转型发展。

第二章基础技术概述

2.1.视频结构化理论综述视频数据在形式上是一种完全没有结构性的数据，但是在内容上它又有着很

强的逻辑结构。

一般来说，一段视频由一些描述独立故事单元的场景（也称作故事单元）构成：

一个场景由一些语义相关的镜头组成，它们一般发生在相同的时间和地点，出现相同的人物或事件；一个镜头是由一些连续的视频帧构成，它由摄像机一次摄像的开始和结束所决定。

视频结构化分析是指将视频序列按照其语义内容分割为镜头、镜头类、场景等语义单元，从而实现视频序列的层次化组织,使之便于随机访问。

根据内容粒度的大小，视频数据一般被结构化为从大到小的4个层次：

视

频、场景、镜头和图像帧，如图2-1所示。

图2-1视频内容的层次组织结构

在层次组织的结构化视频中，各层次的含义和属性分为为：

（1）视频帧（Frame）：

视频流中的一幅静态图像。

帧是视频数据的最小视觉单位,时间上连续的帧合成动态图像序列。

帧的属性有：

直方图、轮廓图、DC和AC分量图等。

（2）镜头（Shot）：

摄像机在一次从打开到关闭的操作过程中记录的一组连续图像帧。

镜头是视频数据的基本单位。

镜头属性有：

持续时间、开始帧号、结束帧号、代表帧集合、特征空间等。

（3）场景（scene）：

在时间和空间上连续的视频背景,由多个连续的镜头组成,描述一段具体的语义内容。

场景也称为故事单元（StoryUnit）。

场景的属性有：

标题、持续时间、镜头数目、开始镜头和结束镜头等。

（4）视频（Video）：

原始的视频数据。

可以包含一个或多个场景。

视频流的属性有：

场景个数和持续时间等。

从时间轴上看，视频是由一系列连续的图像帧和相应音频构成的集合，集合中的基本元素是图像帧。

视频数据的结构化就是对视频在时间上的层次分割，完成原始的非结构化的视频流到结构化的视频实体的转换。

结构化将视频基本元素图像帧划分为多个子集，成为不同层次上的结构实体。

其中，视频文件和帧是视频数据本身所拥有的物理层次，而场景和镜头则是概念上的层次。

划分的基本问题是镜头边界和场景边界检测问题（scene-change-Detection，SCD），镜头检测使用颜色直方图、边缘、运动以及统计信息的方法来识别摄像机的运动；场景识别可以通过镜头背景相似度和音频特性的内容来识别。

越是高级层次的划分越是困难，例如：

故事单元的划分，其物理特征的区别并不明显，需要一些高级语义

的辅助，其划分的有效性依赖于知识库以及基于知识的判断等人工智能技术的发展。

视频的组织过程是从最底层的图像帧开始，借助于镜头检测，将图像帧组合聚合为镜头；通过背景、音频等特性将一系列语义相关、时间相邻的镜头组合为场景；再通过一些高层的语义知识将场景结合为故事。

可见，视频数据的组织划分过程就是视频流的不断抽象的过程。

2.1.1基于镜头的结构化分析

1993年Zhang[12]首次提出了镜头边界检测的思想，奠定了镜头边界检测

的基础。

基本可以概括为三个步骤:

视频帧的特征提取，帧间差的计算，选取准则确定这些差异并判定镜头边界，包括选取适当的阀值。

直方图特征的提取是应用最为广泛的特征，在多种颜色空间中，例如RGB，YUV或是HSV，把每一维的信息量化为N个槽（bin），然后统计属于每个槽内的像素个数，然后进行归一化便得到帧的颜色直方图特征。

由于直方图特征的统计特性，对颜色分布的很好描述，所以帧间差的计算方法多大依靠直方图特征。

一般情况下，当差值超过某一阈值时，认为存在一个镜头边界。

颜色直方图的比较有如下比较方式，如式（2-1），

式（2-2）和式（2-3）所示。

2.1.2基于关键帧的结构化分析

关键帧具有代表性，利用关键帧来描述镜头、场景或是整段视频，以作为结构化分析的基础。

这样能保留视频内容的主要信息，可以减少冗余信息的计算。

Taniguchi[16]采用等间隔采样的方法，按照一定的时间段抽取关键帧。

这种做法的优点是计算简单、速度快，但是造成选取的关键帧过多，且不具有代表性的缺点。

后来，他[17]又直接选取每个镜头的第一帧或是最后一帧作为镜头的关键帧。

Yeung[18]等人提出在一个镜头中先将第一帧作为关键帧，随后的帧与当前的关键帧进行颜色特征的比较，超过某一阈值的，则再选取一个关键帧，重复上面的比较，就可完成镜头内的关键帧的抽取。

2.1.3基于场景聚类的结构化分析

场景就是具有相同语义特性的镜头组，许多研究者利用比较镜头相似度的方法，把相关的镜头聚类成场景[19]，来进行场景分割。

时间固定的镜头聚类算法[20]和时间自适应分组法[21]，也是场景分割算法的代表性工作。

前者在一个特

定时间窗口内，利用里边的视频帧来计算镜头的相似性，而窗口外的镜头的相似

性则不予考虑，聚类效果由于时间的限制具有不完全的确定。

后者提出了时间自适应分组法，克服了固定时间聚类算法的不足，把两个镜头之间的时间距离也作为镜头相似度的考虑因素，距离越大，相似度越小。

另外，AlanHanjalic和WallapakTavanapong采用了图像分块的方法来计算镜头相似性度量，从而聚类算法来构造场景，因为图像的每个区域都从不同角度体现视频场景的特征。

Hanjalic对镜头的关键帧图像合并，得到新的一幅图像，并对其进行分块，以块为最小单元，这样代表两个镜头的两幅新图像，求出他们中距离相似度最大的N个块的距离值，平均后作为镜头之间的相似度，镜头聚类是基于重叠链接的算法（OverlappingLinksConnectingSimilarShots）。

他还介绍了一种用于自动提取视频摘要的聚类方法。

类似的，WallapakTavanapong则直接把静态帧图像分成几个区域，然后通过依次比较对应区域之间的相似度来确定镜头的相似度，也利用镜头链算法提取场景。

Chong-wahNgo等[26]使用张量直方图提取

运动特征，再利用K-means算法来对体育视频进行了聚类和检索。

Vailay

展开阅读全文