数据挖掘技术在案件串并和嫌疑人排查中的应用资料Word下载.docx
《数据挖掘技术在案件串并和嫌疑人排查中的应用资料Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术在案件串并和嫌疑人排查中的应用资料Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
聚类分析方法主要是研究对象中各点之间存在的程度不同的相似性,根据对象属性找出各点间相似程度的序列,把一些相似程度较大的点聚合为一类。
在公安情报分析中,聚类分析方法应用最广泛。
可以对犯罪手段、特点、作案时间等关键要素进行挖掘,帮助分析人员确定具有较高相似度的案件,刻画嫌疑人特征,并把看似不相关的案件进行合并侦查。
可以挖掘发现案件的高发时段、高发地区以及高发的作案手段,指导巡逻防控和情报预警。
3、协同过滤
协同过滤分析方法是在用户群中找到指定用户兴趣相似的用户,综合这些相似用户对某一信息的评价,形成该指定用户对此信息的喜好程度的预测。
一般分为基于项目的协同过滤和基于用户的协同过滤。
在公安实战中,我们可以将案件(一串案件)发生轨迹视为“项目”,将嫌疑人活动轨迹视为“对项目的偏好”,通过计算轨迹吻合度,推荐可能的犯罪嫌疑人。
4、分类与回归
分类与回归分析主要用于找出描述并区分数据类的模型(或函数),以便能够使用模型预测未知的对象类。
分类分析的目的是学会一个分类模型,该模型能把数据库中的项映射到给一组类别中的某一个类。
在公安情报分析中,可以使用分类与回归的分析方法,将特定的人员(例如:
前科人员)映射到“高危人群”中,当“高危人群”出现时,出符合“犯罪内容”特征的犯罪预警。
三、案件串并和嫌疑人排查业务需求
1、业务背景
随着“金盾工程”建设的深入开展,各级公安机关已经逐步建立了各类公共基础信息资源库、人员社会行为动态信息资料库和业务信息系统,积累了大量的数据资源,这些数据资源和信息系统在辅助各级公安机关业务人员进行案件调查工作和服务群众等方面带来了很大的帮助,在一定程度上提高了案件处理的效率和水平。
但是,大部分公安机关对案件进行串并、摸排嫌疑人仍停留在利用经验积累进行人工分析的初级阶段。
面对信息资源不断增长的现状,公安机关迫切需要运用数据挖掘的思想和方法,对各类数据背后所蕴涵的内在的、必然的因果关系进行挖掘,提高案件串并和嫌疑人排查工作效率。
2、业务应用场景
由于犯罪行为动力定型的稳定性和犯罪心理的思维定式,系列犯罪案件的作案人在其不断的犯罪活动中的行为和特征具有稳定性和规律性。
本文所描述的分析方法适用于具有连续作案行为特征的犯罪情报分析,例如:
团伙流窜案件、涉黑涉恶案件等可防性案件,不适用于偶发的、突发的“激情”犯罪。
3、建设目标
使用成熟的图形化展示工具,集成串并案分析、排查嫌疑人功能,建立一个面向情报分析人员的智能分析系统。
系统具备自学习功能,提供便捷、有效的串并案模型和排查模型,促进信息深度利用,提高公安机关信息化应用水平、串并案和排查嫌疑人工作效率。
4、业务流程
(1)建立案件特征库。
分析已破案件特征,包括:
案件类别、作案特点、作案时机、侵害对象、作案工具等项目,分别生成串并案模型。
(2)建立违法犯罪人员特征库。
对已破案件以及相关的违法犯罪人员进行分析,挖掘案件特征与犯罪人员特征的潜在关联关系,构建“高危人群”数据库。
(3)运用串并案模型,针对未破案件,开展案件串并,并推荐出可能作案的高危人群。
(4)构建违法犯罪人员活动轨迹数据库,包括:
违法犯罪人员乘坐出租车轨迹,违法犯罪人员机动车经过卡口(电子警察)轨迹,违法犯罪人员手机经过电子围栏(基站)轨迹,违法犯罪人员上网、住宿、社保卡消费、公交(公共自行车)轨迹,重点人员本地金融活动轨迹,违法犯罪人员室外活动轨迹(基于天网工程人像比对发现)。
备注:
违法犯罪人员机动车包含其本人所有车辆、同住人和同户人所有车辆。
(5)将已串并案件的案发轨迹与符合高危特征的犯罪人员活动轨迹叠加分析,计算时间和空间上的吻合度,并推荐出未破案件的可能嫌疑人。
四、详细设计方案
根据需求分析,实现业务应用功能总体设计思路为:
对数据进行汇集、整合、建模,运用数据挖掘算法发现和揭示数据中隐含的关联关系,并使用图形方式展示。
项目总体逻辑架构图如下:
图1:
总体逻辑架构图
1、数据获取:
对数据挖掘的数据源进行搜集整理。
根据业务需求,搜集案件、嫌疑人、嫌疑人活动轨迹信息,获取数据源连接和访问权限,对数据结构进行分析,完成找到数据的工作。
根据需求和数据源状况,确定数据更新方法、更新策略,选择ETL工具,本项目选择IBMDatastage。
数据源名称
来源
ETL策略
备注
刑事案件信息
本地业务系统
立案时间、每日、增量
用于挖掘案件特征
刑事案件现场勘验信息
勘验时间、每日、增量
违法犯罪人员(本地)
录入时间、每日、增量
按身份证去重,用于挖掘高危人群特征
违法犯罪人员(全国)
公安部下发
每月、批量
户籍人口
录入(修改)时间、每日、增量
用于确定违法犯罪人员同户人
实有人口
用于确定违法犯罪人员同住人
出租车轨迹以及乘客照片
社会资源
乘车时间、每日、增量
照片比对确定身份,发现轨迹
卡口过车信息
过车时间、每日、增量
发现轨迹
电子警察抓拍信息
抓怕时间、每日、增量
电子围栏和话单
经过(通话)时间、每日、增量
网吧上网记录
下网时间、每日、增量
旅馆住宿记录
入住时间、每日、增量
社保卡消费记录
刷卡时间、每日、增量
公交(公共自行车)刷卡记录
重点人员本地金融活动记录
违法犯罪人员室外活动轨迹
经过时间、每日、增量
图像挖掘、图片比对确定身份,发现轨迹
表1:
数据源表
2、预处理:
为数据挖掘提供符合要求数据,包括数据清洗、转换(标准化)、装载、建模。
采用数据抽取工具(ETL),对收集的数据进行抽取、清洗、转换及装载,实现数据的整合、去重,向多维数据仓库提供高质量的数据。
图2:
ETL过程
在此基础上对数据进行关联、建模,为情报分析研判提供可用的数据。
根据业务特性,确定案件、犯罪人员以及犯罪人员活动轨迹三个主题,区分维度数据表和事实数据表,建立数据仓库模型。
下图为案件事实表以及相关维度表数据结构示例。
图3:
数据结构实例(案件表)
3、数据挖掘:
使用挖掘算法进行挖掘,找出有用的信息。
(1)运用聚类分析方法,对某地近十年来的已破刑事案件进行分析,构建刑事案件空间向量矩阵,矩阵的行为一起刑事案件的一个空间向量,矩阵的列为作案手段、选择处所、选择时间、作案特点等特征。
采用聚类操作后,如果多个案件的多个或全部属性都有相似性,就可以认为这是一串案件,并形成一套分类规则,即案件串并模板。
下图展示了部分串并案模板。
图4:
案件串并模板示例
图5:
(2)运用关联规则分析方法,对某地近十年来的已破刑事案件特征(I1:
作案手段、I2:
作案特点、I3:
案件类型、I4:
选择处所)和犯罪分子特征(I5:
户籍地行政区划)进行关联,构建数据库事务集合D。
运用Apriori算法,扫描事务数据库,产生候选项集,设置min_sup=50,逐步迭代,产生频繁k项集Lk以及支持度计数,k≥2且必须要包含I5:
户籍地行政区划;
设置min_conf=80%,由频繁k项集Lk产生并输出强关联规则,得出高危人群数据库。
表2展示了运用关联规则分析方法分析的高危人群部分数据样本。
I1作案手段
I2作案特点
I3案件类型
I4选择处所
I5行政区划
区划名称
迷信
多人作案
诈骗
街面
340823
安徽枞阳县
技术开锁
单人作案
盗窃车内财物
路面
411528
河南息县
冒充军人、干部
412825
河南上蔡县
撬防盗门
入室作案
入室盗窃
工商企业
430427
湖南耒阳市
利用口香糖技术开锁
居民小区
431224
湖南溆浦县
飞车抢夺
抢夺
440229
广东翁源县
插片开锁
452728
广西东兰县
夜间攀爬翻窗
513428
四川凉山籍
表2:
高危人群样例数据
(3)运用串并案模板对现行案件进行串并,并根据案件特征(作案手段、作案特点、案件类型、选择处所等)比对高危人群数据库,推荐出可能作案的高危人群。
图6:
运用串并案模板进行串并案件
(4)建立符合可能作案的高危人群特征(户籍地)的违法犯罪人员活动轨迹数据库,构建案件轨迹与嫌疑人员活动轨迹的空间和时间矢量矩阵,通过计算矢量距离,推导出与案件时间、轨迹吻合度最高,且符合案件特征的可能的作案嫌疑人。
表3展示了一串案件发生时,6个符合特征的嫌疑人手机位置与案件发生地点的空间矢量距离,null表示没有发现其活动信息。
嫌疑人1
嫌疑人2
嫌疑人3
嫌疑人4
嫌疑人5
嫌疑人6
案件1
325m
Null
589m
案件2
600m
400m
5060m
案件3
160m
2430m
3680m
案件4
89