1、数据挖掘技术在案件串并和嫌疑人排查中的应用数据挖掘技术在案件串并和嫌疑人排查中的应用一、序言传统的信息管理系统MIS,主要针对的是日常的结构化问题,以提高组织的运营效率为目标,通过将大量的数据转换为有价值的信息来强化管理.随着社会的进步和技术的发展,人们不再仅仅满足于获取多种信息和简单的使用信息,而是想在深层次上利用这些信息为组织的决策提供帮助.因此,为了弥补MIS的不足,为了更好进行市场预测、资源配置、人力优化和生产管理,在管理科学、运筹学、数理统计、人工智能等新方法和新技术的推动下,人们开始重视决策支持系统DSS的研究和应用.9.11事件发生以后,西方主要发达国家都高度重视数据挖掘在刑事犯
2、罪情报分析领域的应用研究.刑事犯罪数据的分析与挖掘主要是通过对犯罪记录进行分析,从而发现犯罪行为的规律、趋势,了解不同犯罪行为之间的关联,以与何种状态会诱发何种犯罪行为,进行串并案分析,提供破案线索和情报,预测并预防犯罪.在中国,随着经济增长、社会变革深入、人员流动性增强,影响社会稳定的不安定因素增加.特别是20#以后,中国大陆人均GDP突破3000美元,侵财类案件进入高发周期,流窜作案、团伙作案等新型犯罪手段层出不穷.部分公安机关开始运用商业智能BI的思维,利用商业智能BI分析工具,结合长期积累的侦查办案经验,探索建设警务决策支持系统,研究开展基于犯罪数据的分析挖掘.二、案件串并和嫌疑人排查
3、的主要方法1、关联规则分析关联规则算法指数据中两个或多个变量取值之间暗含的某种规律性.支持度是对关联规则重要性的衡量,置信度是对关联规则准确性的衡量.以挖掘关联规则为目标的挖掘过程一般包含两个阶段,第一阶段,从资料库中找出所有的高频项目组,它们出现的频率相对于所有组而言,达到或超过所设定的最小支持度.第二阶段,从高频项目组中产生关联规则,保证应用该规则得到的结果可以达到最小的置信度.关联规则在公安情报分析中的典型应用是对犯罪行为规律的挖掘.运用关联规则可以发现犯罪分子的身份、年龄、地域等特征与其在实施犯罪行为中所使用的手段、特点、选择的地点以与侵害对象等方面的关联规律性,把具有相似特征的犯罪人
4、员从海量数据中分拣出来,形成高危人群数据库,利用高危人群数据库指导帮助案件侦破.2、聚类分析聚类分析方法主要是研究对象中各点之间存在的程度不同的相似性,根据对象属性找出各点间相似程度的序列,把一些相似程度较大的点聚合为一类.在公安情报分析中,聚类分析方法应用最广泛.可以对犯罪手段、特点、作案时间等关键要素进行挖掘,帮助分析人员确定具有较高相似度的案件,刻画嫌疑人特征,并把看似不相关的案件进行合并侦查.可以挖掘发现案件的高发时段、高发地区以与高发的作案手段,指导巡逻防控和情报预警.3、协同过滤协同过滤分析方法是在用户群中找到指定用户兴趣相似的用户,综合这些相似用户对某一信息的评价,形成该指定用户
5、对此信息的喜好程度的预测.一般分为基于项目的协同过滤和基于用户的协同过滤.在公安实战中,我们可以将案件一串案件发生轨迹视为项目,将嫌疑人活动轨迹视为对项目的偏好,通过计算轨迹吻合度,推荐可能的犯罪嫌疑人.4、分类与回归分类与回归分析主要用于找出描述并区分数据类的模型或函数,以便能够使用模型预测未知的对象类.分类分析的目的是学会一个分类模型,该模型能把数据库中的项映射到给一组类别中的某一个类.在公安情报分析中,可以使用分类与回归的分析方法,将特定的人员例如:前科人员映射到高危人群中,当高危人群出现时,出符合犯罪内容特征的犯罪预警.三、案件串并和嫌疑人排查业务需求1、业务背景随着金盾工程建设的深入
6、开展,各级公安机关已经逐步建立了各类公共基础信息资源库、人员社会行为动态信息资料库和业务信息系统,积累了大量的数据资源,这些数据资源和信息系统在辅助各级公安机关业务人员进行案件调查工作和服务群众等方面带来了很大的帮助,在一定程度上提高了案件处理的效率和水平.但是,大部分公安机关对案件进行串并、摸排嫌疑人仍停留在利用经验积累进行人工分析的初级阶段.面对信息资源不断增长的现状,公安机关迫切需要运用数据挖掘的思想和方法,对各类数据背后所蕴涵的内在的、必然的因果关系进行挖掘,提高案件串并和嫌疑人排查工作效率.2、业务应用场景由于犯罪行为动力定型的稳定性和犯罪心理的思维定式,系列犯罪案件的作案人在其不断
7、的犯罪活动中的行为和特征具有稳定性和规律性.本文所描述的分析方法适用于具有连续作案行为特征的犯罪情报分析,例如:团伙流窜案件、涉黑涉恶案件等可防性案件,不适用于偶发的、突发的激情犯罪.3、建设目标使用成熟的图形化展示工具,集成串并案分析、排查嫌疑人功能,建立一个面向情报分析人员的智能分析系统.系统具备自学习功能,提供便捷、有效的串并案模型和排查模型,促进信息深度利用,提高公安机关信息化应用水平、串并案和排查嫌疑人工作效率.4、业务流程1建立案件特征库.分析已破案件特征,包括:案件类别、作案特点、作案时机、侵害对象、作案工具等项目,分别生成串并案模型.2建立#犯罪人员特征库.对已破案件以与相关的
8、#犯罪人员进行分析,挖掘案件特征与犯罪人员特征的潜在关联关系,构建高危人群数据库.3运用串并案模型,针对未破案件,开展案件串并,并推荐出可能作案的高危人群.4构建#犯罪人员活动轨迹数据库,包括:#犯罪人员乘坐出租车轨迹,#犯罪人员机动车经过卡口电子警察轨迹,#犯罪人员手机经过电子围栏基站轨迹,#犯罪人员上网、住宿、社保卡消费、公交公共自行车轨迹,重点人员本地金融活动轨迹,#犯罪人员室外活动轨迹基于天网工程人像比对发现.备注:#犯罪人员机动车包含其本人所有车辆、同住人和同户人所有车辆.5将已串并案件的案发轨迹与符合高危特征的犯罪人员活动轨迹叠加分析,计算时间和空间上的吻合度,并推荐出未破案件的可
9、能嫌疑人.四、详细设计方案根据需求分析,实现业务应用功能总体设计思路为:对数据进行汇集、整合、建模,运用数据挖掘算法发现和揭示数据中隐含的关联关系,并使用图形方式展示.项目总体逻辑架构图如下:图1:总体逻辑架构图1、数据获取:对数据挖掘的数据源进行搜集整理.根据业务需求,搜集案件、嫌疑人、嫌疑人活动轨迹信息,获取数据源连接和访问权限,对数据结构进行分析,完成找到数据的工作.根据需求和数据源状况,确定数据更新方法、更新策略,选择ETL工具,本项目选择IBM Datastage. 数据源名称来源ETL策略备注刑事案件信息本地业务系统立案时间、每日、增量用于挖掘案件特征刑事案件现场勘验信息本地业务系
10、统勘验时间、每日、增量用于挖掘案件特征#犯罪人员本地本地业务系统录入时间、每日、增量按#去重,用于挖掘高危人群特征#犯罪人员全国公安部下发每月、批量按#去重,用于挖掘高危人群特征户籍人口本地业务系统录入修改时间、每日、增量用于确定#犯罪人员同户人实有人口本地业务系统录入修改时间、每日、增量用于确定#犯罪人员同住人出租车轨迹以与乘客照片社会资源乘车时间、每日、增量照片比对确定身份,发现轨迹卡口过车信息本地业务系统过车时间、每日、增量发现轨迹电子警察抓拍信息本地业务系统抓怕时间、每日、增量发现轨迹电子围栏和话单本地业务系统经过通话时间、每日、增量发现轨迹网吧上网记录本地业务系统下网时间、每日、增量
11、发现轨迹旅馆住宿记录本地业务系统入住时间、每日、增量发现轨迹社保卡消费记录社会资源刷卡时间、每日、增量发现轨迹公交公共自行车刷卡记录社会资源刷卡时间、每日、增量发现轨迹重点人员本地金融活动记录公安部下发刷卡时间、每日、增量发现轨迹#犯罪人员室外活动轨迹本地业务系统经过时间、每日、增量图像挖掘、图片比对确定身份,发现轨迹表1:数据源表2、预处理:为数据挖掘提供符合要求数据,包括数据清洗、转换标准化、装载、建模.采用数据抽取工具ETL,对收集的数据进行抽取、清洗、转换与装载,实现数据的整合、去重,向多维数据仓库提供高质量的数据.图2:ETL过程在此基础上对数据进行关联、建模,为情报分析研判提供可用
12、的数据.根据业务特性,确定案件、犯罪人员以与犯罪人员活动轨迹三个主题,区分维度数据表和事实数据表,建立数据仓库模型.下图为案件事实表以与相关维度表数据结构示例.图3:数据结构实例案件表3、数据挖掘:使用挖掘算法进行挖掘,找出有用的信息.1运用聚类分析方法,对某地近十年来的已破刑事案件进行分析,构建刑事案件空间向量矩阵,矩阵的行为一起刑事案件的一个空间向量,矩阵的列为作案手段、选择处所、选择时间、作案特点等特征.采用聚类操作后,如果多个案件的多个或全部属性都有相似性,就可以认为这是一串案件,并形成一套分类规则,即案件串并模板.下图展示了部分串并案模板.图4:案件串并模板示例图5:案件串并模板示例
13、2运用关联规则分析方法,对某地近十年来的已破刑事案件特征I1:作案手段、I2:作案特点、I3:案件类型、I4:选择处所和犯罪分子特征I5:户籍地行政区划进行关联,构建数据库事务集合D.运用Apriori算法,扫描事务数据库,产生候选项集,设置min_sup=50,逐步迭代,产生频繁k项集Lk以与支持度计数,k2且必须要包含I5:户籍地行政区划;设置min_conf=80%,由频繁k项集Lk产生并输出强关联规则,得出高危人群数据库.表2展示了运用关联规则分析方法分析的高危人群部分数据样本.I1作案手段I2作案特点I3案件类型I4选择处所I5行政区划区划名称迷信多人作案诈骗街面340823#枞阳县
14、技术开锁单人作案盗窃车内财物路面411528河南息县冒充军人、干部单人作案诈骗412825河南上蔡县撬防盗门入室作案入室盗窃工商企业430427湖南耒阳市利用口香糖技术开锁入室作案入室盗窃居民小区431224湖南溆浦县飞车抢夺多人作案抢夺440229广东翁源县插片开锁多人作案入室盗窃452728#东兰县夜间攀爬翻窗多人作案入室盗窃居民小区513428四川凉山籍表2:高危人群样例数据3运用串并案模板对现行案件进行串并,并根据案件特征作案手段、作案特点、案件类型、选择处所等比对高危人群数据库,推荐出可能作案的高危人群.图6:运用串并案模板进行串并案件4建立符合可能作案的高危人群特征的#犯罪人员活动
15、轨迹数据库,构建案件轨迹与嫌疑人员活动轨迹的空间和时间矢量矩阵,通过计算矢量距离,推导出与案件时间、轨迹吻合度最高,且符合案件特征的可能的作案嫌疑人.表3展示了一串案件发生时,6个符合特征的嫌疑人手机位置与案件发生地点的空间矢量距离,null表示没有发现其活动信息.嫌疑人1嫌疑人2嫌疑人3嫌疑人4嫌疑人5嫌疑人6案件1325mNullNull589mNullNull案件2Null600m400m5060mNullNull案件3160m2430mNullNullNull3680m案件4400m890m280mNullNullNull表3:嫌疑人手机位置与案件发生地点的空间矢量矩阵通过对表3的数据
16、进行分析,可以初步判定嫌疑人1、嫌疑人2、嫌疑人3具有重大嫌疑.在实际操作中,单一种类轨迹构成的矩阵可能非常稀疏,往往需要将多种轨迹信息进行叠加分析,以提高分析的准确性.4、用户界面:将数据挖掘通过可视化的方法展示给用户.1数据挖掘过程具有高度的交互性,在涉与多维数据挖掘的过程中,要构建灵活的用户界面和探索式的挖掘环境.在串并案模板挖掘过程中,我们采用构建立方体Cube的方法,允许用户运用知识背景进行下钻、切片、维度旋转、设置度量等操作.2数据挖掘结果展示采用可视化图形报表技术,具有用户友好界面,使得所发现的知识容易被理解.对于轨迹类信息的展示,采用GIS技术,将案件发生地点和嫌疑人活动轨迹以散点形态展示在地图上.图7:报表展示数据挖掘结果图8:数据挖掘立方体5、数据挖掘与隐私保护数据挖掘对公民隐私的触与便不可避免.公安机关掌握了大量公民个人隐私信息,侵犯公民个人隐私是从事犯罪情报分析工作不可规避的风险.从技术层面上讲,公安机关运用公民活动轨迹信息进行嫌疑人排查可以为侦查破案提供更加有效的支撑.但是,从保护隐私的角度来说,只可以使用嫌疑人员的活动轨迹进行挖掘.
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1