1、n如在欺诈检测中,离群点可能意味欺诈行为的发生,在入侵检测中离群点可能意味入侵行为的发生。n实例:n例如我们设儿童上学的具体年龄总体服从正态分布,所给的数据集是某地区随机选取的开始上学的20名儿童的年龄具体的年龄特征如下:年龄=6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12 那么.相应的统计参数是:均值=9.1;标准差=2.3。如果选择数据分布的阈值为:阈值=均值2标准差 故在4.5,13.7区间以外的数据都是潜在的离群点,将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知,此地的孩子普遍上学较晚.教育部门以后可据此作一些政策上的
2、改进。n案例:孤立点挖掘在高等学校科技统计数据分案例:孤立点挖掘在高等学校科技统计数据分析中的应用析中的应用 孤立点实验数据源:孤立点实验数据源:(选自全国普通高等学校科技统计数据上报基表中的数据)甘肃省甘肃省2010年科技统计上报数据中的一所高校数据年科技统计上报数据中的一所高校数据 对基表中的数据,如选取科技人员职称和学历作为最终测试对象,因职称只有院士、正高、副高、讲师、助教和其它职称共六种职称,而学历只有高中以下、中专、大专、本科、硕士和博士共六种职称,职称和学历跨度小,检测出来的孤立点孤立程度相对较低,故选取跨度较大的出生年月作为测试对象。选取三个指标:出生年月、学位和职称作为检测属
3、性。n实验及结果分析实验及结果分析 用DS算法时,取M=20,算法返回距离的值最大的20个教师信息如表1所示。通过分析,可以发现孤立点数据中存在两种典型的孤立点类别:(1)孤立点数据远远偏离于正常值的范围 序号1-4(噪声)(2)孤立点数据偏离于正常值的范围 可能是录入错误,可能是真实数据序号出生年月学历职称1198907大学本科正高级2198510硕士研究生副高级3196008博士研究生初级4197909专科副高级5196002博士研究生中级6195511博士研究生副高级7198109硕士研究生副高级8197408博士研究生初级9198109硕士研究生副高级10198206博士研究生副高级1
4、1198301博士研究生副高级12195706博士研究生副高级13195712博士研究生副高级14197302硕士研究生正高级15197211大学本科正高级16195001硕士研究生正高级17197304硕士研究生副高级18195011硕士研究生副高级19196911硕士研究生初级20197002硕士研究生初级离群点检测的应用领域离群点检测的应用领域n电信、保险、银行中的欺诈检测与风险分析 n发现电子商务中的犯罪行为n灾害气象预报n税务局分析不同团体交所得税的记录,发现异常模型和趋势 n海关、民航等安检部门推断哪些人可能有嫌疑 n海关报关中的价格隐瞒n营销定制:分析花费较小和较高顾客的消费行为
5、n医学研究中发现医疗方案或药品所产生的异常反应n计算机中的入侵检测n应用异常检测到文本编辑器,可有效减少文字输入的错误 n离群点挖掘离群点挖掘(Outlier miningOutlier mining)n离群点挖掘问题由两个子问题构成:。n(1)定义在一个数据集中什么数据是不一致或离群的数据;n(2)找出所定义的离群点的有效挖掘方法。离群点挖掘问题可以概括为如何度量数据偏离的程度和有效发现离群点的问题。为什么会出现离群点?n测量、输入错误或系统运行错误所致n数据内在特性所决定n客体的异常行为所致客体的异常行为所致 由于离群点产生的机制是不确定的,离群点挖掘算法检测出的“离群点”是否真正对应实际
6、的异常行为,不是由离群点挖掘算法来说明、解释的,只能由领域专家来解释,离群点挖掘算法只能为用户提供可疑的数据,以便用户引起特别的注意并最后确定是否真正的异常。对于异常数据的处理方式也取决于应用,并由领域专家决策。离群点挖掘中需要处理的几个问题离群点挖掘中需要处理的几个问题n(1)全局观点和局部观点全局观点和局部观点离群点与众不同,但具有相对性。n(2)点的离群程度点的离群程度可以通过定义对象的偏离程度来给对象打分离群因子(Outlier Factor)或离群值得分(Outlier Score),即都为离群点的情况下,也还有分高和分低的区别。n(3)离群点的数量及时效性离群点的数量及时效性正常点
7、的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于5%甚至1%离群点实例离群点实例n一个人的年龄为-999就可能是由于程序处理缺省数据设置默认值所造成的;n一个公司的高层管理人员的工资明显高于普通员工的工资可能成为离群点但却是合理的数据(如平安保险公司2007年 5位高管税后收入超过了1000万元);n一部住宅电话的话费由每月200元以内增加到数千元可能就因为被盗打或其它特殊原因所致;n一张信用卡出现明显的高额消费也许是因为是盗用的卡。n离群点与众不同但具有离群点与众不同但具有相对性:相对性:高与矮,疯子与常人。n类似术语:类似术语:Outlier mining,Ex
8、ception mining:异常挖掘、离群挖掘、例外挖掘和稀有事件挖掘。离群点检测方法分类离群点检测方法分类从使用的从使用的主要技术路线主要技术路线角度分类角度分类n基于统计的方法基于统计的方法n基于距离的方法基于距离的方法n基于密度的方法基于密度的方法n基于聚类的方法基于聚类的方法n基于偏差的方法n基于深度的方法n基于小波变换的方法n基于神经网络的方法从从类标号类标号(正常或异常正常或异常)利用的程度利用的程度分类分类n无监督的离群点检测方法无监督的离群点检测方法q在实际情况下,没有提供类标号n有监督的离群点检测方法q要求存在离群点类和正常类的训练集n半监督的离群点检测方法q训练数据包含被
9、标记的正常数据,但是没有关于离群点对象的信息 离群点检测中需要处理的问题离群点检测中需要处理的问题(1)用于定义离群点的属性个数用于定义离群点的属性个数n一个对象只有单个属性n一个对象具有多个属性:q可能某个属性异常,某个属性正常如:对于男生而言,身高1.6m,体重55kg,这个很正常;身高1.6m,体重75kg,这个有点离群;身高1.8m,体重75kg,基本正常。若对于女生,则三组值可能都不太正常。n所以,定义离群点需要指明如何使用多个属性的值确定一所以,定义离群点需要指明如何使用多个属性的值确定一个对象是否离群?个对象是否离群?(2)全局观点和局部观点全局观点和局部观点n一个对象可能相对于
10、所有对象看上去离群,但它相对于它的局部近邻不是离群的q例如:身高1.85m对于一般人群是不常见的,但对于职业篮球运动员不算什么(3)点的离群程度点的离群程度n某些技术方法是以二元方式来报告对象是否离群点,即:离群点或正常点q但,这不能反映某些对象比其他对象更加极端偏离的基本事实q通过定义对象的离群程度来给对象打分,如都为离群点的情况下,也还有分高和分低的区别。离群点得离群点得分分(outlier score)或离群因子或离群因子(Outlier Factor)离群点检测的挑战和前提离群点检测的挑战和前提n挑战:q数据中有多少离群点?q方法应该是无监督的,就像在干草堆中寻找一根针n前提假设q假定
11、数据集中被认为正常的点数远远超过被认为离群的点数基于统计的离群点检测基于统计的离群点检测基于统计的离群点检测n这类方法大部分是从针对不同分布的离群点检验方法发展起来的,通常用户使用分布来拟合数据集。q假定所给定的数据集存在一个分布或概率模型(例如,正态分布或泊松分布),然后将与模型不一致(即分布不符合)的数据标识为离群数据。基于统计的离群点检测n假定用一个参数模型来描述数据的分布(如正态分布)应用基于统计分布的离群点检测方法依赖于q数据分布q参数分布(如均值或方差)q期望离群点的数目 (置信度区间)离群点的概率定义离群点的概率定义n离群点的概率定义:q离群点是一个对象,关于数据的概率分布模型,
12、它具有低概率n概率分布模型通过估计用户指定的分布的参数,由数据创建。q例:如果假定数据具有高斯分布,则基本分布的均值和标准差可以通过计算数据的均值和标准差来估计,然后可以估计每个对象在该分布下的概率。实例:检测一元正态分布中的离群点实例:检测一元正态分布中的离群点n下面利用统计学中最常用的分布-高斯(正态)分布,来介绍一种简单的统计学离群点检测方法。q正态分布用记号:N(,)表示,表示均值,表示方差。cN(0,1)的10.31731.50.133620.04552.50.012430.00273.50.000540.0001来自N(0,1)分布的对象(值)出现在分布尾部的机会很小。例如,对象落
13、在 3标准差的中心区域以外的概率仅有0.0027。更一般地,如果x是属性值,则|x|=c的概率随c增加而迅速减小。设=p(|x|c)。表6-1显示当分布为N(0,1)时c的某些样本值和对应的值。注意:离群值超过4个标准差的值出现的可能性是万分之一。检测一元正态分布中的离群点定义定义n定义 设属性x 取自具有均值0 和标准差1 的高斯分布。如果属性值x 满足:P(|x|c)=,其中c 是一个选定的常量,则x以概率1-为离群点。q为了使用该定义,需要指定值。从不寻常的值(对象)预示来自不同的值的观点来说,表示我们错误地将来自给定分布的值分类为离群点的概率。从离群点是N(0,1)分布的稀有值的观点来
14、说,表示稀有程度。n如果(正常对象的)一个感兴趣的属性的分布是具有均值和标准差的正态分布,即 分布,则可以通过变换z=(x-)/转换为标准正态分布N(0,1),通常和是未知的,可以通过样本均值和样本标准差来估计。n实践中,当观测值很多时,这种估计的效果很好;另一方面,由概率统计中的大数定律可知,在大样本的情况下可以用正态分布近似其它分布。n在该图中,中心线是观测值的预测值,3 对应上下控制线,2对应上、下警告线。根据3原则,99.73%的观测值将落在上下控制线的区间内,仅有0.27%的观测值落在此区间之外。质量控制示意图+3xt-3-2+2对于观测样本对于观测样本X:n(1)如此点在上、下警告
15、线之间区域内,则测定过程处于控制状态,生产过程或样本分析结果有效;n(2)如果此点超出上、下警告线,但仍在上、下控制线之间的区域内,提示质量开始变劣,可能存在“失控”倾向,应进行初步检查,并采取相应的校正措施;n(3)若此点落在上、下控制线之外,表示生产或测定过程“失控,生产的是废品或观测样本无效。应立即检查原因,予以纠正。质量控制示意图t+3x-3-2+2基于统计的离群点检测方法的优缺点基于统计的离群点检测方法的优缺点n优点:q离群点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。q当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。n缺点:q大部分统计方法是针对单个属性的,对于多元数据技术方法较少。q
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1