基于机器学习的入侵检测技术概述.pdf
《基于机器学习的入侵检测技术概述.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的入侵检测技术概述.pdf(5页珍藏版)》请在冰豆网上搜索。
计算机工程与应用!
#$引言入侵检测系统%&!
%()*+,-.(&/)/0)-.(1,)/23$4是符合动态安全模型56&7的核心技术之一#它能够检测各种形式的入侵行为#并根据事先定义的安全策略采取相应的响应行为$根据%&分析引擎中使用的检测方法的不同#可以把入侵检测模型分为误用检测和异常检测$误用检测搜索审计事件数据#查看其中是否存在预先定义的误用模式%异常检测提取正常模式审计数据的数学特征#检查事件数据中是否存在与之相违背的异常模式$对于误用检测而言#目前主要有简单模式匹配&专家系统&状态转移法等处理方法#如(.*)&589:
;专家系统&;?
1,)?
0系统&A-,B.2?
(B/(,/系统等$传统的%&存在着大量的问题对未知网络攻击检测能力差&误报率高&占用资源多%对攻击数据的关联和分析功能不足#导致过多的人工参与%对于现在广泛使用的脚本攻击防御能力差等$为了在现代高带宽&大规模网络环境下提高入侵检测的效率&降低漏报率和误报率#把机器学习的方法引入到%&中来#并采用先进的分布式体系结构已成为%&的重要发展方向$本文主要对近年来在入侵检测中使用的机器学习方法进行简要阐述#分析了其优缺点#并对未来的发展趋势进行了展望$6基于机器学习的入侵检测技术机器学习综合利用统计学&证据理论&神经网络&模糊集&粗糙集&进化计算等领域的方法#完成数据总结&概念描述&分类规则提取&数据聚类&相关性分析&偏差分析&序列模式发现等任务$6C$数据挖掘数据挖掘是从大型数据库或数据仓库中提取隐含的&事先未知的&潜在有用的&易被理解的信息的过程$将数据挖掘技术应用于入侵检测领域#利用数据挖掘中的关联分析&序列模式分析&分类分析等算法提取与入侵活动相关的系统特征属性#并根据系统特征属性生成入侵事件的分类模型#用于对入侵事件的自动识别$关联规则提取$关联规则是如下形式的一种数据隐含规则!
#其中!
#是两组数据项#!
#!
#$!
#为数据项集$一般可以用置信度&支持度&期望置信度和作用度等D个参数来描述一个关联规则的属性$目前比较主流的关联算法有E*-.*-算法&E*-.*-;-B算法等$序列模式分析$序列分析是用来发现不同数据记录之间的相关性$挖掘序列模式的步骤一般是排序&大数据项&转换&序列&序列最高化#相应的算法有&1(?
2-0.2/&E*-.*-FF&E*-$.*-.2/等$分类分析$数据分类提取数据库中数据项的特征属性#生成分类模型$常用的算法有决策树&7-EE/*&G?
%H/9?
1/,等$目前真正采用数据挖掘实现的%&主要是I.F+2J-?
大学基于机器学习的入侵检测技术概述张义荣肖顺平鲜明王国玉!
国防科技大学电子科学与工程学院#长沙D$KLM:
82?
-FB*8NO?
(PQ).2C0.2摘要基于机器学习的入侵检测方法是大规模&高带宽网络环境下实现对网络攻击智能检测的关键技术之一$该文对目前主流的基于机器学习的各种入侵检测方法进行了简要介绍和评述#并结合网络攻击的发展趋势#阐述了入侵检测机器学习方法的发展方向$关键词入侵检测机器学习数据挖掘神经网络遗传算法粗糙集支持向量机人工免疫文章编号&!
()&*!
K6*KKKLRD文献标识码+中图分类号;5MSMTKU!
#$%&$%()*+,&-.)/%,%0,)1%023-%.45.%6)7502%8%5&9:
259;&)99579?
59-)A-!
0O.F.V:
F/0)*.(-00-/(0/?
(B:
(P-(/*-(P#G?
)-.(?
FW(-HT.V&/V/(,/;/0O(.F.P1#IO?
(P,O?
D$LMBC.,&50,%()*+,-.(B/)/0)-.()/0O(-X+/,J?
/B.(2?
0O-(/F/?
*(-(P-,.(/.V)O/1)/0O(.F.P-/,).J/?
EEF-/B).-()/FF-P/()-()*+,-.(B/)/0)-.(+(B/*)O/0-*0+2,)?
(0/.VF?
*P/,0?
F/?
(BJ?
(BY-B)O(/)Y.*TZ?
(1-(B,.V0+*/()F1E.E+F?
*-()*+,-.(B/)/0)-.()/0O(-X+/,J?
/B.(2?
0O-(/F/?
*(-(P?
*/P/(/*?
FF1-()*.B+0/B?
(B*/H-/Y/B-()O-,E?
E/*#2/?
(YO-F/#)O/B/H/F.E2/()E*.,E/0).V-),-,E*/,/()/B?
Y/FF?
00.*B-(P).)O/)/(B/(01.V(/)Y.*?
)?
0TD%A()&6.-()*+,-.(B/)/0)-.(#2?
0O-(/F/?
*(-(P#B?
)?
2-(-(P#(/+*?
F(/)Y.*#/(/)-0FP.*-)O2#7.+PO/)#,+EE.*)H/0).*2?
0O-(/#O+2?
(-22+(/基金项目国家自然科学基金资助项目!
编号!
ML6MS作者简介张义荣!
$SLL*#男#博士生#研究方向为网络信息安全$肖顺平#教授#博导$鲜明#博士#副教授$王国玉#研究员#博导$L!
#计算机工程与应用的$%&研究小组()!
他们提出了一种新的入侵检测框架$*+,-+*.-*/0/01+23/4-545678+247954%3*73%:
;678.0482;/70-%4%4/70#$其中!
使用了数据挖掘技术从系统审计数据计算活动模式!
并从这些模式中提取预测特征$然后!
根据所提取的特征定义产生入侵检测规则!
学习算法主要采用关联规则算法+;78%?
2%04A/;73%;%算法实现特征选择$基于BCCD-+=E+入侵检测评估数据源的实验表明!
*+-+*.-是用于入侵检测技术评估的性能最佳的.-F之一$另外!
*GHGF7N等人O)使用神经网络来进行攻击检测!
对于异常检测和误用检测分别采用多层感知机*$E和多层PE神经网络模型!
取得了不错的实验效果$+GHI7;I和+GFIQ584JR583!
)研究了神经网络在异常检测和误用检测中的应用!
他们的实验结果表明基于神经网络的入侵检测模型在误用检测中工作得很好!
但对未知攻击模式则效果不佳$EG$/I73J/S%Q;T/等U)利用自组织映射FV*%做基于主机的入侵检测!
取得了不错的结果$WGX/85A299/0等D)利用基于FV*和反弹传播神经网络=EEVE=%;/:
/%04E87A5154/70Y%285:
Y%4Q78T%的混合检测系统进行入侵和正常模式的可视化和分类研究!
他们的算法对于一种FZY泛洪攻击和两种端口扫描攻击获得了C%以上的检测率!
同时误警率在O%以下$此外!
还有$%和%/0R2IC)采用分层后向传播神经网络检测WEFZY泛洪和端口扫描&XGW50053等_)利用多层感知机*$E%进行误用检测等$神经网络对异常检测具有很多优点不依赖于任何有关数据种类的假设&能处理噪声数据&实现简单$但同时也存在一些问题神经网络拓扑结构的形成不稳定&易陷于局部极小&学习时间长!
而且对判断为异常的事件不能提供解释或说明信息$LG(遗传算法遗传算法H%0%4/GY%8/和WGP78;5:
/07K)做了H+与局部贪婪搜索算法入侵检测比较的实验!
结果表明网络数据的表示形式对流量模型的分类性能有重要影响$张凤斌等O)在L_K年提出了一种基于H+的网络异常入侵检测算法!
其基本思想是用滑动窗口将系统各属性表示为特征向量!
从而将系统正常状态分布在0维空间中!
并使用遗传算法进化检测规则集来覆盖异常空间!
实验表明算法可提高检测率$遗传算法适合数值求解那些带有多参数&多目标和在多区域但连通性较差的YE,I583优化问题!
它不需要对目标有精确的了解!
能处理带有大量噪声和无关数据的变化事件$在异常入侵检测中!
取得了较好的效果$不利之处在于编码表示的不规范&染色体选择和初始群体选取的困难!
另外!
能否收敛到最优解也是个问题$LGK粗糙集粗糙集=721IF%4%理论在处理大量数据&消除冗余信息方面有着良好的结果$在0/N操作系统中!
通过对进程运行过程中产生的一系列系统调用的分析!
有可能发现进程的异常运行状态!
进而可以判断出该系统是否受到攻击$近年来788%;4&$%&等人在以进程正常运行时产生的系统调用短序列为模型来刻画进程正常运行状态方面做了大量卓有成效的工作$粗糙集理论提供了一套比较完备的从小样本数据中寻找规律的系统方法!
可找到描述正常模型的最小预测规则集!
有利于提高检测速度$定义信息系统是一个二元组,$-!
&%!
其中-是一个非空的有限对象集!
称为对象空间)&是一个非空的属性集$每个属性%确定了一个从对象空间到%的值域之间的映射!
%&!
%-#.%!
.%是属性%的值域$定义L决策系统是形为,$-!
&$a/b%的信息系统!
这里/%&是决策属性!
&为决策系统的条件属性集!
%&是条件属性$定义(给定信息系统,$-!
&%!
对于属性集*&定义关系,01,*%ca!
%-Ld!
%*!
%$%!
%b为&中的*不可分关系$给定某进程的一个正常系统调用序列样本集!
用长度为2e的窗口在样本集中的序列上滑动!
得到了一个以长度2e的序列段为对象的决策系统1!
序列段的2个一般位置属性组D计算机工程与应用!
#初始抗原克隆选择自我模式匹配!
删除否定选择异常行为检测器正常行为待检测模式$%图&基于人工免疫的()原理成了!
的条件属性集末位置属性为!
的决策属性#定义*关于决策的约简是指决策系统$+$%!
#-%中使$&!
$#%($&!
$)#%成立的最小属性集&基于关于决策的约简可以得到形为!
的最小决策规则集其中!
(#*$*+*$,%($#(#$,%,$%在把粗糙集理论应用于()方面./0/12345等6&!
7把粗糙集分类用于入侵检测的特征排序与选择并利用-对规则进行进化学习算法可以得到(89:
;2?
8?
4过程和A?
B52包含的计算免疫模型用于异常模式匹配#蔡忠闽等6&C7利用粗糙集理论对D$E系统调用短序列做异常检测取得了良好的效果#粗糙集理论适于对模糊和不完全知识的处理但对错误信息描述的确定性机制过于简单且在约简的过程中缺乏交互验证的功能当存在噪声时其结果往往不稳定*精度不高#因此和其它方法如神经网络等结合将会大大增强其处理问题的能力#/F支持向量机支持向量机+)GH%是基于结构风险最小化+)AH%原理根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷以期获得最好的范化能力#给定符合某种未知概率分布.+,/%的训练数据集+,0/0%+,I/I%+,J/J%,+,1/1%$2$,%I-2为一非空集合设计一个最优分类器3+,%2,:
IK&-能够用于对测试数据集上的概率分布.+,/%的估计&当2为线性可分的45时原问题为在线性可分实数空间上寻找一个广义最优分类面的问题&该问题可以转化为一个对偶优化问题L3M6+!
%+5!
0+&%!
07Ǽ+&%!
0!
8/0/8+,0-,8%其中!
0&N0+,550+&%/0!
0+N#从而得到最优分类函数为3+,%+54,+9.,%:
;-+54,50+&%!
0/0+,0.,%:
;O-在输入空间是非线性情形下统计学习理论通过核函数将输入空间变换到一个高维特征空间然后在特征空间中构造最优分类面实现分类核函数只要满足HPQP条件即可/设核函数为=+,0,8%则对应的优化对偶问题为L3M6+!
%+50+&%!
0:
&J508+&%!
0!
8/0/8=+,0.,8%其中!
0&N0+&J,550+&%/0!
0+N#相应地最终决策函数为3+,%+54,+9.,%:
;-+54,50+&%!
会话每一属性对)GH分类的重要性#H/.B?
等6#7利用混合的无监督的聚类+DX%方法和超平面的Y4:
)GH算法作异常检测算法结合了DX的快速性和Y4:
)GH的精确性#Z/0B等6#7针对入侵检测中遇到的含噪数据提出了健壮)GH+A)GH%的分类方法#饶鲜等6#*7利用)GH方法对进程运行时产生的系统调用序列建立了入侵检测模型实验表明所建立的检测模型需要的先验知识很少并且训练时间较短#李辉*管晓宏6#F7针对入侵检测所获得的高维小样本异构函数集将有监督的X:
)GH算法和无监督的Y4:
QS3)GH算法用于网络连接信息数据中