基于免疫遗传演化的检测器生成算法.docx

资源描述

基于免疫遗传演化的检测器生成算法.docx

《基于免疫遗传演化的检测器生成算法.docx》由会员分享，可在线阅读，更多相关《基于免疫遗传演化的检测器生成算法.docx（5页珍藏版）》请在冰豆网上搜索。

基于免疫遗传演化的检测器生成算法.docx

基于免疫遗传演化的检测器生成算法

摘要：

传统人工免疫方法中对自体的定义不是动态的，这并不符合真实的系统环境。

因为随着时间的积累，有些正常与异常的区别会变小，甚至相互转化。

所以，必须根据环境的变化动态调整自体集。

另外，采用有限差异变异和基因重排机制产生初始检测器集，将遗传算法引入到成熟检测器的免疫进化过程中，由于遗传算法具有良好的全局寻优能力，可有效地提高优质成熟检测器的产生并缩短成熟时间。

基于KDDcup数据集上的仿真实验结果证明了本方法在检测异常和入侵方面能表现出良好的性能。

　　关键词：

人工免疫；入侵检测；检测器

　　1人工免疫系统

　　通过研究生物免疫系统的各个组成和入侵检测模型的各个方面，可以列出它们所具有的相似性。

生物机体里面的抗原入侵可对应计算机网络待检测事件；入侵检测动作则模拟了抗体对抗原的检测，同时，生物的免疫记忆特性也正好对应着检测器的规则提取。

基于人工免疫原理构建入侵检测系统给当前入侵检测研究很大的启发，这也正是我们将其引入到入侵检测研究的重要原因。

　　免疫方法中的基本定义：

（1）自体集/非自体集。

在不同的问题域中，对自体和非自体的定义是不同的。

因为本文主要研究网络入侵检测方面，所以非自体代表来自网络攻击数据包，自体代表正常的网络数据连接。

设问题域为X∈{0，1}（0表示正常，1表示异常），它包含两个子集：

自体集O和非自体集F，这两个集合有OF=S，O∩F=，其中S表示形态空间。

（2）抗体与抗原。

由于本文的入侵检测数据源主要来至于网络，而网络数据包含了多个属性特征。

我们可以将这些属性特征映射到某一实数范围内，并将每一个网络连接数据与一个d维向量相对应。

d维向量的每一个分量代表了其对应网络数据的一个测度，同时，各个分量也可以看成是一个基因。

　　（3）亲和度。

免疫识别机理是通过抗原表位与抗体表位的结合度来实现的，这在人工免疫方法中表现为亲和度的概念。

亲和度是一种度量抗原与抗体紧密程度的一种数据量。

另外，亲和度也可以用于测量两个抗体之间的结合程度，因为从数据检测的角度，我们不区分它们各自的特性，而只关心它们的数据构成。

式

（1）为亲和度计算公式，其中F（t\-i,t\-j）表示亲和度，d（t\-i,t\-j）表示抗体t\-i与抗原t\-j之间的距离。

从公式易知：

抗体与抗原的距离越近，亲和度越高，反之则越低。

　　[JZ（]F（t\-i,t\-j）=[SX（]1[]1+d（t\-i,t\-j）[SX）][JZ）][JY]

（1）

　　由于编码方式不同，可选的距离函数也不同。

当用二进制编码时，一般可以用连续r位匹配或海明距离表示；当用实数编码时，可以用欧式距离或曼哈顿距离表示。

　　2检测模型概述

　　本文提出的检测模型如图1所示，下面从检测器成熟的角度来介绍这一模型的工作原理：

首先是未成熟检测器的生成；未成熟检测器的生成是该模型中的重要一环，因为它直接影响了成熟检测器的可选范围。

我们在传统的随机生成算法中加入了亲和度变异和基因重排机制，并以此来生成未成熟检测器。

然后是成熟检测器的生成:

在成熟检测器的选择过程中，首先是经历否定选择，而后通过遗传进化生成成熟检测器。

最后在检测的过程中，根据检测效果，实时的启动成熟检测器再生过程。

　　3免疫检测器自适应生成算法

　　本文采用有限差异变异和基因重排机制产生初始检测器集，通过耐受过程使其在较短的时间内生成更多的有效成熟检测器。

将遗传算法引入到成熟检测器的免疫进化过程中，由于遗传算法具有良好的全局寻优能力，可有效的提高优质成熟检测器的产生并缩短成熟时间。

　　3.1未成熟检测器生成

　　未成熟检测器的生成直接影响到成熟检测器的选择搜索范围，在实际应用中需要检测的往往是多种异常。

这些异常可能在不同的时刻发生，并且与一些正常的数据混在一起，需要通过进化来不断区分。

在面对这样的情形时，自适应否定选择学习算法将很难快速搜索，所以要对该算法进行改进使其具有更加合理的多样性保持方法，从而避免陷于局部最优。

　　为达到一个较好的全局搜索，必须有多样化的初始检测器生成机制。

本文结合随机生成、亲和度变异和基因重排产生未成熟检测器。

　　未成熟检测器的生成方法按照以下步骤：

①产生初始检测器集合；②对检测器集合中的每一个检测器，与引导抗原数据相匹配，记录其亲和度；③达到最大进化代数则结束；④依据亲和度变异产生新的检测器集合Rl；⑤随机产生新的预检测器集合R2；⑥基因重排产生新的预检测器集合R3；⑦新检测器集R=R1+R2+R3，转第②步继续执行。

　　由于本方法结合了亲和度变异和基因重排机制，因此，能够避免对成熟检测器的局部收敛而达到全局最优。

　　结合亲和度变异，有限变异和记忆重排机制生成未成熟检测器有如下的特点：

它能使算法在全局范围内进行搜索，从而使生成的检测器集对多种未知入侵都产生检测能力。

基于变异机制的检测器生成，为搜索算法增加了在较短的时间内能选择到有效检测器的概率，从而缩短了检测器的成熟时间。

　　3.2成熟检测器生成

　　成熟检测器生成如图3所示。

　　本算法中，未成熟检测器成熟的过程需要经历自体耐受和遗传进化，图3为成熟检测器进化生成示意图。

　　3.2.1流程图说明

　　①生成未成熟检测器集与抗原引导集合；②根据未成熟检测器与引导抗原的亲和度进行遗传演化操作，并按照亲和度大小排序；根据亲和度变异，基因重排机制生成下一代未成熟检测器，并与父辈检测器一同参与遗传竞争；③将未成熟的检测器进行否定选择，使其成熟；④将成熟的检测器进行变异操作并分化得到未成熟检测器，并加入到未成熟器集合中；⑤判断是否达到指定的演化代数。

如果是，则到第六步，如果不是则转到第②步；⑥产生成熟检测器集合。

　　3.2.2小生境浓度调节

　　检测器的浓度调节是通过抑制算子完成的。

为了使成熟检测器集具有有一个良好的检测效果，对其中过高浓度的检测器进行抑制显得尤为必要。

针对入侵检测问题的检测器抑制算子采用小生境的选择策略，其具体过程解释如下：

①在检测器集合中，计算每个检测器与其它检测器之间的亲和度；②设定一个亲和度阈值α，将与某一检测器的亲和度大于这一阈值的检测器归类为相似检测器，这些相似检测器组成的环境可被看成是一个小生存环境；③根据小环境中检测器个数，计算检测器在检测器集中的浓度pd以及与抗原的亲和度pf；④通过式

（2）计算出检测器i被选择的概率pi，从该式中可以看出，检测器被选择的概率与其抗原亲和度成正比，同时与其个体浓度成反比；

　　[JZ（]pi=[SX（]pf[]pd[SX）][JZ）][JY]

（2）

　　⑤通过抑制过高浓度的检测器，增加低浓度的检测器被选择概率，因而保持了检测器集的多样性，进而使检测器集具有较高的检测效果。

　　3.2.3免疫遗传演化

　　如图4中，遗传演化是检测器生成的重要步骤，它通过选择亲和度高的检测器并对好基因进行遗传和变异方法来不断完成检测器的成熟过程。

其步骤有：

①安照检测器的亲和度排序，删除亲和度低的检测器，并选择亲和度高的检测器进行变异操作，生成下一代检测器；②将检测器与引导抗原进行匹配，计算检测器亲和度；③转到第①步，直到达到指定的进化代数为止。

4模拟实验

　　以上文给出的检测器生成算法及思想给出了实验仿真,并以此来评估算法的效能。

本模拟实验选择了比较权威的经典数据集KDDcup99作为实验数据源，该数据集由美国国防部先进技术研究计划署和麻省理工学院林肯实验室共同提供,并可在网址http:

//kdd.ics.uci.edu/databases/kddcup99/kddcup99.html上获得。

本文选取KDDcup_10%数据集用于实验，并主要针对DoS异常的检测，以获得一定的模拟检测效果。

　　4.1训练和检测过程

　　在实验中，本文将研究演化代数，检测器个数，多种匹配方法等方面对入侵检测结果的影响。

下面介绍一下基于遗传否定选择算法的实验步骤：

①从数据集中提取正常网络数据，将其实数编码，产生一个3维的自体集空间；用同样的方法，将测试集中的每个连接记录编码到3维向量；②给定检测器半径，遗传进化代数，亲和度变异阈值等初始参数；③基于4.1节的方法生成未成熟检测器；④基于4.2节的方法生成成熟检测器；⑤进行检测和统计。

检测是通过计算待检数据与检测器之间的亲和度实现的，如果亲和度被检测器半径覆盖，则将已检测数据标记为异常，否则为正常。

最后根据检测结果统计检测效率。

　　4.2实验结果分析

　　下面从混合检测（不区分异常类型）大方面，在检测器个数、演化代数、多种匹配方式的选取这几个因素对遗传否定选择算法检测入侵行为的影响进行讨论。

TPR和FPR分别代表检测率和误报率。

（1）成熟检测器个数对检测结果的影响。

在本实验中，遗传演化代数为500，成熟检测器的检测半径R为0.525，成熟检测器数量n对检测结果的影响如表1所示。

（2）遗传演化代数对检测器结果的影响。

在本实验中，成熟检测器个数为150，检测半径R为0.525，遗传演化代数g对检测结果的影响如表2所示。

　　（3）多种匹配方式的选取对检测结果的影响。

在本实验中，遗传演化代数为500，成熟检测器个数为200，分别用海明距离、曼哈顿距离、以及两种方法相结合做匹配方法，其检测结果的影响如表3所示。

　　根据以上3方面的实验数据及其检测率与误报率的关系，我们有以下分析：

在实验开始阶段，由于成熟检测器

　　数量较少，进化选择的成熟检测器与异常匹配的占大多

　　数，且这些异常行为能很快地被检测到。

当检测器增加到一定数目后，与异常匹配度较小的检测器将被选择。

这样的检测器对正常数据的匹配概率也增加。

所以检测器误报率有一个较快增加的过程。

当分别采用海明距离或曼哈顿距离做检测器匹配方法时，两者的检测效果相当，虽然用曼哈顿距离作匹配，检测效率略高，但误检率也略高。

另一方面，当结合两种方法进行检测时，检测率提高了5个百分点，但误检率几乎翻倍。

　　参考文献：

　　\[1\]谢勃.计算机网络入侵检测技术探讨\[J\].科学技术与工程,2008

（1）.

　　\[2\]唐正军.入侵检测技术\[M\].北京:

清华大学出版社,2004.

　　\[3\]ForrestS．HofmeyrSA，Immunologyasinformationprocessing．DesignPrinciplesforImmuneSystem&OtherDistributedAutonomousSystems\[M\]．L．A．SegelandI.R.Cohen,eds．OxfordUniv.Press2000.

　　\[4\]MukkamalaS，JanoskiqSungA.hitrusionDetectionUsingNeuralNetworkandSupportVectorMachines\[C\].In2002InternationalJointConferenceonneuralNetworks（IJCNN），Honolulu，Hl，USA，May2002.

　　\[5\]莫宏伟.人工免疫系统原理与应用\[M\].哈尔滨:

哈尔滨工业大学出版社,2002.

　　\[6\]王小平,曹立明.遗传算法—理论、应用与软件实现\[M\].西安:

西安交通大学出版社,2002.

　　\[7\]KimJ，BentleyPJ．Towardsanartificialimmunesystemfornetworkintrusiondetection：

展开阅读全文