干扰检测中英文对照外文翻译文献.docx

资源描述

干扰检测中英文对照外文翻译文献.docx

《干扰检测中英文对照外文翻译文献.docx》由会员分享，可在线阅读，更多相关《干扰检测中英文对照外文翻译文献.docx（10页珍藏版）》请在冰豆网上搜索。

干扰检测中英文对照外文翻译文献.docx

干扰检测中英文对照外文翻译文献

（文档含英文原文和中文翻译）

中英文对照外文翻译

利用粗糙集分类的干扰检测

简介

干扰检测是用于分类正常与异常的活动，在机器学习方面可以

发挥重要的作用。

最近，基于机器学习的干扰检测方法（Allen等，2000）受到了广泛的研究，因为他们可以检测出的误用和异常。

学习的干扰检测方法包括两个关键步骤：

功能前牵引和检测模型生成。

Wenke（1999）

利用改进的Apriori算法在干扰检测特征提取的研究，获得网络连接级别的功能。

此方法是非常有效的。

后来，SRINIVAS和Sung（2002）提出

了利用支持向量机（SVM排列这些提取出的特征，但这种方法需要多次迭代，是非常耗时的。

在检测模型生成的研究，这是可取的，检测模型可以被解释的，并具有高的检出率，但现有方法无法实现这两个目标。

例如，神经网络（James,1998年）可以达到较高的检测率，但生成的检测规则是不能解释的；决策树（Wenke1999年）可能会产生解释的规则，但检出率较低。

在本文中，我们目前使用干扰检测系统（IDS）功能的排名和干扰检测规则生成的粗糙集分类（RSC（帕夫拉克，1982）。

干扰检测RSC可以得到解释的检测规则和高检出率的一些攻击和IDS是简单而快速的使用RSC功能的排名。

RSC是粗糙集理论（王陶，2003）的重要内容之一。

粗糙集学习理论的主要贡献是约简的概念。

具有相同属性的对象分类能力的一整套属性约简是一个很小的子集。

在本文中，我们提出了一个快速混合遗传算法的粗糙集的约简计算。

事实上，简粗糙集计算的对应功能的IDS在RSC

排名。

与经典的基于支持向量机的功能排名的方法（SRINIVASSUNG

2002年）相比，此功能的排序方法是简单和快速。

RSC约简为模板创建的干扰规则（决定）。

简代后，随后的检测规则自动计算。

生成的规则有直观的“IF-THEN'的形式，提高探测器的设计是可以解释的，非常有价值的。

实验的目的是测试的规则检测性能。

我们使用的实验数据源于麻省理工学院的林肯实验室。

它是为KDD（1999

年）由DARP虎争，被认为是干扰检测评估标准的基准。

由于SVM进行

经典的干扰检测的算法（SRINIVASSUNG2002年）中，我们还可以使用支持向量机的干扰检测对同一数据进行比较。

试验结果表明，RSC算法

与SVM算法检测探头和DARPA数据集上的DoS攻击（99%以上）的兼容电平的检测性能。

不过，RSC规则的解释具有明显的优势。

进一步比较的RSC基于IDS和基于支持向量机的干扰检测系统中提供了详细论述。

本文的组织如下。

在第二部分中，系统模型一般基于机器学习的干扰检测方法。

在第三部分中，初步解释粗糙集和粗糙集分类算法本文提出的混合遗传算法进行了详细解释。

在第四节实验设计比较RSC的IDS

和基于支持向量机IDS表示RSC算法的优点。

最后，我们总结了本文的最后一节。

系统模型

Wenke（1999）的研究工作是设计基于学习算法的干扰检测系统，我们可以在后续步骤中了解到：

（1）使用的工具如tcpdump,dsnif等捕获网络数据；

（2）将这些数据转换成合适的输入格式；

（3）从原始数据提取功能标准化净工作流程和攻击行为或正常的使用

模式

（4）设计和使用学习的算法来得到检测规则；

（5）整合为实时IDS检测干扰检测规则。

上一节所说的这五个步骤中，特征提取和检测规则生成是两个关键步骤。

进行特征提取，它取决于数据源，并以被检测到的攻击类别。

为了专注于我们的学习算法的研究，我们选择了1999年的KDD干扰检测的比赛

数据集设计我们的系统。

1999KDD干扰检测测试使用了1998年DARPA干扰检测数据集，构建连接记录和提取对象功能（Wenke,1999）。

1998年DARPA干扰检测数据集是从9个星期的原始TCP转储数据的局域网

（LAN）仿真相关的典型美国空军局域网收购，并夹杂着探头，U2R，

R2L的攻击：

拒绝服务攻击，四大类。

连接记录是TCP包序列的起点和

终点在某些清楚界定的时候，它们之间的数据流从一个源IP地址和目标

IP地址下一些定义良好的协议。

每个连接都被标记为或正常，作为一种攻击，恰好与一个特定的攻击类型。

对于每个TCP/IP连接，41各种定量和定性的特征提取。

可以使用以下三个主要的功能集，分类每一个连接。

（1）固有的特点，即与连接相关的信息。

它们包括工期类型，协议，标

志等的连接；

（2）流量的功能，即过去的连接，类似于当前的一个，例如，具有相同

的目标主机的连接或连接在一个给定的时间窗口内或预定数量的过去连

接到相同的服务有关的数量有关的统计信息；

（3）内容的功能，即提供的信息数据内容的数据包（“有效载荷”），这可能是有关发现的干扰，例如，报告的错误操作系统，根的访问尝试等。

粗糙集分类算法。

检测规则自动生成，完成这个任务，我们目前使用的粗糙集分类。

它包括三个阶段：

1）预处理：

原始数据首先被划分为三组：

DoS攻击检测数据集，探针攻击检测数据集，U2R和R2L攻击检测数据。

对于每个数据集，构造决策系统。

每一个决策系统，后来分裂成两部分：

训练数据集和测试数据集。

2）培训：

粗糙集分类的训练，每次训练数据集的三种不同类型的攻击

（DOS,探头，U2R和R2L）。

每一个训练数据集使用相应的输入功能，

可分为两大类：

（+1）和攻击（-1）。

3）测试：

测量测试数据上的表现。

在下面的章节中，我们将详细描述我们的粗糙集分类算法。

A部分：

粗糙集理论初步

粗糙集理论是由ZdzislawPawlak在20世纪80年代初（Pawlak,1982年））

它是一种数学近似推理决策支持工具，是特别适合于对象分类。

粗糙集也可用于特征选择，特征提取等（Wang,2001）。

定义1一种信息系统中被定义为一个四元组如下，S=,其中U={X1，X2,…，Xn}是一个有限的对象集（n是对象的数目）；

Q是有限的属性集，Q={Q1,Q2,…，QN};V=UQ€qVq的€2和Vq是一个域的属性q）；F:

UxV-V是一个总的功能，例如，函数f（x€Vq为每个q€Q,X€U,Q）。

如果属性可分为条件属性集C和决策属性集D，即在S。

Q=CUD和CAD=①，S称为决策系统或决策表信息系统。

定义2设IND（P）,IND（Q）是不可分辨，由属性确定的关系设置P,Q的P正区域的Q，表示为（IND）（PPOS（INDQ））被定义为如下：

POSm（lND（Q））=U1ND（P）_（X）.

定义3设P,Q，R是一个属性集，我们说R是约简到Q的P当且仅当满足下列条件：

（1）1

（2）'.■/■■■/

B部分：

粗糙集分类算法

我们的总体方案中提出的粗糙集分类算法图1。

（1）原始输入数据集被转换成一个决策系统，它随后被分成两部分：

训练数据集和测试数据集。

一个分类器从训练数据集将被诱导，并施加到测试数据集以获得一个性能估计。

对于训练数据集，我们做了以下的步骤

（2），（3）;

（2）如果决策系统具有真正的价值属性，离散化战略，应建立分类规则，以获得更高的质量。

有很多discretizaion方法，如嘘声推理算法，半幼稚的算法等。

如何选择合适的discretizaion方法仍然是一个难以回答的问题，一些测试是必要的。

在我们下面的实验中，使用平等间隔宽度discretizaion的方法。

等间隔宽度离散化方法划分成k个大小相等的时间间隔，其中k>0为用户提供的参数范围内的观测值属性。

如果一个属性被观察到有此方法计算的时间间隔宽度宽度（K）=（AMAX-AMIN）/k和结构的阈值AMIN+I*宽度（K）的一个分钟和一个maxthen的范围内的值，其中i=1，…，的k-1。

独立的方法被施加到每个连续属性。

由于这无监督的方法不使用在设置分区边界的判定值，则很可能由像素合并的结果相结合的值强烈关联到相同的时间间隔的不同的类的分类信息将丢失。

但在我们的例子中，这样可以使有效的分类。

（3）干扰（决定）创建的规则约简的属性约简算法计算模板。

有很多的

属性约简算法，如动态约简（巴桑等人，1994年）和RA-订单算法（王陶，2003）等，但到现在为止最有效的算法，大的决策系统重新duction

计算实践是遗传算法（Wroblewski,1995），它是由最粗糙集工具如粗糙足够的（安德斯，1997年）和Rosetta（亚历山大，1999年）。

在本文中，我们找到最小约简属性重要性的启发式规则的基础上，提出了一种混合遗传算法。

这种混合遗传算法降低了训练时间，使生成的分类更有效的调整，以适应干扰检测环境。

这种混合遗传算法的关键是在我们的RSC

算法的子算法。

为了讲清楚，我们首先介绍了一般遗传算法（气）及其扩展在C部分，我们将介绍详细的键子算法测试数据集D部分，下面的

步骤就完成了。

（4）第一次使用相同削减计算从训练数据discretizaion的方法离散化的新对象的数据集。

然后生成的规则是用来匹配测试对象，计算的力量所

选择的规则设置的任何决策类。

新的对象将被分配到与选定的规则集的最大强度的决定类。

C部分：

寻找最小约简基于混合遗传算法的基础上SGF

（1）框架的混合遗传算法

作为上述的“第一个”，发现粗糙集最小约简被视为最小碰集问题。

对于离散化的决策支持系统L=（U,AU{D},V,F）,multiset的根据上述定义5,A部分。

随后，这multiset的碰集的计算基于混合遗传算法。

在我们的算法中，命名位适应构建一个新的运营商。

这种新的运营商对

整个人口，并能保证每个染色体收敛到一个碰集。

（2）代表（生成的初始群）

人口一个简单的选择，对于极小碰集问题，是一组P的元素从2A，编码

为bitvectors，其中每个比特表示的集合中的特定元素的存在。

例如，假设我们有10个条件属性{A1，A2,…，A10}{A1,A4，A6，A9}，我们有一个简候选人。

简候选人应表示为：

100101001（。

（3）选择和重组的方法

选择和重组运营商都配有两个步骤：

第1步：

计算每个染色体在当前t代健身。

然后，根据每个染色体的适应

度，我们采用随机抽样的方法选择。

第2步：

设minsingle（后代）是新的种群中的最差个体（后代），minfit相应的健身：

让我们maxsingle（母公司）是最好的老年人口，个人maxfit

（母公司）相应的健身。

，如果minfit（后代）vmaxfit（母公司），我们

将minsingel（后代）maxsingle（母公司）。

实验

为了比较RSC算法与传统的学习算法的干扰检测，我们构建干扰检测系

统，利用粗糙集分类（RSC）和支持向量机（SVM）和1999年的KDD干扰检测比赛数据集上测试其性能。

两个实验（RSC的IDS和基于支持向量机的干扰检测系统）在同一个人电脑（戴尔OptiPlexGX400系统），

1.70GHz奔腾IVCPU，运行Windows2000系统和128MRAM。

编译器是MicrosoftVisualC++6.0的程序语言是C和C++。

结论

高检测率和解释的规则，这是非常有价值的，因为这可以提高我们的知识的性质的干扰。

在本文中，我们使用粗糙集分类（RSC）的干扰检测

系统（IDS）功能的排名和干扰检测规则生成。

干扰检测RSC可以同时

得到解释的一些攻击检测规则和较高的检测率。

并设有排名使用RSC的

IDS是简单和快速。

此外，我们提出了一种混合遗传算法的人的属性重要性的基础上计算的粗糙集属性约简和加快收敛速度，并减少RSC的训练时间。

但是，对于实时的IDS，RSC的训练时间还长的，需要进一步改善。

原文

Intrusiondetectionusingroughsetclassification*

INTRODUCTION

Intrusiondetectionisusedtoclassifynormalandintrusiveactivities,inwhichmachinelearningcanplayanimportantrole.Recentlythemachinelearning-basedintrusiondetectionapproaches（Allenetal.,2000）havebeensubjectedtoextensiveresearchesbecausetheycandetectbothmisuseandanomaly.Thelearning-basedintrusiondetectionapproachesincludetwokeysteps:

featureex-tractionanddetectionmodelgeneration.Intheresearchoffeatureextractioninintrusiondetection,Wenke（1999）usedimprovedApriorialgorithmtoacquirefeaturesofnetworkconnectionlevel.Thismethodisveryeffective.Later,SrinivasandSung（2002）presentedtheuseofsupportvectormachine（SVM）toranktheseextractedfeatures,butthismethodneedsmanyiterationsandisverytime-consuming.Intheresearchofdetectionmodelgeneration,itisdesirablethatthedetectionmodelbeexplainableandhavehighdetectionrate,buttheexistingmethodscannotachievethesetwogoals.Forexample,neuralnetworks（James,1998）couldachievehighdetectionratebutthedetectionrulesgeneratedarenotexplainable;decisiontrees（Wenke,1999）couldyieldexplainablerulesbutthedetectionrateislow.

Inthispaperwepresenttheuseofroughsetclassification（RSC）（Pawlak,1982）forintrusiondetectionsystem（IDS）featurerankingandintrusiondetectionrulesgeneration.IntrusiondetectionusingRSCcanyieldbothexplainabledetectionrulesandhighdetectionrateforsomeattacks,andfeaturerankingusingRSCforIDSissimpleandfast.

RSCisoneoftheimportantcontentsofroughsettheory（WangandTao,2003）.Themaincontributionofroughsettolearningtheoryistheconceptofreducts.Areductisaminimalsubsetofattributeswiththesamecapabilityofobjectsclassificationasthewholesetofattributes.Inthispaper,weproposeafasthybridgeneticalgorithmforthereductcomputationofroughset.Infact,thereductcomputationofroughsetcorrespondstofeaturerankingforIDSinRSC.ComparedwiththeclassicSVMbasedfeaturerankingapproach（SrinivasandSung,2002）,thisfeaturerankingmethodissimplerandfaster.

RSCcreatestheintrusion（decision）rulesusingthereductsastemplates.

Afterreductgeneration,thedetectionrulesareautomaticallycomputedsubsequently.Therulesgeneratedhavetheintuitive“IFTHENformat,

whichisexplainableandveryvaluableforimprovingdetectordesign.Experimentsweredesignedtotesttherulesdetectionperformanee.TheexperimentdataweusedoriginatedfromMIT'sLincolnLabs.ItwasdevelopedforKDD（1999）competitionbyDARPAandisconsideredastandardbenchmarkforintrusiondetectionevaluations.SineeSVMperformedwellamongtheclassicalintrusiondetectionalgorithms（SrinivasandSung,2002）,wealsouseSVMtodetectintrusionsonthesamedatasetforcomparison.ThetestresultsindicatedthatRSCalgorithmhascompatibleleveldetectionperformaneewithSVMalgorithmfordetectionofProbeandDoSattacks（allabove99%）onDARPAdataset.ButRSChasobviousadvantageinrulesexplanations.FurthercomparisonsbetweenRSCbasedIDSandSVMbasedIDSareprovidedindetailinthepaper.

Thepaperisorganizedasfollows.Inthesecondsection,thesystemmodelforgeneralmachinelearning-basedintrusiondetectionapproachisintroduced.Inthethirdsection,roughsetispreliminarilyinterpretedandroughsetclassificationalgorithmusedinthispaperandthehybridgeneticalgorithmsproposedareexplainedindetail.ExperimentdesignforcomparisonofRSCbasedIDSandSVMbasedIDSisgiveninthefourthsectiontoindicatetheadvantagesofRSCalgorithm.Finallyweconcludethepaperinthelastsection.

SYSTEMMODEL

BasedontheresearchworkofWenke（1999）,designinganintrusiondetectionsystembasedonlearningalgorithmcanbedescribedinthefollow-ingsteps:

（1）.CapturenetworkdatabyusingtoolssuchasTcpdump,Dsniff,etc.;

（2）.Processthesedataintosuitableinputformat;（3）.Normalizethenet-workflowandextractfeaturesofattackbehaviorornormalusagepatternfromrawdata;（4）.Designanduselearningalgorithmtogetdetectionrules;（5）.IntegratethedetectionrulesintotherealtimeIDSfordetectingintrusion.Inthesefivesteps,astheabovesectionsaid,featureextractionanddetectionrulesgenerationaretwokeysteps.Forfeatureextraction,itdependsondatasourceandthecategoryofattacktobedetected.Inordertofocusonourlearningalgo-rithmstudy,wechoosethe1999KDDintrusiondetectioncontestdatasettodesignoursystem.The1999KD

展开阅读全文