版权信息
省级大型综合性科技类期刊
主管部门:自治区科技厅
主办单位:自治区科学技术信息研究院 
协办单位:自治区科学技术情报学会
编辑出版:科技期刊编译室
刊社地址:内蒙古呼和浩特新城西街149号本刊杂志社
邮政编码:100010
电      话:0471-2536371

E-mail  :

nmgkjzz@vip.163.com 

网站地址:www.nmgkjzz.com


往期杂志
当前位置: 首页>往期杂志>详细介绍

基于RS-Bayes的快速网络异常检测

时间:2016-07-04来源: 作者: 点击: 113次


摘  要: 随着网络应用的快速发展,网络异常检测成为信息安全领域的一个重要研究内容。针对当前网络异常检测方法所存在的检测率低、检测时间长等问题,提出了基于RS-Bayes(粗糙集和贝叶斯分类)的网络异常检测方法,该方法针对海量网络特征信息,通过基于正域的启发式约简算法产生决策规则集,利用贝叶斯分类算法对网络行为进行检测,及时发现网络攻击和异常。实验表明,该方法与未进行属性约简的Bayes相比可以显著的减少计算量,在保证检测率的基础上,能够整体提高网络异常的检测与评估效率。

关键词: 粗糙集异常行为检测贝叶斯;kdd99属性约简

中图分类号:TP311              文献标志码: A

Network anomaly detection method based on RS-Bayes

QIU Guanghui, TANG Dingyong

(Institute of Computer Application, China Academy of Engineering Physics, Mianyang, Sichuan,621900 ,China)

Abstract: On the basis of RS(Rough Set) theory plus Bayesian classification, a detection method for anomalous network behaviors is explored, to improve detection rate and performance. For characteristic massive network traffic data, decision rule sets are generated by heuristic reduction algorithm based on positive region method. By employing these rules, Bayesian classification algorithm is used to analyze network behaviors, and then to find out network attacks and abnormal behaviors. Experimental results show that this RS-Bayes method can significantly reduce the computing loads compared to the conventional methods, with obvious improvement of detection and evaluation efficiency of network anomaly, while maintaining reasonable detecting rate.

Keywords: rough set; network anomaly detection; bayes; kdd99; attribute reduction

 


0        引言

网络异常行为分析与识别是网络系统安全的基础,随着网络应用的快速发展,需要及时有效的感知网络运行状态,发现异常行为并消除隐患,保障网络安全有效运行。网络安全状态信息来自不同的网络安全设备或系统中的安全事件,不同的网络攻击针对的都是系统中可能存在的脆弱点,需要通过对网络中各种软件漏洞攻击产生的告警信息,进行攻击行为分析;针对隐藏在一些正常协议流或一些非常规定制的协议流中的网络攻击,需要对协议流进行分离、解析,以发现异常行为;随着攻击行为的增加,异常行为库中特征数据也要同步更新,对多样化的攻击行为的检测能力也越来越强,以便采取有效措施阻止攻击行为,调整防御策略,保障网络的正常运行。

入侵检测系统是网络异常行为检测的重要方法和手段,主要分为误用检测和异常检测两种[1],误用检测的优点是规则明确,针对性强;但由于过度拟合导致对新型攻击的泛化能力较弱。异常检测通过收集用户大量的正常行为,建立正常活动轮廓,当新产生的行为显著偏离正常轮廓时,则发出报警,异常检测与攻击类型相对无关,泛化能力较强,有可能检测出新型攻击,但与误用检测相比,异常检测有一定的误报率和较低的检测效率。Sun[2]等针对海量网络信息,提出一种基于多线程的三层管道处理模式,并且把此模式成功地应用到网络入侵检测中。Wang[3]等提出一种基于主成分分析的异常入侵监测模型,该方法能够有效地把高维数据降维,提高实时异常检测效率。Kruegel[4]等提出一个多感知融合方法,利用贝叶斯分类器对入侵检测系统发出的失败警告进行分类和压缩。程传慧等[5]将二层贝叶斯网络应用到网络异常行为检测中,提高了系统的自适应性和检测效果。

粗糙集(Rough SetRS)理论是一种刻画不完整性和不确定性的数学工具,由波兰学者Z.Pawlak1982年提出[6],无需提供问题所需处理的数据集合之外的任何先验知识,RS在保持原始数据分类能力不削弱的条件下,通过约简去除分类能力较低的属性,保留一部分分类能力较强的属性,以达到简化决策规则的目的。近年来,它在机器学习、知识发现、数据挖掘、决策支持与分析等领域广泛应用。本文将RS理论与贝叶斯(Bayes)分类算法相结合,提出了基于RS-Bayes的网络异常行为检测方法,该方法将网络行为的各项基本参数作为粗糙集决策系统的条件属性,将网络行为的评估结果作为决策属性,通过基于正域的启发式约简算法删除重要度过低的参数,提取出隐含的关联规则,再利用这些规则通过贝叶斯分类算法进行网络行为检测,以便及时有效发现网络异常行为,为网络安全管理和态势评估提供依据。

1          网络异常行为检测的RS等价

1.1     粗糙集理论

RS理论的一些基本概念如下[7,8]

定义1  设为一个信息系统, 是我们要讨论的对象组成的非空有限集合,称为论域。论域的任何一个非空子集,称为论域的一个概念;是属性集合,其中为条件属性集,为决策属性集;是属性的值域;是一个信息函数。

定义2  给定信息系统,若,且,则中所有等价关系的交集称为上的一种不可分辨关系,记为;使用不可分辨关系可以对论域形成一个划分,记为(或者),其中划分的每个小区域均是一个等价类,记为

定义3  对于论域中的任意概念,其相对于属性子集的上近似与下近似可以分别记

定义4  给定信息系统,假设的两个子集,则正区域为:

定义5  给定信息系统,假设都是的子集,若,则称中相对于非必要的;否则称中相对于必要的。

定义6  给定信息系统,如果对于条件属性集存在,且对于都是必要的,则称的一个约简。

定义7  给定信息系统为论域,为对象在属性上的取值。定义系统的分别矩阵为,其列处元素为:

   因此,分辨矩阵中元素是能够区别对象的所有属性的集合;但若属于同一决策类时,则分辨矩阵中元素的取值为空集。分辨矩阵是一个依主对角线对称的 阶方阵,在进行分辨矩阵运算时,只需考虑其上三角(或下三角)部分。

定义分辨函数由分辨矩阵产生,且具有唯一性,是一个元变量的布尔函数,它是的和取,而是矩阵项中的各元素的析取,即:。分辨函数的析取范式中的每一个合取式对应一个约简。

定义给定信息系统,决策属性集的依赖度。属性相对于集合对决策属性集的重要度

1.2     网络异常行为检测的RS等价

从RS理论的角度,网络异常行为检测的处理空间可以当作一个信息系统[9],其中:

为论域,代表网络流量样本;

是条件属性集,代表一条网络连接的各项参数;

代表决策值,即网络异常类型;

是属性的值域;

 是信息决策函数。

2          基于RS-Bayes的网络异常行为检测

2.1     异常行为检测流程

一般情况下,有些属性对原始数据的分类能力比较强,而有些属性的分类能力较弱,将粗糙集约简算法应用到网络异常行为检测中,在保持原始数据分类能力不变的前提下,去除冗余属性,简化网络信息系统的分析量。基于上述分析,基于RS-Bayes的网络异常行为检测的流程如图1所示:

图1 基于RS-Bayes的网络异常检测流程

由图可知,基于RS-Bayes的网络异常检测主要涉及两个问题:一是收据数据样本,进行预处理和数据约简,删除冗余属性;二是对余下的强属性进行样本训练,生成知识集,然后对当前网络流量进行检测,对网络行为进行判断分析。

2.2     网络连接的属性约简

传统的基于的约简算法在时间复杂度上是NP难的,为了求出所有约简导致计算量异常巨大。当前比较主流的约简算法是启发式约简,首先定义一种属性的重要度计算方法,然后通过贪心策略逐步产生条件属性集的约简。文献[11]的约简算法描述如下:

输入:信息系统

输出:信息系统的约简

1.

2.求出关于的正域

3.重复

3.1对于,计算其重要度,将最大的元素添加到中,

3.2计算如果,输出信息系统的约简RED,算法结束;

2.3     网络异常行为检测

检测的本质是根据一条网络连接的各项属性取值确定该网络连接的攻击类别,即分类问题。分类是数据挖掘领域中一个重要问题,其目的是找到提出分类函数,该函数能够将对象的多个属性取值映射到一个确定的类别下。当前分类算法较多,比如K近邻[10]、支持向量机[11]、神经网络[12]等,在众多分类方法中,贝叶斯分类算法应用相对广泛,其理论基础由英国数学家Thomas Bayes提出,用来描述两个条件概率之间的关系:

本文在检测部分采用朴素贝叶斯分类器[13](Naive Bayesian classifier,NBC),NBC将网络连接实例分解成连接属性向量和连接类别变量。NBC是贝叶斯网络的一个特例,在该网络中,各属性相对于类别变量是条件独立的, 即有后验概率公式:

NBC基本思想是在候选类别变量中寻找当给定连接属性时概率最大的分类。这种概率被称为极大后验概率,对于确定的实例是固定值,所以在进行概率比较时,只需计算上述公式的分子即可。

训练阶段,通过分析训练数据样本,统计不同类别在训练样本中的占比及不同属性在不同类别下的条件概率。

输入:训练样本集 ,

输出:类别及属性的先验概率。

1.计算类别变量的不同取值中的出现比例

2.计算属性的值域在类别为的对象中出现的比例

检测阶段,计算出给定对象属于所有类别的概率,找出概率值最大的类别,判为该对象的所属类别。

输入:训练所得概率值及新对象

输出:所属类别

1.利用后验概率公式计算

2.若

,则的类别判为

3          仿真实验

3.1     实验环境

实验数据采用KDD CPU99 DataSet[14],该数据集是公认的入侵检测测试平台,是MIT Lincoln实验室在1998DARPA入侵检测评估数据集的基础上统计得来,其中有4898431万条训练集(kddcup.data.gz)和311029万条测试集(corrected.gz)。一条完整数据包含41个条件属性,代表一个网络连接,每个网络连接被1个决策值标记为正常或异常。

表1 KDD CUP99条件属性

1

2

3

42

duration

protocol_type

service

type

0

udp

private

snmpgetattack

0

tcp

http

normal

0

icmp

ecr_i

smurf

实验环境:操作系统为Windows xp;编程语言为java,CPU为Intel-i5,2.4GHz;内存4GB。

数据选取。实验过程中,训练集主要选取KDD CUP99数据集的一个10%的子集(kddcup.data_10_percent.gz),本实验从该子集里随机抽取100000条和全部494021条数据作为两种训练数据,测试集采用全部的corrected.gz数据集。关于攻击类型及数量的统计如表2。

表2 样本中异常类型数量

标签

类别

训练集

测试集

0

NORMAL

97278

60593

1

PROBE

4107

4166

2

DOS

391458

229853

3

U2R

52

228

4

R2L

1126

16189

KDD CUP99数据集总共包含4种大类型的攻击,39种小类型攻击,22种在训练集中,余下的17种出现在测试集中。

离散化。如属性num_file_creations是连续类型的数据,取值范围为[0,100],则在预处理阶段,采用等宽区间法进行离散化处理。等宽区间离散法首先根据想要离散的区间个数,将属性的取值范围,平均分成 个区间,单个区间大小为 。此处指定,则原始取值范围[0,10)等价为1,[10,20)等价为2,以此类推,[90,100]等价为10。

3.2     实验结果

以上述100000条训练数据为例,对进行预处理之后的数据进行约简,得到如表3所展示的18个属性及对应的重要度,此处表明经过约简,原始数据的41个条件属性,有23个是冗余属性。

表3 约简后的属性及重要度

序号

属性名字

重要度

1

src_bytes

0.3037

2

srv _count

0.2918

3

count

0.2894

4

dst_bytes

0.0248

5

service

0.0245

...

18

srv_serror_rate

0.0001

对两种不同数量的训练集进行约简,结果如表4:

表4 两种训练数据约简后的属性个数

训练数据()

约简后的属性数()

100000

18

494021

20

由上表可知,当数据量相对较少时,仅以18个属性即可代替原先的41个属性,随着数据量的增加,为了达到更高的分类能力,就需要更多的属性。

其次,以两种训练数据进行训练,每种训练数据,分别以41个属性和对应的约简后的属性进行训练,得到相应的分类器。其训练时间如表5,其中Bayes代表朴素贝叶斯算法,RS-Bayes代表基于粗糙集的朴素贝叶斯算法。

表5 训练数据的训练时间

训练数据()

Bayes(ms)

RS-Bayes(ms)

100000

2466

1143

494021

11436

5944

分析可知,训练时间和训练数据条数及训练属性个数存在密切关系。相同训练数据量下,属性个数越少,训练时间越短。同等属性个数下,数据量越多,训练时间越长。

检测部分以两种训练数据所得的4种训练结果,分别对311029条测试数据进行测试,其检测时间如表6所示。

表6 四种分类器的检测时间

训练数据()

测试数据()

Bayes(ms)

RS-Bayes(ms)

100000

311029

120467

53300

494021

311029

123151

58307

分析可知,检测时间的长短与训练属性个数关系密切,同一训练数据量下,RS-Bayes检测效率比Bayes检测效率高出一倍。

最后,以检测率、准确率等为检测效果的评判标准,对检测结果的统计如下表7、表8。

表7 Bayes分类器的检测结果

训练数据()

测试数据()

检测率(%)

准确率(%)

误报率(%)

漏报率(%)

100000

311029

83.7

94.1

5.8

16.2

494021

311029

87.5

96.7

3.2

12.4

表8 RS-Bayes分类器的检测结果

训练数据()

测试数据()

检测率(%)

准确率(%)

误报率(%)

漏报率(%)

100000

311029

83.7

94.1

5.8

16.4

494021

311029

87.5

96.7

3.2

12.6

分析可知,同等训练数据量下,基于粗糙集约简的贝叶斯分类算法的检测效果与贝叶斯算法基本持平;当训练数据的量增加时,检测效果有明显的提升,以准确率为例,当训练数据时100000条时,准确率是94.1%,当训练数据是494021条时,准确率提升到96.7%。

4          结语

基于RS-Bayes的网络异常行为检测,可以在不降低检测率的基础上,大幅缩短训练时间和检测时间,在有一定误报率的允许下,该方法能够整体提高检测的效率,及时有效地发现网络异常行为,准确地反映出网络的安全状态,提升网络安全预测和管理水平。

参考文献 

[1]         Marina Thottan, Chuanyi Ji. Anomaly Detection in IP Networks[J]. IEEE Transactions on Signal Processing, Vol. 51, No. 8, 2003: 2191-2204.

[2]         Sun X J, Sun N H, Lei B. A parallel optimization model for massive data stream application[J]. Journal of Software, 2009, 20(S1): 23-33.

[3]         Wang W, Guan X, Zhang X. Processing of massive audit data streams for real-time anomaly intrusion detection[J]. Computer Communications, 2008, 31(1): 58-72.

[4]         Kruegel C, Mutz D, Robertson W, et al. Bayesian event classification for intrusion detection[C], Proc. Of 19th Computer Security Applications Conference, 2003:14-23.

[5]         程传慧,郑秋华.一种基于二层贝叶斯网的网络入侵检测方法[J].武汉理工大学学报:交通科学与工程版, 2010,01:171-174.

[6]         Pawlak Z.Rough sets[J] .International Journal of Parallel Programming,1982,11(5):341-356.

[7]         杨传健,葛浩,汪志圣.基于粗糙集的属性约简方法研究综述[J].计算机应用研究,2012,01:16-20.

[8]         陈可,张小强,徐选华.基于改进贝叶斯粗糙集和证据理论的决策信息融合方法[J].计算机应用研究,2014,09: 2625-2628.

[9]         李旭光.基于粗糙集的网络安全评估模型研究与实现[D].成都:电子科技大学,2009.

[10]      徐雅斌,李卓,陈俊伊. 基于改进K最近邻分类算法的不良网页并行识别[J].计算机应用,2013,12:3368-3371.

[11]      陈永健,汪西莉.FCM预选取样本的半监督SVM图像分类方法[J].计算机应用,2014,01: 260-264.

[12]      郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用,2014,03:742-748.

[13]      肖仙谦,朱俊平,景旭,马巧娥. 基于贝叶斯方法的单分类入侵检测技术[J].河北大学学报,2014,01:7-13.

[14]      ACM.KDD CUP 1999 Data[OL].[1999-10-28].http://www.sigkdd.org/Kddcup.

 



本刊创刊于1982年,是由自治区科技厅主管、自治区科技信息研究院主办,由自治区科技情报学会协办、国内外公开发行的省级综合性科技刊物,是反映内蒙古自治区科技与经济发展的窗口。杂志入选《中国期刊全文数据(CJFD)》全文收录期刊和《中国学术期刊综合评价数据(CAJCED)统计刊源期刊,《中国核心期刊(遴选)数据库》收录。本刊是公开发行的综合性科技期刊,为月刊,大16开本。本刊坚持以科技创新为目标,融科技、经济、信息、产业、市场为一体,是促进科技成果转化、推动科技进步、加强技术创新,促进经济发展的专业性期刊。