
我事批备与率用
安全技术
基于数据挖掘的高速网络入侵检测系统的研究
林传慧吴伟明
(北京邮电大学计算机科学与技术学院北京100876)
摘要:着高速网络环境的发展,传统的网络入侵检测技水已经无法满足互联网安全需求。在这一骨景下,本文提出了将数据挖抵中的K一means算法应用于网络入侵检测中,实现基于应用的检测,在原来基础上提高了监测的速度。实验测试表明系统能够对吉比特以太网进行有效高速的检测。
关键调:网络入债检测数据挖抵
中图分类号:TP309 1引言
文献标识码:A
文章编号:1007-9416(2014)09-0193-01
d(i, J) = x, X, +I X X2 +..+IX, X,
在现实的网络运行过程中,电脑病毒和黑客攻击等行为层出不穷,单纯依靠防火墙抵御人侵的预防性安全策略已经越来越不能满足互联网安全需求。在这一背录下,继防火靖之后的人侵检测系统(NIDS)也成为主要的防护手段。传统NIDS主要采用包匹配技术,将数据包与描述已知攻击特征的规则表达式进行匹配,判断是否为攻
击及攻击种类。 2数据挖掘技术
如今,大量信息能够在计算机网络中高效的传输,丰高了信息资源,增强了信息产生和数据搜集能力。而这些庞大的数据资源增加了信息处理的难度,单靠传统包匹配技术和统计分析方法不能满足如今高速网络人侵检测的需要。固面,从数据库中发现知识(KDD)
一数据挖掘应运而生。KDD是识别存在于数据库中有
的核心技术一
效的、新额的、其有潜在价值的乃至是最终可理解形式的非平凡过程。KDD分为四个阶段:采集选择、数据预处理、数据挖掘和解释评价。各阶段功能分别为:采集选择:简单处理数据,形成数据集合,缩小数据处理范围,数据预处理;主要包括数据清理和特征子集选择,处理数据中的遗漏数据、脏数据以及特征子集选择,数据挖掘:KDD 关键阶段,在驱动发现型和驱动验证型挖据中进行判断,选择合适方法运行,筛选提取有效、有价值的数据;解释评价:对挖掘结果采用可视化技术、信息过滤、信息综合等方式给以表达,当结果不符合要求时返回KDD的某一阶段继续进行检测:
3数据挖据技术在高速网络入侵检测系统中的应用
3.1聚类算法简介
利用聚类算法的异常检测是一种高效的检测技术,主要作用于数据挖掘引擎,这种方法将数据分为多个聚类,相似的数据划分到同一个聚类中,而将异类数据划分到不同的聚类,并为这些聚类加以标记表明它们是正常还是异常。聚类算法的输入是一个包含多个数据的数据集,每个数据通常用一个属性向量来表示,其中每一个属性代表本条数据一个属性的取值。聚类算法的输出是若干个聚类,同一聚类中的数据具有高度的相似性。聚类算法的关键是计算数据之间的差异以区分聚类,数据闻间的差异通常用距离表示,距离计算方法包括欧几里德距离,Manhatan距离等,其中最常用的是欧儿里德距离,它的计算方法如下:
表1聚类划分结果
聚类 1 2
4 5
合计
收稿日期:20140920
正带 2 13 1378 5449 16593 18698 42133
网络入侵攻击
0 1252 23976 57 930 471 30686
(1)
可以给不同的属性赋以不同的权值,这样计算出来的距离称为加权的欧几里德距离,定义如下:
d(i, J) = /w, IXa X, P +w, I X,2 X,2 I +...+ w, IX, X,I (2) 聚类算法有很多种,最常用的聚类算法是K一means算法,此方
法通过划分方式将数目为的数据集构建成K个划分,每个划分表示-个聚类簇。则聚类表示为:
,*,其中i-..k,存在e,nc, =, =1..且ijU=C(3) 3.2在高速网络的入侵检测系统中使用聚类算法
在运用聚类算法之前,由于不同记录属性值之间的差别可能很大,而且它们可以用不同的单位来度量,每个属性所对应的权值也有可能不同,因此,需要对属性值进行标准化,通过数据标准化获得的数据集合即可使用聚类算法分类。由于K-means算法易实现,且具有较小的计算复杂度,比较适合解决高速网络中需要较高匹配速度的问题,我们选用K-means算法作为进行聚类分析的算法。区分正常聚类和异常聚类的方法为:采用《电信网和互联网安全防护管理指南》中的属性值规范记录属性,标记各个聚类,如果聚类中心失量符合《电信网和互联网安全防护管理指南》相关要求,就将它标记
为正常的聚类,否则标记为异常的聚类。 4应用实例
下面举例说明怎样使用聚类算法进行高速网络人侵检测。以 TCP协议为例,对筛选后的连接记录进行标准化。然后采用K-means算法对记录进行聚类分析。首先假定输出10个聚类,从数据集中任选10个数据作为这10个聚类初始的中心值,然后将每个数据划分到其中的一个聚类,方法采用3.1所述的K一means算法。进行聚类后,整个数据集被划分成6个聚类,各个聚类中含有的正常数据和攻击数据的数量如表1
从表1中可以看出,聚类1,4,5.6中正常数据占绝大多数,聚类 2.3中网络人侵攻击数据占绝大多数,所以可以标记聚类1、4.5.6为正常,而聚类2、3为异常。计算此次试验的检测率为90.594%,误警率为3.912%,它们分别代表检测为攻击的攻击数据占所有攻击数据的
比重,以及检测为攻击的正常数据占所有正常数据的比重。 5结语
通过上面的数据分析可以看到,利用聚类算法可以有效地将正常数据和攻击数据区分开来,且在高速网络中未知的人入侵检测中准确性可以满足要求。本实验采取多种技术手段如基于应用的入侵检测、聚类算法,数据挖掘等,解决了1000M/S以太网的人侵检测问题。在提高检测效率的同时,降低了系统的误报率,能较好的检测未知攻击,缺点是检测的误警率较高。如何保证检测系统在高效的基础上降低误警率有待一步的研究。
作者简介:林传慧(1988一),男,山东烟台人,硕士研究生,中级,毕业于北京邮电大学,研究方向:现代网络管理
93