
数事教术每用
加载隐私保护的多步攻击关联方法
张健12马进1畅3
1.上海交通大学电子信息与电气工程学院上海200240;
(2.上海市信息安全综合管理技术研究重点实验室上海200240; 3.总装备部武汉军代局驻桂林地区军代室广西桂林541004)
应用研究
摘要;随着超来越多的安全成胁,各个组织机构之间至相展开合作、共同抵抗攻击。来自各个组织的安全报警数据常常包含一费与数据额有者隐私相关的敏感信息,这就需要在共享这些报整数据之前对其敏感信息进行保护,然而,经过隐私保护的报警数据又会对后续的入侵分析产生负面影响。为了平衡报警数据的隐私性和可用性,本文基于k一照名模型对报警数据进行隐私保护,在已有序列模式花握算法的基础上提出 ESPM序列模式挖抵算法对报警数据遗行多步攻击关联。实检结果表明,该方法可以有效地挖据出多步攻击行为模式。
关键调:隐私保护k一墨名多步攻击关联序列模式挖据
中图分类号:TP309 1、引言
文献标识码:A
文章编号:1007-9416(2011)12-0051-03
泛化层次,改进k一诺名算法incognito来实现对原始报警数据的陷
近儿年来,诸如蠕虫和分布式拒绝服务攻击(DDOS)等各种安全威胁与日俱增,为了抵抗这些攻击,不少组织机构之间开始相互合作,如CERT(http://www.cert.org/certcc.html)和DShield(http;//www.dshicld.org/)通过在网上收集安全报警数据,对数据进行关联分析,然后将分析结果信息发布给用户和销售商",通常,安全报警数据都是从不同的公司组织中收集得到,因此其中包含了一些比较数感的信息,而这些敏感信息是数据测有者不愿公开或者与别人共享的。为了保护安全报警数据的敏感信息,防止被不法分子利用,对报警数据进行一定的隐私保护就显得尤为重要了,本文基于k一差名隐私保护技术对报警数据进行保护,在已有序列模式挖揭算法的基确上提出ESPM(EfficientSequentialPattern Mining)序列模式挖掘算法对报警数据进行多步攻击关联。实验结果表明,该方法仍然能够有效地从隐私保护后的报警数括中挖据出
多步攻击行为模式。 2、报警的隐私保护
k-一置名是解决数据发布中隐私信息泄漏问题的一个比较有效的方法,本文基于k一暨名思想,改进经典算法Incognito,对原始报警进行隐私保护,使经过隐私保护的报警数据仍能有效地用于多步攻击关联分析。
2.1关定义
本文基于incognito算法,将其在普通数据集中的相关定义应用到报警数据集中。以下给出用于报警隐私保护的几个定义:
定义2.1:报警频数集报警数据表T在数感属性集(S,",Q) 上的报警频数集定义为映射F:(9,"",9,)→coumr(g,"",9))其中(g,.9,)是(Q.O.)的属性值的组合,comr(g.9)是(2.O.) 属性值为(9,"",9.)的元组在表T中出现的数目。
定义2.2:k维报警泛化图报警数据表T的k维报警泛化图Gt 包含n个子图,即G*=G,U..UG;.其中子图G'(ie(I,,n))从表T 中任取k个Q属性得到(Qa.".),由它们城泛化层H..,H,中的各层属性城构成的连通图。G中的点是一个K维属性城向量
,Qun"",Oau分别为Qa.Q对应的某个域,两点之间存在直接泛化关系的用有向边表示k维泛化图中,没有边指向的
点称为根节点。点的高度表示为H》
2.2算法横速
4
本文所提出的对原始报警数据进行隐私保护的方法基于k-医名的思想,利用报警敏感属性的摘来设计合理的报警敏感属性万方数据
私保护。
2.2.1泛化质次
k一匿名算法以敏感属性泛化层次作为输人条件,这就要求我们事先设计一个敏感属性泛化晨次。本文利用文献中定义的烯或者微分摘来帮助设计一个合理的敏感属性泛化层次,对于离散教感属性,采用摘定义,对于连续敏感属性,采用微分定义。
2.2.2隐私保护算注
k-医名算法Incognito能够产生表T的所有满足k-匿名属性的全域泛化表,但是在送代过程中,k维报警泛化图G的所有节点混在一起送代,设G的根节点个数为S,则计算G中各节点的报警频数时需要对数据库进行s次扫措,多次重复扫描数据库的过程大大降低了算法效率,本文在incognito算法的基础上,做了一定的改进,与Incognito算法相比,本文的算法将G分成n个报警泛化子图 G=GU.UG,在计算第i个k维报警泛化子图G"中各节点的报警题数时,只需扫描一遍数据库就可以得到图G’中没有经过泛化的根节点所具有的报警频数,这样在计算其他节点的报警频数时,只需要根据上卷性质就可以由该节点的父节点的报警频数计算得到,不需要再次扫捕数据库。因此,本文的算法计算一个k维报泛化子图中各点的报警频数时,只需要扫措一次数据库,计算G中各点的报警频数时,共需要扫描n次数据库,而lncognito需要扫描数据库的次数为s(s≥n)次,随着维度的增加,s与n的差值也会越来越大。因此,本文的算法能有效减少需要扫描数据库的次数,从而加快算法速度。本文的算法只选取m维投警泛化图中具有最小泛化高度的节点,如果同时有几个具有相同最小泛化高度的节点,那么这些节点将以JianXu等人的CertaintyMetric4作为数据质量的度量标
准,找出其中具有最高数据质量的最小泛化高度节点。 3、多步攻击关联
本文借鉴MASPS算法进行序列模式挖揭的思想,提出了ESPM 算法进行攻击行为序列模式挖掘,与MASP算法相比,它在挖掘过程申增加了两个过滤阶段:
a)一次性过滤阶段:根据支持度定义,如果一个候选攻击序列中的第一个元素不属于任何最大攻击行为集中的元素,则该候选攻击序列中肯定不包含频繁攻击行为序列模式,那么这样的候选攻击序列可以在扫播中就被过滤掉。
b)动态过滤阶段:如果某个候选攻击序列支持某些候选最大 k-攻击序列,但是不支持满足最小支持度要求的最大k-攻击序列,
51