
数学执本与率用
动态关联规则在网络数据挖掘中的应用
赵晓菲
(兰州石化职业技术学院甘肃兰州730060)
应用研究
摘要:随着信息技术在经济活动中的广泛应用,人们切需要一种有效的方法能够从海量的网络信息资源中获取可用的信息或知识。由此,网络数据挖抵旧应运而生。Web日志数据中存储了大量的用户测览网页的记最,利用延费记最数据,构建网络拓扑结构图,进行Web日志挖抵。采用Aprian 算法对其进行关联规则挖据,所产生的关联规则,能够实时反映用户的网络行为,也有助于优化网络结构。
关键词:关联规则Web日志挖据:网络结构
中图分类号:TP311 1引言
文献标识码:A
网络数据挖掘是数据挖掘技术在处理网络信息方面的重要应
用。目前网络数据挖揭分为内容挖掘、结构挖掘和使用挖掘。 2根据网络日志数据建立网络拓扑模型
2.1网络日志挖掘过程
由于互联网用户的持续激增,Web服务器中的日志数据也随之呈指数性增长。这些Web日志数据中隐含着非常重要的数据资源间的关联信息。Web目志的挖据过程一般分为原始数据采集、数据预处理、数据挖掘及对挖掘出的结果进行评估分析。
2.2建立网络拓扑模型
网站是一个资源集,网站资源包含网页,数据、图片,声音和文档等多种形式。网页是一种特殊的资源,它包含超链接,把资源联系起来。以上资源的数据在Web目志中都有所记载,因此,本文以某 Web日志文件记录作为数据源,构建一个网络拓扑图。图中结点表示网页,有向边表示页面链接。如果页A存在链接可到达页B,则B称
为A的链接页。图1表示网络拓扑结构图。 3动态关联规则在Web挖掘中的应用
关联规则挖掘的目的在于找出网络资源之间隐含的相互关系。关联规则挖揭步骤可以分为两个子步骤;找出所有频繁项集、由频繁项集产生关联规则。Apriori算法是一种成熟的,经典的关联规则挖掘算法,它采用送代法挖掘频繁项集,过程可分为两步:连接步和剪枝步(。但是,在挖掘过程中,它采用单一不变的支持度和置信度,不能反映规则随时间的变化过程。
3.1动态关联规则定义
动态关联规则是一种能描述自身特性随时闻变化的关联规则,具体描述如下:
设项集合「=(.i2,),任务相关的事务数据集D是在时间段t内收集到的,可分为不相交长度为的时间序列,即有
A
B
图1网络拓扑结构图
收移日期:201503-15
文章编号:1007-9416(2015)03-0071-01
=(,2,,)。根据t的划分,整个数据集可分为n个数据子集 D=(D,D,.,D),其中数据子集D(iE(1,2,,n)的数据是在 t,iE(1,2,,n)时间段内收集的.项集T满足T三I。
一条完整的动态关联规则可以描述如下:
8=
(SV[,."],CV[c,.....c,],S,c),其中,SV是支持度向量,CV是置信度向量,s和c总的支持度和置信度。S,,C,是在t,时间段内规则A=>B的支持度和置信度。S,为A在D中出现次数
S(AUB)
与D,中的记录数之比,C,=
S
S,,c
支持度分量和置信度分量都可以用Apriori算法求得。
3.2利用动态关联规则优化网络拓扑结构
c每一个
采用邻接链表存储网络拓扑图。为简化网络日志挖掘过程,现拟定图1是根据某一用户一次连续浏览网页时的Web日志所绘的网络拓扑结构图。若两个页面结点在网络拓扑图中没有有向边相连,则表示它们之间没有超链接,若两个页面结点相距较远(它们之间的路径比较长),表明这两个页面之间的相关性比较弱,
设定最小支持度和最小置信度阅值,经过一段时间的记录,根据该用户浏览网页的日志数据,利用Apriori算法得出图1中各个页面结点的访问频数,产生频繁项集,生产关联规则。将一段时间等间隔划分,分别在每一小段时间内计算所产生的关联规则的支持度和置信度,进而产生动态关联规则。根据该动态关联规则对网络拓扑图进行优化,更新超链接。
例如,设最小支持度为0.1,最小置信度为0.15。现收集该用户在一个月(按4周算)内的Web目志数据,按每周划分改记录数据,按照上述方法得出其中的一条动态关联规则B=>G(SV=[0.10,0.12,0.24,0.18].CV=[0.15,0.18,0.25,0.21],S=0.64,
C=0.79)。那么,在图1中应当加一条由B指向G的有向边。 4结语
本文通过利用Web日志记录,构建网络拓扑图,运用动态关联规则技术对网络数据进行挖掘,根据挖掘的有趣关联规则,动态地
反映用户的网络行为,及时更新网络拓扑图和网页超链接。参考文献
[1]金燕,张玉峰.网络数据挖据及其在面向Web的知识检索中的应用[J].信息检索技术,2003
[2]韩家炜,坎伯.数据挖据:概念与技术[M].北京:机械工业出版社, 2001.
作者简介:题晓菲(1987一),女,河北衡水人,助教,研究生,研究方向:数据挖据,