
热学热术意用
学术论坛
基于用户日志双向聚类的查询扩展方法
胡炜徐青翠樊中奎
(江西理工大学南昌校区信息工程系江西南昌330013)
捕要:文章对基于用户查询日志的查询扩展模型进行了优化,提出了一种新的基于用户日志双向聚类的查询扩展模型。该模型对用户日志中的用户查询和点击文档进行双向聚类,挑选出更符合查询主题的查询扩展词,将其加入到搜常系统中,以达到为用户提供高质量检常结果的目的。实验证明,该方法能够有效提高检索的质量。
关键调:信息检案查询扩展双向聚类用户日志
中图分类号:TP391
文献标识码:A
文章编号:1007-9416(2011)12-0233-02
目前的搜索引擎主要根据用户输入的查询关键词进行检索,把相关文档返回给用户,但是,用户输入的关键词往往不能完全准确地表达用户所要查找的内容。查询扩展方法主要是通过修改查询词或通过修改查询词的权值来改进查询,使得修改后的查询能够更准确地刻通用户的真实查询意图,达到为用户提供高质量、高相关度
查询结果的目的。 1、相关研究
查询扩展方法可以在一定程度上改善用户查询语义信息不够明确的问题,解决长期困扰信息检案领域的词不匹配问题。按照用户交互方式的不同可将查询扩展方法分为显式反馈和隐式反馈两种,显式反馈以相关反馈(relevancefeedback)方法为主,隐式反馈基本上可以分为全局分析、局部分析和外部数据分析2.3三大类。
2、基于用户日志双向聚类的查询扩展方法
2.1基本思想
基于用户查询日志的查询扩展统计模型的思想是,在用户查询记录的基础上建立用户套询空间,在文档集上建立文档空间,根据用户日志将两个空间中的词按照用户提交某个查询所点击的文章以条件概率方式连接起来。当新查询到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文档用词加人查询。
但传统的方法中没有考惠查询主题对查询扩展词的影响,简单地利用贝叶斯公式挑选出点击文档中与该查询词相关联的词加人原查询,这样会将一些与查询主题无关的扩展词也加人到查询中,从面降低查询的精度。为了挑选与查询主题更相关的扩展词,在查询扩展之前,先对用户日志进行双向聚类,在文档集上建立与查询主题相关联的文档族空间,将用户查询空间和文档续空间中的词按照用户提交某个查询所点击的文档所在簇以条件概率的方式连接起来。
2.2用户日志双向聚类
本文提出的基于用户查询日志的双向案类方法采用的是向量空间模型来处理,给定用户查询集合U=u,u2,"*,um和点击文档集合D=(d1,d2,,dm,用户日志中的查询点击关系,可以用-个用户一文档矩阵4.来表示,其中m行表示m个用户查询,n列表示n个点击文档,如下所示。
d.
+
(a a21
d,...d. 2
4
A22
Cr
("p..pp)
图1用户查询及点击文档的向量表示
其中,4,表示用户查询与文档d,的点击关系,用户查询u,的检索结果中点击了文档d,,则a,为1。矩阵中的每列可以看成文档
万方数据
d,的向量表示,即a,(a,"),用户查询,的向量形式为:, (ag,*a_)
首先对用户查询和文档分别进行初始聚类,然后用交叉送代法4依次调整用户查询聚类和文档聚类结果。交叉选代的具体步骤如下
(1)用户查询聚类调整。首先固定文档聚类,调整用户查询聚类,如果聚类数目为clusterNum,集合UserSer(a)表示第个用户查询簇中用户查询所组成的集合,集合DocSer(d,)表示第/个文档簇中文档所组成的集合,1≤/≤clusterNum。uc,表示第/个用户查询额UserSet(s)的聚类中心uc,的向量表示,令集合DocSer(uc,)为包含用户查询聚类中心uc,的文档,d,表示第/个文档额DocSer(d,) 的聚类中心dc,的向量表示,令集合UserSer(dc)表示文档聚类中心 d,中包含的用户查询。
对于每个用户查询簇UserSer(a),通过下式计算族中各个用户查询与该用户查询聚类中心uc,的关联关系S,(ac):
1,
S,(u,uc,)
f u, =uc,
S
Esim(d,d,), etse
Z 台
(1)
其中,(k=1,2n)表示用户查询,是否点击第篇文档, b,(k=1,2.,n)表示第k篇文档是否包含第/个用户查询聚类中心 wc,,sim(d,d,)采用夹角余弦公式计算,集合CommDoc表示同时包含用户查询u,和uc,的文档集合,即CommDoc=d,ld,((DocSer(u,) DocSer(uc,)),
(2)文档聚类调整。固定用户查询聚类,利用用户查询聚类信息来调整文档聚类。在各个文档簇DocSer(d)中,通过下式计算每个文档d,与文档聚类中心de,的关联关系S,(d&,)
1,
S,(d,.dc,)
q a,-de
sim(a,ai,), else
eotle ,ed(ie
(2)
其中,集合CommU(d,.dc,)表示文档d,和文档聚类中心dc,共同包含的用户查询所组成的集合CommU(d,dc)。而集合CommUser为集合与对应的用户查询膜UserSer(a,)的交集,即;CommUser=(u
I wE(CommU (d,dc,)n UserSer (u,), 3、实验结果及分析
3.1实验说明
本文实验使用的搜索引擎用户查询日志数据来自AOL(American Online)公司,由2006年3月1日00:00:00至2006年5月31日23;5959
233