
总第198期 2010年第12期
靓船电子工程
Ship Eleetronic Engineering
网络搜索链接技术的研究
官斌
(武汉市74223信箱武汉430074)
Vol., 30 No. 12
9
摘要介绍了近儿年来互联网络搜索中链接分析技术的进展,并为进一步的研究反对易式出了几个可行的方向。
关键调Web搜家:链接分析,PageRank算法;HITS算法;搜索引掌中图分类号TP393
ResearchontheLinkAnalysisintheInternetSearch
Guan Bin
(P.O.Box 74223,Wuhan430074)
AbstractWe first briefly review some main link analysis technologies for web search in recent years, and then we point out several possible directions for the further research.
Key Words Web search, link analysis, PageRank, HITS, search engine ClassNumberTP393
1
引言
随着互联网络的日益迅猛增长,互联网络已成为世界上规模最大的信息源之一。在如此巨大的数据海洋中寻找用户所需要的信息已不是人力所能胜任的工作了,因而搜索引擎已经作为互联网上最有效的信息获取T具而为人们广泛接受。
不同于传统的信息检索(图书馆资源检索),互联网不仅包含了大量的内容信息(包括文字、图像、声音、视频),而且还包含了复杂的结构信息(如超链接关系,网站的组织结构等等)。对互联网结构信息的利用能够很大程度上决定一个搜索引整性能的好坏。因此,链接分析(linkanalysis)已成为互联网检索领域--个很热的话题.吸引了众多研究者的关注。本文介绍了从1998年以来链接分析技术的进展,并在此基础上指出了进一步的研究方向。
链接分析的兴起:两大经典算法的 2
提出
1998年是互联网搜索厉史上最有纪念意义的
一年。链接分析的两大经典算法都于该年提出: HITS和PageRank。正是由于链接分析的运用是互联网搜索的准确程度有了一个质的飞跃。下
面我们简单介绍一下这两个算法。 2.1PageRank算法
PageRank:2是由斯坦福大学的两个博士研究生SergeyBrin和LawrencePage于1998年提出, Google即为该论文的原型系统,如今已发展成为世界上最好的搜索引擎。
PagcRank算法的基本思想相当简单。PageR ank认为.每个网贞的重要程度是不一样的。如果个网负被很多网贞指向,那么该网页很可能非常重要:另外,一个重要的网页所指向的网页也很可能非常重要。PageRank的基本原理可以用马尔可夫随机游走模型来解释。PageRank模仿一个用户在互联网上浏览行为,在当前时刻,该用户以一定的概率9跳转到任意一个网负,或者以概率1一跳转到当前网页所指向的某一网页。该过程可以用一个马尔可夫链米建模,互联网中的每一个网页就是马尔可夫链中的一个状态。该马尔可夫链平
收稿日期:2010年7月25日,修回日期:2010年8月29日作者简介:官试,男,1程师.研究方向:计算机软件管理。
万方数据