您当前的位置:首页>论文资料>基于搜索引擎的网络中文信息检索工具评价

基于搜索引擎的网络中文信息检索工具评价

资料类别:论文资料

文档格式:PDF电子版

文件大小:110.86 KB

资料语言:中文

更新时间:2024-12-20 11:35:46



推荐标签:

内容简介

基于搜索引擎的网络中文信息检索工具评价 数事热术点
学术论坛
基于搜索引擎的网络中文信息检索工具评价
魏蓄如
(解放军外国语学院河南洛阳471003)
摘要:本文从捷案引擎的概念、各个搜素引擎的特点及其它们的发展见状进行了阐述,从而对网络中文信息检索工具进行了比较,目的是使我们都能够更多的了解各种不同的接素引学,更好的利用技索引掌为我们服务。
关键词:信息检索投象引擎
中图分类号:TP39
文献标识码:A
文章编号:1007-9416(2011)06-018701
因特网的发展每时每刻都在发生变化,因特网上的信息是极其无序的,信息量越大,越难被利用,如何获取和利用因特网上的信息就成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。但是如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上找到我们所需要的信息,也是一个需要研究和解决的课题。
1、搜索引擎的极念
搜索引整是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词全文检索、主题词检索、分类检索及其它特殊信息的检索。
2、网络中文信息检索工具的分类及评价
2.1百度
在诸多的中文搜索引擎中百度占绝对领先地位的搜索引擎,是全球中文用户用的最多的一个引整。每分每秒,百度以超过亿计的中文网页,全球独有的"超链分析"技术,亚秒级的迅捷速度,庞大的服务器群,接受来自全球各个国家的中文搜索请求。
2.1.2面要特点
百度拥有全球最大的中文网页库。每天处理来自一百多个国家的超过一亿人次的搜索请求。简单强大的搜索功能深受网民的信赖,每天有超过七万用户将百度设为首页。同时百度也为企业提供了一个获得潜在消费者的平台,并为大型企业和政府机构提供海量信息检索与管理方案。在信息过剩的时代,百度凭借“简单,可依赖”的搜索体验使“百度一下”成为搜索的代名词。
2.1.2模心技术
超链分析技术,是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用,百度总裁李彦宏就是超链分析专利的唯一持有人。在学术界,一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。百度在中文互联网拥有天然优势,支持搜索8亿中文网页,是世界上最大的中文搜索引擎。
2.2Google
是目前世界上最优秀的支持多语种的搜索引擎之一。提供网站、图像、新闻组等多种资源的查询,也可以按照主体分类来浏览网页。包括中文简体、繁体、英语等35个国家和地区的语言的资源。
2.2.1i要特点
Google最大的特点是容量大和查询准确。目录收录了10亿多个网址,这些网站的内容涉猎广泛,无所不有。Google最长于为常见查询找出最准确的搜索结果,它会直接带您进入最符合搏索条件的网站,省时又方便。
2.2.2预心技术
方方数据
(1)后台索引结构。整体的后台索引结构的基本思想就是:把查询结果预先给运算出来。当然这些运算出来的结果全部放到内存中,那样查询是最快的,但内存总量毕竞是有限的,对于那此搜索高频词的结果就放在内存中,低频词的结果当然就放在硬盘上。但是,一些低频词可能会马上变成高频词,所以搜索引擎在后台索引结构中,都会有一个高速缓冲,高速缓冲的设计非常巧妙,在它中间保存着最新最热门的查询结果。
(2)压缩技术。压缩技术极大的减少了数据的大小,对于不同类型的数据,需要采用不同的压缩方法,主要的数据压缩主要有:网贞数据的压缩和索引数据的压缩。Google中选择了 Alib(RFC1950)进行压缩,在压缩速度上Zlib超过Bzip,压缩比上 Bzip好于Zlib
2.3悠游中文搜索引擎
Goyoyo是较有影响的一个搜索引擎,充分体现了两岸三地的特色。除了关键词检索功能而外,悠游也提供了一个简单而排版清晰的分类库,是一个极具高度智慧的中文搜索器,随时带你畅游全球700,000个中文互联网网页,自动为你转换繁、简体字。
Goyoyo中文搜索器有超智能的Robot系统,分秒不停地穿梭于全球数以百万个网页之中,寻找每日更新的资料,自动识别和分类。
2.4 ChinaBvte CSEEK
CSEEK的检索功能非常强劲,除了国外的搜索引擎,它可能是我们评价的中文搜索引擎中检索功能最强的一个,因为它使用的搜索引擎核心是非常成熟的商用软件verity。但正因为其功能强劲且有些复杂,要充分利用到其强劲的检索功能,用户必须详细阅读其帮助页面,这对于普通用户来说有些勉为其难。CSEEK的界面虽然也算清晰明了,但在其页面上缺乏对于其检索功能的简单描述或者是一些辅助选项按钮,不能不说是一个小小的缺撼。
25天网中英文技余引擎
天网是由CERNET在北京大学设立的一个较优秀的中文搜索引擎,主要以CERNET的网页信息为主。作为国内自行开发的搜索引擎,具有一定的水准。它象很多国外的优秀搜索引擎一样,系统不仅提供WWW网页的查询,同时也提供对新闻组(Newsgroup)内容的查询。天网还支持通过EMAIL的检索,即用户可将检索式通过EMAIL发送检索提问式,而天网搜索引擎通过 EMAIL回送检索结果。
中文搜索引擎还有很多,就不一一列举出来。以上仅是对它们的一些简单的探讨,希望大家都能够更多的了解它们,用好搜
索引擎。参考文献
[1]黄西安《利用“百度"按索网络信息资源》[《科技情报开发与经济》 2005(04).
[2]赵静,王玉平.《目前我国搜索引举研究的现状与发展》[J].《情报科学》2003(08)
[3]周丽霞《网络信息检索研究综述》[J]《情报科学》,2004(04).
187
上一章:无线传感网络移动节点位置并行微粒群优化策略探析 下一章:LTE网络系统中SON技术研究

相关文章

化学化工信息及网络资源的检索与利用 第三版 基于内容的视觉信息检索 基于多线程的网络文件传输工具的改进 网络搜索链接技术的研究 基于内容的音频检索技术 基于余枝搜索的最小独立闭合环自动搜索算法 基于智能计算的图像检索算法研究 基于图片颜色特征的图像检索方法研究