
武与成用
数据挖据在数字化图书馆中的应用研究
高概赖
(黑龙江外国语学院黑龙江哈尔滨150025)
应用研究
摘要:信息化建设的脚步越来越快,面对信息的日益增多,数据挖摄技术也越来越收重视,在数字化图书馆中运用数据挖据技术能够改善传统图书馆的服务模式。在数宇化图书馆中,运用数据挖据技术能够改良图书馆内书籍的布局,提高图书馆的工作效率,同时根据用户借阅图书的习惯和历史记录,分析出用户的潜在意识,给用户提供个性化的服务导向,推荐用户可能需要的书籍,让图书馆的服务从单纯的借阅向引导化借阅转变。本文介绍了数据挖抵技术的含义以及改进方案,从各个不同方面特数据挖据核术应用到数字化图书馆中,同时对面临的问题做了分析。
关键词:数字化图书馆数据挖据技术服务
中图分类号:TP311.13
文献标识码:A
作为IT行业新兴交叉领域的研究,数据挖掘技术已经在数字图书馆中得到应用,该技术根据人工智能、数据库分析、自动模式分析、统计学原理、图形展示技术等,从海量的、杂乱无章的数据雄当中,提取出隐蔽的、对人们有巨大价值意义的相关信息,是数据知识进一步认知的核心。数据挖摄技术在分析的过程中主要涉及到整理,统计,选择,转变,挖控掘,评定和表现这些步墨。技术发展的目的就是从看似毫无用处的数据当中进行筛选和统计,找出数据中隐藏的
价值,分析用户的潜在意识,及时提供给用户有价值的信息。 1数据挖掘技术的分类
数据挖掘技术指的是从许多看起来没有任何联系的数据堆中,运用一些算法分析从中提炼出一些关联数据的过程。为了找出数据的关联性和一些转变特性,同时在大量数据中抽取模式、挖据数据的含义以及做出准确的定义等工作,人们急切地想将数据转化为能够掌控的知识。
数据挖掘技术从对象上来分可以分成3个方面;互联网数据挖据、文本数据挖掘、多媒体数据挖揭。互联网挖摄主要是通过网页历史记录和后台数据库,将用户的兴超点提炼出来,挖摄用户的偏好和上网行为。文本数据挖据的对象主要是文本形式,主要对其进行内容的检索。多媒体数据挖揭是对多媒体数据的内容进行研究,从中发现具有价值导向并可利用的模式,它的难点是多媒体数据往往
是非线性结构的,算法较为复杂。 2数据挖握方法
关联分析。该方法主要从大量的数据项集当中分析每个数据之间的存在的一些关联规律性。随着数据的存储和新增,人们对数据之间的关联规则有着越来越多的重视。比较经典的关联算法如 Apriori算法就是通过逐层搜索的选代方法,用k-项集搜索到(k+1)项集。
聚类分析。将要挖掘的对象集合,不管是物理还是抽象的,通过分组的形式分成多个类进行分析。主要用于分析数据的属性和它们的分布模式之间的关联性
分类。所谓分类,就是将所有的对象按照特定的规则划分成几个类别,表现形式一般为规则或者是决策树的模式。一个类别代表了这类数据的全部信心,构造模型进行描述。分类一般在预测以及规则的描述中运用,利用算法和训练数据集来得出分类的规则。
预测。该方法能够从大量的历史数据当中,通过算法建立起的数学模型,找出数据变化的规律性,并以此来预测数据的未来趋势和特征。预测主要是为当前数据或未知的对象行为做一个预测,当然,预测的结果不是确定的,需要通过检验才能验证是否正确。
时序模式。该方法和预测一样,也是通过数据的现状来判断其未来的行为,它是利用了时间序列的分析和数据的重复程度来进行收稿日期:2015-06-29
文章编号:1007-9416(2015)07-0101-01
预测。
偏差分析。利用偏差分析,可以发现数据是否存在一些异常状况,在数据库当中,很多数据会存在一些异常,其中不乏有价值的数据。找到观察结果并对预想的结果进行比较,分析偏差的原因是偏差检验的基本手段。
3数字化图书馆中运用数据挖拥技术
数字化图书馆建立的目的就是利用信息化平台,完成信息资源的采集,通过对购买历史记录、图书搜索信息、用户借阅信息、读者反馈一建以及各个学科的发展方向和其他需求,能够帮助图书馆对图书的需求有一个预期,了解邮一类图书更容易被用户借阅,就可以适当订购多点该类书籍,能够合理地进行书籍的整理和采购。
利用关联规则的算法在根据一定阀值匹配的模式中,可以得出用户的借阅关联信息,了解用户在借阅某类书籍时,更有倾向借阅哪些其他书筛,及时地向用户推荐相关信息,提高信息的获取速度。
根据用户的借阅和浏览的历史记录,图书馆就能了解用户的需求和特点,通过数据挖据掘技术可以找到用户可能需要的服务,针对该类服务给用户提供一些个性化服务,提高用户的使用满意度,把数字图书馆打造成一个智能型的服务平台。
数据挖据技术能够找出潜在的价值体现,并以此拓展自已的业务,完善自身的服务结构和用户体验。有几种扩展方式:通过用户的偏好为用户提供个性化的系统服务和一些专属的信息推荐,适时地给用户推送服务信息,让用户及时地了解最新咨询,通过信息服务的推送,提高用户的体验和对平台的满意度,根据用户的浏览历史和搜索关键字,捕提用户的兴趣爱好,主动向用户介绍可能感兴越的信息,开通虚拟咨询服务,用过邮件、电话、短信、聊天平台等多种
媒介对用户进行答疑,满足用户的咨询需求。 4结语
在数据挖掘技术不断发展的今天,也面临着许多严峻地考验,比如用户的交互性、系统的运行指标、数据的多种样式,算法的缺陷等等。如何挖掘出高效地方法、建立集成度高的数据挖揭环境、良好的展示界面等都是重点考虑的问题。同时,数据挖揭技术还可能涉及到用户的一些隐私间题,用户的个人隐私或者一些商业机密信息可能会随着数据挖揭技术的深人研究而浮出水面,这些都牵涉到法律问题,需要通过相关法律法规来规范这种行为,否则不容易被大众所接受,也会造成一些不法分子通过数据挖掘技术实行非法操作。
作为信息技术中比较前沿的技术,数据挖掘技术在不断地完善发展,也同时还有许多不足需要解决,但是该技术能够有效地组织数据、分析数据、得到数据,在信息领城有着巨大的潜力。将数据挖掘和数字化图书馆结合起来,可以改善图书馆的信息管理能力,提高图书馆的服务理念,在高校数字化图书馆建设中起到重要的作用。
基全项目:2015年CALIS全国农学文献信息中心研究项目(编号:2015011)。
作者简介:高巍税(1976一),女,黑龙江哈尔滨人,颈士,制教授,研究方向:软件工程,数据库,教学管理。方方数据