数据挖掘技术在数字图书馆中的应用研究

数据挖掘技术在数字图书馆中的应用研究

ID:7258727

大小:35.11 KB

页数:11页

时间:2018-02-09

数据挖掘技术在数字图书馆中的应用研究_第1页
数据挖掘技术在数字图书馆中的应用研究_第2页
数据挖掘技术在数字图书馆中的应用研究_第3页
数据挖掘技术在数字图书馆中的应用研究_第4页
数据挖掘技术在数字图书馆中的应用研究_第5页
资源描述:

《数据挖掘技术在数字图书馆中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘技术在数字图书馆中的应用研究(XX大学医学部,XX100191)   摘要:文章介绍了数据挖掘的主要技术,即关联规则和聚类算法,并针对XX林业大学数字图书馆数据的具体特点,将这两种关键技术运用到图书馆借阅信息挖掘过程中,通过分析挖掘结果,寻找借阅书刊一些潜在的规律,优化图书馆的馆藏布局,提高个性化服务质量。   关键词:数据挖掘;关联规则;聚类算法;数字图书馆   中图分类号:TP274文献标识码:A文章编号:[HTK]1007—6921(XX)04—0158—03   随着高校图书馆数据库中数据量的迅速增加,如何使高校图

2、书馆朝着自动化、数字化和信息化的方向发展,已成为目前迫切需要解决的问题。如果将数据挖掘技术很好的运用到图书馆数据库中,将会使其职能相应地实现转型,即除了传统的服务和教育职能外,还可以为高校的决策、管理及建设发展提供信息咨询与服务。这样可以使高校图书馆逐步成为开放的社会化数字图书馆,为师生的学习及科研创造更好的环境和氛围。 1数据挖掘及其关键技术 1.1数据挖掘的定义   数据挖掘(DataMining,简称DM),就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过

3、程[1]。它主要研究发现知识的各种方法和技术,并利用各种分析工具在海量数据中分析发现模型和数据间的潜在关系。 1.2数据挖掘中的主要技术   1.2.1关联规则。关联规则是数据挖掘的主要技术之一。所谓关联规则,就是寻找数据库中数据项(属性、变量)之间存在(潜在)的关联规则。利用关联规则的数据挖掘技术,可以找出大量数据之间未知的依赖关系。例如:通过对读者借阅行为进行关联规则分析,可以分析出不同图书类别中的潜在关系。虽然数据挖掘中频繁项集挖掘算法对于一些非稠密数据库能够取得较好的性能,但对于稠密数据库或者支持度阈值比较小时,频繁项集的数量

4、会以指数形式增长,使得找出所有的频繁项集成为不可能的任务。但实际上,在频繁项集中,存在着较多的冗余,最大频繁项集的规模是所有频繁项集中最小的,并且可以导出频繁项集。因此我们可以使用最大频繁项集数据挖掘,提高关联规则挖掘效率。   1.2.2聚类分析。聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同。因此在数据进行聚类这一过程中没有指导,是一种无监督分类。聚类分析是用数学方法研究和处理所给对象的分类以及各类之间的亲疏程度,是在对数据不作任何假设的条件下进行分

5、析的技术[2]。 2数据挖掘技术在图书馆借阅信息中的应用   数据挖掘在商业领域内的应用给图书馆带来了很大启发,图书馆读者的特点是数量巨大、读者的年龄不同、工作性质和专业方向不同、研究领域更是差别很大,这样的读者特点给图书馆提出了不同的个性化要求。如何满足读者的需求,提高读者的满意度,给读者更好的服务,是一个值得研究的问题[3]。   在读者利用图书馆的资源过程中会留下诸如读者基本信息、借阅历史、检索历史等有价值的大量信息,这正是图书馆工作者获取读者信息需求、读者分类、需求聚类的宝贵数据,获取这些信息就可以据此提供个性化信息服务

6、,即根据读者兴趣文件或兴趣规则主动向读者提供有价值的资源。通过分析数据挖掘的结果,寻找各个学科领域中的一些相互关联的知识、优化图书馆的馆藏布局。图书馆数据库的各个表中包含很多信息,其中读者的借阅信息是主要信息之一,它直接面向读者,反应读者的借阅需求。下面以XX林业大学数字图书馆为例,对读者的借阅信息进行数据挖掘。 2.1关联规则算法的应用   应用关联规则算法对借阅数据进行挖掘,在图书馆优化书架书库的管理、发现学科间的隐性关联、指导读者的借阅行为和提供个性化服务等方面有积极作用。   2.1.1提供个性化特色服务。在传统的期刊服务过程中

7、,一般是用户提出信息服务请求,然后由图书馆员做出解答,后来出现了定制式服务,由图书馆员定期向用户提供与其所从事的课题有关的信息资料。显然,这二者都是由客户首先提出服务需求,然后才得到相应的服务。利用数据挖掘,完全可以根据用户借阅、查阅的历史资料以及正在从事的课题研究进行数据挖掘,从而了解用户的所需,确定个性化服务内容,主动将相关资料发送到他们手中[4]。另外,由于有的读者在借阅图书之前,有一些盲目性,不知道自己需要哪类书,什么书适合自己,因此可以根据挖掘出来的关联规则,指导读者借阅书籍,也利于他们今后的学习和研究。   在进行数据挖掘前,首

8、先选取XX年至XX年三年内XX林业大学图书馆所有读者借阅数据,并对数据进行预处理,将一些属性根据实际需要进行离散化,例如:用年级将大学生的年龄离散化为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。