关联规则研究在国内图书馆学领域应用探究.doc

关联规则研究在国内图书馆学领域应用探究.doc

ID:51519762

大小:81.50 KB

页数:13页

时间:2020-03-12

关联规则研究在国内图书馆学领域应用探究.doc_第1页
关联规则研究在国内图书馆学领域应用探究.doc_第2页
关联规则研究在国内图书馆学领域应用探究.doc_第3页
关联规则研究在国内图书馆学领域应用探究.doc_第4页
关联规则研究在国内图书馆学领域应用探究.doc_第5页
资源描述:

《关联规则研究在国内图书馆学领域应用探究.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、关联规则研究在国内图书馆学领域应用探究摘要:关联规则分析是当前数据挖掘研究的重要模式之一,可以定量地处理图书馆学领域中各类优化问题。本文在简要介绍关联规则分析的基础上,从流通信息、个性化推送、文献计量、信息检索等方面总结了关联规则分析法在国内图书馆学领域的应用。关键词:关联规则分析数据挖掘数字图书馆近年来,数据挖掘(datamining,也称知识发现(knowledgediscoveryindatabases,简称KDD),受到当今图书情报领域的广泛重视,其主要目的就是设计算法,用于从海量数据中发现未知的、潜在的、读者感兴趣的有用信息。关联规则是数据挖掘研究中的一

2、个重要的研究课题。1•关联分析规则基本原理Agrawal等人(1993年)[1]最先发现了顾客交易数据库中的项集间存在关联规则,其核心方法是基于频集理论的递推方法,它侧重于确定数据中不同属性域之间的联系找出频繁的数据属性域之间的相互关系。定义为:、此后人们对关联规则的挖掘问题进行了大量研究,包括对Apriori算法优化[2]、多层次关联规则算法[3]、多值属性关联规则算法[4]等,以提髙算法挖掘规则的效率。关联规则的挖掘一般可分成两个子问题:①找出所有支持度2最小支持度阈值的频繁项集。②由频繁模式生成满足可信度阈值的关联规则。第二个问题比较容易,它在第一步的基础上

3、很容易实现,因此关联规则挖掘算法的性能主要由第一个问题决定。因为这个问题的挑战性在于数据量巨大,所以算法的效率是关键。2.关联规则分析在国内图书馆学领域的应用关联规则分析经过十几年的发展,目前已经在各个领域广泛应用。从国内已有的研究成果来看,国内图书情报界越来越重视关联规则分析在图情领域各类优化问题的定量应用,并针对不同主题进行了一系列的探讨和研究,涉及的主题主要包括关联规则分析在流通信息、个性化推送、文献计量、信息检索、知识管理等方面的应用。2.1在流通信息统计中的应用在读者日常借阅记录事务中,每天都有大量的借还记录汇入数据库中。读者借阅的对象是文献资源,根据长

4、期的读者借阅历史数据,我们会发现读者对文献的借阅存在着一定的关联,不同学科之间也存在着关联,以及不同的读者对文献的借阅存在着一定的模式。挖掘出这些数据之间的关联,有利于合理配置资源和提高资源的利用率,以提高图书馆的服务水平。图书流通量是反映图书利用率的最重要的技术指标,更是反映图书馆服务质量的重要因素。影响图书流通量的因素是纷繁复杂的,这些因素不仅包括馆藏图书种类和数量的多少、借阅方式的差异、读者群体的大小、借阅权限的区分,而且包括由于读者个体间的差异和不同性别、年龄、不同专业及知识层次的读者对读物产生的不同需求。显然,在上述复杂而又相关的各因素中,既有大量已知信

5、息,又有不少未知信息、非确知信息。图书流通系统的这种既含有已知信息,又含有未知的、非确知的信息,实际上是一种灰色系统[5]。关联规则的挖掘可以发现图书馆流通数据库中一组借阅书籍之间某种关联关系的规则,其作用在于对图书流通的关联性分析和相关借阅图书的推荐。这样可以优化图书馆馆藏结构、馆内书籍分布,不仅可以帮助师生的学习教研工作,甚至可以发掘不同学科间的隐藏联系[6]。理继华[7]等认为多维数据空间数据的稀疏性,在低层或原始层的数据项之间很难找出强关联规则。在较高的概念层发现强关联规则很可能提供普遍意义的知识。而多层关联规则挖掘是直接面向海量数据库系统的,这类数据库通

6、常有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,利用高性能分布式计算机设计分布式多层关联规则算法来进行高效的分布式挖掘已经成为当前数据挖掘的一个迫切需要解决的问题。聂珍[8]在分析单数据库多层关联规则算法SMAM的基础上提出了分布式多层关联规则挖掘算法PMAM,使得其具有较高的分布式特点。在PMAM算法中利用全局频繁与局部频繁之间的关系减少候选集,并利用概念间的层次关系及项集长度的分布规律对事务表进行约减。这样可使算法的效率得到提高,改善了内存的使用率。2.2在个性化推送中的应用未来图书馆的发展趋势是

7、数字化的,然而目前,国内图书馆技术与应用基础薄弱,起步较晚,网络个性化服务发展更是滞后,其应用仍处于初始探索阶段。鉴于数据挖掘技术在数据的组织、分析与发现等方面存在巨大的潜力,学术界普遍认为它可为数字图书馆的个性化服务提供关键技术。图书推荐服务是图书馆个性化服务的一种,在图书馆巨大的馆藏资源中,每个读者感兴趣的只能是其中的一小部分,如何高效率地找出对读者有用的书目是图书馆学要研究的问题[9]。数字图书馆个性化服务是基于用户的行为、习惯、偏好、特点及特定需求,向用户提供满足其个性化需求的信息内容和功能的一种服务[10]O鲍静[11]运用Apriori算法通过对读者借

8、阅数据的关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。