关于图书使用情况的关联规则数据挖掘分析

关于图书使用情况的关联规则数据挖掘分析

ID:39552191

大小:102.17 KB

页数:6页

时间:2019-07-06

关于图书使用情况的关联规则数据挖掘分析_第1页
关于图书使用情况的关联规则数据挖掘分析_第2页
关于图书使用情况的关联规则数据挖掘分析_第3页
关于图书使用情况的关联规则数据挖掘分析_第4页
关于图书使用情况的关联规则数据挖掘分析_第5页
资源描述:

《关于图书使用情况的关联规则数据挖掘分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、关于图书使用情况的关联规则挖掘分析【摘要】数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。它是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在当中人们不知道的潜在有用的信息和知识的过程。在数据仓库以及数据挖掘相关概念界定及相关理论分析的基础上,采用数据仓库技术对图书使用情况进行分析,利用数据挖掘技术中的关联规则分析法划分了读者的不同类型,以确定图书采购的合理部分,发现不足之处,进一步地提高图书采购质量,为读者提供更专业更个性化的服务。【关键字】数据挖掘图书馆借阅

2、关联规则1引言1.1论文的研究背景数据收集存储技术的快速发展和数据库管理系统的广泛应用使得各组织机构产生并积累了大量的数据,在这些海量的数据中,往往蕴含有丰富的、对组织有指导意义的信息。通常,由于数据量太大,传统的信息处理方式如简单的数据录入、查询、统计等事务性的处理过程已经不能解决。以往分析数据信息时常采用的统计方法虽然可以很好的展现数据特征,但功能比较有限,对数据的理解也多停留在较表面的情况。因传统方法其特有的局限性,急需一种能从海量数据中发现潜在知识的工具,以解决“新型的海量的数据”带来的新挑战。于

3、是,数据挖掘技术应运而生,并得到蓬勃的发展,越来越显示出其强大的生命力。2文献综述2.1研究背景从大量的图书使用记录中发现有趣的关联规则可以帮助改进图书馆服务,例如图书进货分析、图书上架分类设计以及研究不同院系读者的借阅偏好等。再对读者的使用行为进行关联规则分析,那么就有可能发现读者的阅读习惯,如果能够充分的了解读者的借阅习惯,就可以调整图书的进购量,从而提高馆藏图书的利用率。数据挖掘关联规则是以规则的形式提供给最终用户,这些规则经过挖掘软件的筛选和处理。但是,以往很多事例证明这些规则的可靠性和实用性并不

4、像想象中的那么完美无缺---现有的许多关联规则的挖掘方法耗费很长的时间生成规则,而产生的规则往往是显然的或不相关的规则,有的甚至是虚假的,对用户进行决6/6策起不到任何作用。而传统的统计分析在决策过程中也往往存在着种种不同的目标和约束,现实中也存在着各类影响结果的因素,过去数据挖掘领域对这方面的研究并不多。通过分析图书借阅情况,可以促进了解各类中文图书的利用情况、读者群体、读者需求特点,以确定图书采购的合理部分,发现不足之处,进一步地提高图书采购质量。将这些信息归纳作为图书馆改进服务时的参考,最终为读者提

5、供更专业更个性化的服务。2.2数据来源为了分析、研究图书的使用情况,本人选取了南昌航空大学图书馆的使用记录为案例,针对图书馆管理信息系统中的读者借阅记录进行了统计分析和关联规则的挖掘。3研究方法——关联规则挖掘介绍关联规则(Associatoinurel)的挖掘是数据挖掘研究的重要内容之一,它是由RkaehsAgrwaal等人在1993年提出的。如今商业市场广泛地采用了关联规则挖掘技术,从大量商务事务记录中发现有趣的关联规则可以帮助许多组织制定商务决策,如交叉营销设计、目标市场分类、识别客户需求等。关联规

6、则应用的挖掘过程和步骤如下图:图3.1挖掘关联规则的过程图3.2关联规则的问题描述定义1令I={I1,I2,…,Im}是由m个不同的项(Items)组成的集合,一个事务T是一个项集,并且T是I的一个子集。其中,每个事务T有一个唯一标识,记为TID。D是由不同事务组成的集合,构成了有待挖掘的事物数据库。如果项集XT,则称事务支持项集X,关联规则是如下形式的一种蕴含:X→Y,其中XI,YI且X∩Y,称X为关联规则X→Y的前件,Y为关联规则的后件。或者,X称为前提,Y称为结论。定义2事务数据库D中包含项集X的事

7、务数称为项集X的支持数,记为

8、X

9、。记

10、D

11、为事务数据库D的事务数,则项集X的支持度(Support)记为6/6Support(X):Support(X)项集X∪Y(同时包含X和Y的项集)的支持度称为关联规则X→Y的支持度,记为Support(X→Y)=Support(X∪Y)=P(X∪Y)。支持度是对关联规则在整个事务数据库中的统计重要性的衡量,它说明了该规则在所有事务中有着多大的代表性,支持度越大,规则就越重要。定义3规则X→Y在事务数据库D中的置信度表示D中支持项集X的事务中支持项集Y的百分比,规则

12、X→Y的置信度(Confidence)记为conf(X→Y),由置信度的定义可得以下公式:conf(X→Y)用户可根据不同的挖掘需要指定最小置信度minconf,置信度是一个对关联规则准确性的衡量指标,有些关联规则置信度虽然很高,但支持度却很低,这表示该规则实用的机会很小,一般而言并不重要。若Support(X→Y)minsup且conf(X→Y)minconf,则称该关联规则为强关联规则,否则称该关联规则为弱规则。典型的关联

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。