聚类分析在图书馆馆藏书目中的挖掘与应用

聚类分析在图书馆馆藏书目中的挖掘与应用

ID:7323312

大小:32.41 KB

页数:7页

时间:2018-02-11

聚类分析在图书馆馆藏书目中的挖掘与应用_第1页
聚类分析在图书馆馆藏书目中的挖掘与应用_第2页
聚类分析在图书馆馆藏书目中的挖掘与应用_第3页
聚类分析在图书馆馆藏书目中的挖掘与应用_第4页
聚类分析在图书馆馆藏书目中的挖掘与应用_第5页
资源描述:

《聚类分析在图书馆馆藏书目中的挖掘与应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、聚类分析在图书馆馆藏书目中的挖掘与应用  (XX职业技术学院信息工程系,河南XX472000)   摘要:文章从图书馆管理系统中引入数据挖掘技术,利用聚类分析中的K-means算法对图书馆馆藏图书借阅使用情况进行了聚类挖掘,并将挖掘结果进行分析,从而制定出相应的决策,以有针对性地丰富馆藏资源和优化图书馆的馆藏布局。   关键词:数据挖掘;图书馆;聚类分析;K-means算法   中图分类号:G253文献标识码:A文章编号:1007—6921(XX)13—0140—02   在图书馆管理系统中,书目的馆藏信息、文献的流通

2、情况、读者基本信息有着详细的记录。通过挖掘文献使用规律,对图书借阅次数进行聚类分析,可得到哪些图书借阅频率较高,哪些图书的借阅频率较低。从而制定出相应的决策,有针对性的丰富馆藏资源和优化图书馆的馆藏布局。 1数据准备 1.1数据选取   为了更好地反映近一年来的读者借阅馆藏书目的情况,文章以XX职业技术学院的实际数据作为载体,从图书馆XX年一年的91810条图书书目借阅明细记录中选取记录和馆藏书目信息作为分析的数据来源。在图书馆管理系统数据中,反映书目借阅情况的数据来自于两个数据表:BookData和LendData。

3、  1.1.1馆藏书目信息。导出的主要字段包括:记录控制号、图书条码、题名、著者、出版日期、索书号,其中图书条码与读者借阅信息库中的图书条码可以做关联。   1.1.2读者借阅记录信息。导出的主要字段包括:流通日期、读者条码、读者姓名、图书条码、题名、索书号。其中图书条码与馆藏书目数据库中的图书条码可以做关联。 1.2数据预处理   由于挖掘使用图书馆XX年一年的91810条图书书目借阅明细记录以及馆藏藏书目信息作为分析的数据来源。因此,首先对借阅记录中,XX年以前的记录进行了清除;同时对那些已经注销了图书证的读者借阅信息

4、和已经下架的图书书目信息也进行了清理。再将两个数据表运用查询语言以图书条码作为关键字段进行筛选合并,成为一个新的表。然后将BooksData表中的字段名规范化,得到表结构如下所示:740)this.width=740"border=undefined>   针对上述已经规范操作后的数据表,根据挖掘的需要,对其进行优化删除记录控制号、题名、著者、读者条码、读者姓名几个冗余的字段,只保留属性概念分层最底层的属性项。在统计时主要考查两个参数,①该图书最近半年的借阅次数。②该图书总的借阅次数。从这两个方面考查读图书馆馆藏的利用情况,更加

5、全面合理,统计后形成的BookTimesData如图所示:   740)this.width=740"border=undefined> 2馆藏书目的聚类分析 2.1聚类算法选取   K-means聚类算法属于聚类分析方法中一种基本的且应用最广的划分方法,是一种在无类标号数据中发现簇和簇中心的方法[1]。选择期望的簇中心数K,K-means过程反复移动中心以极小化整个簇内方差。该算法的基本思想是:给定一个包含n个数据对象的数据库以及要生成的簇的数目K,随机选取K个对象作为初始的K个聚类中心,然后计算剩余各个样本到每一

6、个聚类中心的距离,把该样本归到离它最近的那个聚类中心所在的类,对调整后的新类使用平均值的方法计算新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束且聚类平均误差准则函数已经收敛。   K-means聚类算法流程如下:①随机指定K个样本点Z1,Z2,…,Zr为初始聚类中心。②按照距离最近的原则,对样本集合聚类,确定每个样本的类属关系。③使用公式1,计算新的聚类中心Z1,Z2,…,Zr表示迭代次数。④重复执行2~4,直到聚类中心稳定为止。   K-means算法的工作过程说明如下:首先从n个数据对象任意选择k个

7、对象作为初始聚类中心;而对于所剩下其他对象,则根据它们与这些聚类中心的相似度,分别将它们分配给与其最相似的聚类;然后再计算每个所获新聚类的聚类中心;不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。   K-means算法作为解决聚类问题的一种经典算法,它的主要优点是算法简洁、快速。如果结果簇是密集的,且簇与簇之间区别明显时,它的效果最好,对处理大的数据集,该算法是相对可伸缩的和高效率的。它的复杂度是O(nkt),其中n是所有

8、对象的数自,K是簇的数目,t是迭代的次数[2]。   K-means算法中存在几个关键的参数,这些参数对于数据挖掘的效果起着重要的作用,下面对其一一做解释。①聚类数目K:用以确定聚类的数目,也就是说要分成多少个类,传统K-means算法要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。