欢迎来到天天文库
浏览记录
ID:39402838
大小:333.50 KB
页数:5页
时间:2019-07-02
《基于读者行为特征的数据挖掘实例》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于读者行为特征的数据挖掘实例张文华(东华理工大学图书馆 江西抚州 344000)摘要数字图书馆改变了传统图书馆的服务模式,同时也积累了大量的读者信息,为个性化服务提供了数据基础。本文重点研究了聚类分析技术及其在图书馆中的应用,利用两步聚类模型实现了对读者的聚类分析。关键词数字化图书馆数据挖掘技术 读者行为特征ExamplesofDataMiningBasedonCharacteristicsoftheReader’sBehaviorZhangWenHua(EastChinaInstituteofTechnology,fu
2、zhoujiangxi,344000)Abstract:DigitalLibraryhaschangedthetraditionalmodeloflibraryservices,itaccumulatsalargenumberofreadersinformationwhichprovidebasedataforpersonalizedservice.Thisarticlefocusesonaclusteranalysistechniqueanditsapplicationinthelibrary,usingatwo-ste
3、pclusteringmodelofclusteranalysisonreaders.KeywordsDigitalLibrary,DataMining,readersbehavior1 数据挖掘简介数据挖掘技术是随着计算机的广泛应用和数据的大量积累而发展起来的。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的研究涉及机器学习、数据库、模式识别、统计学、人工智能、管理信息系统、知识获取、数据可视化等许多领域。1。1 数据
4、挖掘在图书馆中的应用小结数据挖掘的应用非常广泛,下面仅就它在图书馆中的应用做个小结。数据挖掘技术技术应用关联规则分析●找出读者个人特征与图书之间的关联性;●利用读者个人的相似性推荐图书;●将同性质的图书,推荐给适当的读者;分类分析●由不同读者的特征及借阅记录,判别读者的相似性,找出各类特性的读者对图书的兴趣;●建立模式之后,当有新的图书,可按照此模式推荐给有该特性的读者;聚类分析●找出图书与图书、读者与读者间的关系,以探讨使用者的集群特性,并找出其借阅行为的倾向;次序相关分析●依据读者借阅图书的顺序,推荐给其他未借阅的读者
5、;表1数据挖掘技术应用于图书馆领域小结[1]由于本例中主要用到聚类分析,所以下面对它做一简要介绍。1.2 聚类分析聚类分析(ClusterAnalysis)是数据挖掘领域最常用的技术之一。所谓聚类就是将物理或抽象对象的集合组成为由类似的对象组成的多个类或簇的过程。由聚类生成的簇是一组数据对象的集合,同一簇中的对象尽可能相似。而不同簇中的对象尽可能相异。通过聚类,人们可以发现数据分布的一些特征。聚类分析已被广泛应用于许多研究领域,包括数据挖掘、图像分割、模式识别等研究领域。如在商务上,聚类能帮助市场分析人员从客户基本信息中发
6、现不同的客户群,并且用购买模式来刻画不同的客户群特征。在生物学上,聚类能推导植物和动物的分类,对基因分类。聚类分析还可以应用在其他挖掘算法的预处理步骤,如先对数据进行聚类,再在得到的聚类结果上进行其他的研究和处理[2]。1.3 数据挖掘的基本过程和主要步骤图1[3]如上图1所示数据挖掘过程中各步骤的大体内容如下:(1)确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。(2)数据准备 a)数据
7、的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。 b)数据的预处理 研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。 c)数据的转换 将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。(3)数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。(4)结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。(5
8、)知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去[4]。2 数据挖掘实例操作在图书馆系统中,存在大量的借阅数据,通过对读者的借阅次数进行聚类分析,可得到哪些读者借阅频率较高,哪些读者的借阅频率较低。下面根据图书管理系统的实际数据,应用上面的挖掘过程和步骤,做了实际挖掘实验。2.1 数据的
此文档下载收益归作者所有