欢迎来到天天文库
浏览记录
ID:32943363
大小:60.89 KB
页数:6页
时间:2019-02-17
《网络数据挖掘在图书馆个性化推荐中应用探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、网络数据挖掘在图书馆个性化推荐中应用探究引言讨论如何在图书馆个性化推荐中应用网络数据挖掘,并具体对社会网络分析的应用进行了深入分析,提出了具体算法。网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关
2、于用户行为模式的lo通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、'‘网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要
3、表现在以下几个方面:(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2o(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3O这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的
4、兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。1、图书馆个性化推荐常用分析方法1.1聚类算法通常说来
5、,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。1.2社会网络分析社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出
6、的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者"权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型
7、的子图,即社区。2、基于网络数据挖掘的图书馆个性化推荐分析2.1基于K-means聚类推荐分析图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。2.2基于PageRank社会网络分析在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就
8、是读者推荐书目单,反应了读者对于图书的
此文档下载收益归作者所有