资源描述:
《数据挖掘的应用论文数据恢复技术论文》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、数据挖掘的应用论文数据恢复技术论文数据挖掘在图书馆的应用分析 摘要信息技术正从数据处理向数据应用转变,图书馆迫切希望将多年来在数字化建设中形成的数据集进行面向过程、主题的抽取和分析,形成支持决策的分析数据和报表,从而改进图书馆的管理和服务。数据挖掘(DataMining)这一技术下正是为数据从处理向使用转变的技术解决方案。 关键词数据仓库;数据挖掘;分析系统;个性服务;WEB服务 信息技术的发展改变了读者对图书馆资源索取和利用的方式和手段,提出了新的服务要求,图书馆不得不采用新的技术手段来满足或适应读者的需求,图书管理系统在技术自动化、信息处理多元化等方面较以前有了很大的提高,对
2、数据库技术的普遍应用较好地解决了读者在时间、地域限制的问题,方便读者快捷地索取资源。但是读者对信息索取的查准率仍然不高,如何将图书馆的众多信息上升成为读者知识等问题依然没有解决,甚至变得更加严重。究其原因是:信息成几何数增长的同时,图书信息管理系统(MIS)依然是面向处理的、关注数据的管理,是一种联机事务处理系统(OLTP),没有从数据使用的角度进行分析和挖掘,实现面向主题的、支持决策的功能的联机分析处理系统(OLAP),为此我们不仅要将计算机在数据管理上发挥作用,更重要是在数据分析、信息服务上体现出高效、快捷的功效。 1图书馆信息服务现状 信息、数据、知识的提升过程在信息社会中
3、已被众多机构瞄准,他们的管理和服务正撼动着图书馆信息服务的主体地位,近年来许多IT公司宣布开拓知识服务,建立基于文献服务的知识创新,于是有人惊呼图书馆将走向没落和消亡,图书馆将被替代,调查表明图书馆的用户群正逐年流失,用户将获取知识的途径转向互联网,依赖搜索引擎。为此,我们不得不审视图书馆信息管理和服务的现状。 1.1信息不虞和信息过剩问题变得越来越严重 信息以数字形式在图书馆界得以应用和普及,数据以比特流在网络中传播和利用,滚雪球似地被用户加工和完善,面对如此众多的数据,如何找到有用的信息,成为知识,成为信息社会最大矛盾。今天,用户真切地感受到了“信息贫乏”(Informati
4、onpoor)和“数据关在牢笼中”(datainjail)的无奈,奈斯伯特(JohnNaisbett)就曾惊呼“Wearedrowningininformation,butstarvingforknowledge”(人类正被数据淹没,却饥渴于知识!)的精辟论断,这说明信息的数量和用户需求的矛盾越来越突出。 1.2信息用户松散使得我们难以把握用户的需求 1)读者的在跨地域和时间使用图书馆资源、享受图书馆的服务,图书馆提供了诸如留言簿(GuestBook)、电子邮件(Email)、在线服务(OnlineService)、虚拟参考咨询服务(VisualReferenceService)
5、、点对点服务(P2P软件,如MSN等)等新的服务手段和交流渠道,让我们对他们的需求变得难以掌握,但是每一种服务平台(系统)都产生自己的系统日志,反映用户在当前平台下的利用情况,我们称为日志数据源(LogsSourceData),过多的数据源增加了数据综合分析统计和报表的难度。2)图书馆在信息化建设中多平台、异构系统的广泛应用,数据孤岛现象越来越严重,我们在面对数字化建设进程中所积累的大量用户访问日志和资源使用日志,我们却束手无策,无法真正获取读者的需求和评价资源的依据,我们急需技术创新。 1.3图书馆2.0带来新的挑战 Web2.0最重要的理念是以用户为中心,图书馆应本着“以人为
6、本、开放、实用、易用”的经营理念和服务于用户的态度,保持最大程度的中立性,充分整合各类开放资源,来构建一种开放、主动、互动的创新氛围,并利用自己的核心资源和核心能力发展事业。Web2.0强调用户参与和协作,能为用户带来真正的个性化和信息自主权。Lib2.0走出了本馆的概念,在资源建设上走向合作和分工,信息发送者和使用者已没有严格界限,保证信息不失真和严谨、对信息的有效识别变得难以把握,图书馆在从信息管理上升到知识管理的难度越来越大,2.0时代对图书馆信息服务提出更高的要求。 2数据仓库与数据挖掘技术 数据仓库实际是一个以大型数据管理信息系统为基础,附加在这些数据库系统之上并存储了
7、从所有业务数据库中获取的综合数据并能利用这些综合数据为用户提供经过处理后的有用的应用系统。数据挖掘就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,归纳出有用的结构,获取有意义的信息,作为决策的依据的方法和过程,建立数据仓库的最终目的是为数据挖掘做好数据准备。 2.1数据仓库是基于数据库管理之上的信息管理 建立数据仓库并不是取代图书馆原有的联机事务处理系统,而是将图书馆不同的数据库管理系统中的联机处理数据按一个统一的视图组织并存储,不改变原有数据