欢迎来到天天文库
浏览记录
ID:31649653
大小:57.83 KB
页数:4页
时间:2019-01-16
《浅析基于数据挖掘的数字档案信息管理》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、浅析基于数据挖掘的数字档案信息管理付艳军(山西省吕梁市卫生学校山西吕梁033000)摘要:木文阐述了基于数据挖掘的数字档案信息管理,信息化建设更是被列为社会发展的首要内容,尤其是学校档案馆更侧重教学与科硏,网页档案化管理是必然的趋势。关键词:数字档案图书管理档案信息网页档案在信息化发展的今天,图书馆,特别是学校图书馆,不仅要对信息进行简单的数字转换和管理,更要对新兴事物一一网络进行档案化管理和归档,包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。所以网络档案化管理成为当今图书管理的必然趋势,这就必须对档案化管理的技术和法律相关问题进行深入阐述和探讨。所谓数据挖掘(Dat
2、aMining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文木、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等
3、的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。一、数据挖掘的功能数据挖掘可通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类:1•关联分析。关联分析能寻找到数据库中大量数据的相关联系,常用的i种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。1•聚类。输入的数据并无任何类型的标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认
4、识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。2•自动预测趋势和行为。数据挖掘会自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。4.概念描述。对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性
5、描述的方法很多,如决策树方法、遗传算法等。5•偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。二、数据挖掘在建设现代化高校档案馆中的应用1.资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件收集的信息、档案信息网建设和维护信息。我们从研究学校档案用户的信息需求出发,数据挖掘为学校档案馆全面掌握和准确理解档案用户的信息需求提供了方法。(1)利用W
6、eb访问信息挖掘技术发现其中的关联模式、序列模式和Web访问趋势等,构建多维视图的用户兴趣模型,从而可以确定档案信息或服务受欢迎的程度,发现用户访问模式和用户需求的趋势,从不同侧面来研究用户的信息需求,为优化档案馆的档案信息资源建设提供了科学依据。(2)收集学校档案网web服务器保留的用户注册信息、访问记录,以及有关用户与系统交互的信息等原始数据,经过清洗、浓缩和转换形成了便于统计分析的用户查阅数据库、日志数据库、用户定制信息库、用户反馈信息等各种数据集合。1.从建设学校档案馆馆藏信息资源岀发,数据挖掘为学校档案馆提供了选择一条科学发展道路的重要依据。(1)利用档案网和档案管理软件访
7、问信息的挖掘分析出档案资源的利用率,将利用率高、需求量大的传统载体档案优先数字化。例如:通过对档案信息的访问记录、检索请求中用户请求失败的数据进行分析,按类统计档案拒用集和频繁利用集,结合聚集算法发现馆藏资源的缺漏,有针对性地补充和丰富档案信息资源。(2)在学校档案馆藏管理过程中利用文本挖掘,运用关联、分类、聚类等方法,从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组,构建特色档案信息库及各类专题档案信息库等。2.从做好学校档案馆信息管理
此文档下载收益归作者所有