欢迎来到天天文库
浏览记录
ID:23185003
大小:53.50 KB
页数:6页
时间:2018-11-05
《以大规模数据库为基础的数据挖掘系统构建》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、以大规模数据库为基础的数据挖掘系统构建基于大规模数据库构建数据挖掘系统的目的在信息化迅速发展的今天对数据库功能实现更深度的发掘,促进决策者从巨大的数据量中迅速、准确的找到所需的数据资源,并基于此来实现有效决策。本研究就笔者工作经验提出了数据挖掘系统的构建方法,期望与同行业者分享和相互学习。关键词:数据库;数据挖掘;系统构建;大规模数据库技术的建立使大量的电子信息得以储存和抽取,但在浩瀚如烟的数字式化信息资源库中,如何更快、更好的将需要的有效信息提炼和挖掘出来,逐渐成为大规模数据库系统的重要课题研究之一[1]。数据挖掘技术是一种在数据库中提取具有未知性、隐含性、潜在性的有用信息的特
2、殊方法和过程,包含了关联规则、分类、聚类、泛化、预测等多个方面,而获取信息的准确性、挖掘操作的伸缩性、数据分析工具的实用性等成为近些年的研究热点。本研究就笔者工作经验提出了数据挖掘系统的构建方法,期望与同行业者分享和相互学习。1.数据挖掘系统的功能1.1数据的泛化与清洗功能 该数据挖掘系统可使已有数据泛化至更高的层次,利用GDBR的泛化集成算法将时间和空间的复杂度进行条件关联,并采用N-Gram技术高效、准确的对系统中具有相似性的重复记录进行检测和梳理[2],对较常见的拼写错误进行规范的删除、插入、替换、交换等智能操作,达到清洗效果。由于常规的消除基本算法在检测的精度方面存在一
3、定的缺陷,本系统对该消除基本算法进行了一定的改进,合理应用统计学原理减噪,结合正、逆双向的重复矩阵,加大了对拼写错误的检出率和修改准确率。1.2数据的挖掘功能 该系统对数据的挖掘是在相关的关联、时序等规则下,对数据进行有效分类、聚类,达到期望的数据挖掘系统应用目的。 数据中具有频繁性的项集进行寻找和整合,实现Apriori算法,再通过频繁的项集形成关联规则。其方法是:假设频繁项集记为l,l中的所有非空子集记为a,若support(l)/support(a)的值超过minconf,那么规则a=>(l-a)直接输出;若l的非空子集不满足以上条件,即无法输出相应规则,则不以a
4、来形成关联规则。时序规则类似于关联规则,但其更倾向于对系统内项集在时间上的关联性,该系统应用AprioriAll算法来实现时序规则[3]。 关联规则从广义上而言包含了强规则、随机规则和例外规则。例外规则呈现了小部分数据所服从的规则,其虽然数量不多,但具有高可信度,是对可预测信息以外的、不被我们现阶段所知的信息产生的规则。例外关联规则可满足最小可信度的系统设置,本系统还可由此生成CAR、ECAR和删除SCAR。 对于已经有明确定义和分类的数据信息,可对其产生具有描述性的数据类别,也可对未知类别的数据产生相应的分类标准,即分类器。在本系统中,应用了区间分类器,可达到更高的准确率和
5、分类精度,并减少决策树分类器可能产生的过深树状延伸。 聚类算法则是将一些密度较高的簇进行合并,采用CURE算法,以多个代表点标记不同的簇,从而形成一定的簇分布框架,再对特殊形状进行有效识别,扩大数据处理量和增强处理能力。层次聚类法是该系统主要应用的聚类方法,在方法启用前,数据挖掘系统会自动将所有信息对象进行数据空间分布的划分,使其形成多个数据单元,并根据单元特性计算簇的分布。另一种比较具有特色的聚类方法是密度聚类法,通过改进Dbscan算法,以代表性邻居对象的扩展种子点选取加快算法速度、以较小分区聚类来实现数据分区、以取样数据聚类来实现整个数据库的聚类,实现更加有效的系统聚类运
6、算。2.数据挖掘系统的构建方法 2.1整体框架结构 该系统把各类相关模块进行紧密的结合,并形成具有层次性的数据结构,包括多数据源、多类输出、多种参数的差别性操作功能,从而实现各挖掘操作模块之间的相互独立,使系统的功能性更强、运行更稳定。但作为一个系统整体,各模块间又存在着协调统一的相互关联性,使各个模块所应用的数据源、数据参数及挖掘结果能够实现规范化、系统性操作。由于该系统扩大了数据挖掘的范围,使挖掘对象不仅存在于数据库当中,还可能存在于相应的文件当中,故而系统中亦提供了相应的文件信息处理方法。为方便挖掘结果的呈现、并对决策分析实现远期性的支持,系统还设置了对数据挖掘结果的自
7、动保留功能,扩大了应用范围。当然,由于计算机的操是人,整个系统还具有友好的操作界面,便于系统的应用者和决策者进行决策分析,实现准确决策。 2.2模块设置 根据以上对本系统框架结构的诠释,特别设置了如下模块以实现该数据挖掘系统的相关功能。 挖掘模块用来对数据库中不同数据实现挖掘操作功能,不同的挖掘模块相互独立,但统一受数据库的管理模块控制,其数据由存储控制模块产生,通过挖掘将相应数据写入到挖掘库中,为其它模块提供数据依据。 预处理模块以数据源定义、格式化、过滤等为主要功能,
此文档下载收益归作者所有