资源描述:
《数据挖掘在数据库决策系统中的实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第25卷第5期鞍山钢铁学院学报Vol.25No.52002年10月JournalofAnshanInstituteofI.&S.TechnologyOct.,2002数据挖掘在数据库决策系统中的实现代 红(鞍山科技大学计算机与工程学院,辽宁鞍山 114044)摘 要:分析了数据挖掘的工作流程,利用数据挖掘从大规模数据库中寻找各变量之间函数依赖近似的强关联和确定条件概率,并将该方法应用于数据库决策系统中.关键词:数据挖掘;知识发现;贝叶斯网;条件概率中图分类号:TP3111131 文献标识码:A文章编号:1000O1654(2002)05
2、O0372O03 数据挖掘技术是从大型数据库或数据仓库中自动提取隐含的、未知的、有价值的复合信息,并通过预测未来趋势和行为模式,为企业作出基于知识的决策,从而把数据转化成真正实用和有效的,能够带来商业价值的决策信息.目前,数据挖掘技术越来越受到人们的重视,在许多领域都得到应用.例如,基于内容而不是数据记录的文本挖掘,包括制作文档索引和主题分类,Internet和Intranet上的在线挖掘,分析大型网络阻塞的网络挖掘等.本文简要地介绍了数据挖掘技术的工作流程,并探讨了其在数据库决策系统中的应用.1 数据挖掘的工作流程 数据挖掘来源于
3、知识发现(KnowledgeDiscoverinDatabase,简称KDD),是数据库发展和人工智能技术相结合的产物.从狭义的方面来说,数据挖掘是KDD过程中的一个特定步骤,是用专门算法从数据中抽取模式,然后通过解释和评价系统转换成最终用户可理解的知识.从广义的方面来讲,由于KDD的其它各步骤对数据挖掘的运行性能和结果正确性影响很大,和KDD的各个环节密不可分,通常所说的数据挖掘往往包括KDD的全过程(和KDD相比它更侧重于发现而不验证假设),其工作流程包括以下9个步骤:(1)获得预先知识.对应用领域进行充分的理解和分析,获得对数据挖
4、掘过程有帮助的领域专业知识加入到挖掘工具的知识库中,并且由此确定数据挖掘的最终目标.(2)选择数据.在大型数据库或数据仓库中选取数据挖掘的目标数据集,即选择挖掘的样本集和需求分析的变量集.数据选择需要很多领域专家的知识,利用这些知识来分析要解决的问题.(4)判断数据挖掘的功能类型.(5)选择数据挖掘算法.根据数据挖掘的功能类型和数据的特点选择相应的算法.(6)数据转换.根据数据挖掘目标、数据挖掘功能类型及数据挖掘算法,按指定方法组织数据,用数学或逻辑方法构造更能表达数据特征的新变量.根据已有知识得出的限定式减少变量数量,转换数据类型,并
5、且根据算法特点映射数据到易于寻找到解的特征空间.(7)数据挖掘.在净化和转换过的数据集上进行数据挖掘.(8)输出表达.对数据挖掘输出的结果进行解释和评价,转换成为能够被最终用户理解的知识.(9)综合分析.把上一步得到的知识和已有的知识进行综合,检查和处理它们之间的冲突,把最终结果报告给用户,并且评价整个处理流程的性能,检测以上各步骤的正确性和有效性.收稿日期:2002-07-10.作者简介:代红(1975-),女,山东冠县人,讲师.©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allright
6、sreserved.第5期 代 红:数据挖掘在数据库决策系统中的实现·373·2 数据挖掘在数据库决策系统中的应用Bayesian网主要用于处理实际应用中遇到的不确定信息.Bayesian网中定量的概率信息被表示为条件概率表中在决策前对实际问题的先验的理解与把握.建立模型时,Bayesian网要求设计者对问题域进行深入的理解,使建立的模型尽可能地反映问题的客观实际.同时,要求从大量杂乱无序的数据中将具体的概率值找到,并填入条件概率表中.数据挖掘技术提供了一系列有效的方法来寻找隐藏于大规模数据之中的有用知识.在Bayesia
7、n网建模中,需要找到各变量之间的关联,各关联与关系数据理论中的函数依赖近似.后者表示了关系表中各属性之间的依赖关系,前者表示Bayesian网中各变量是关系表中的属性时,两者的表示含义是一致而和谐的.因而,只有在关系表的元组中发掘出函数依赖,便可以认清Bayesian网中各变量之间的关系,从而给予建模以理论依据,并且在数据上有具体值作为技术支持.(1)在数据库表中挖掘函数依赖.采取了函数依赖理论,运用分类的方法来进行数据挖掘.其步骤:a.将原始数据库中数据按属性值进行一次分类;b.将函数依赖规则的等价形式用分类表示出来;c.计算每一分类
8、所得的等价类的个数;d.采用立方体算法(Levelwise算法)对空间进行搜索;e.为减少搜索的算法复杂度,提供几种裁减算法进行计算时的简化;f.获得满足置信度大于某个阀值的函数依赖. 根据专业知识,分类