欢迎来到天天文库
浏览记录
ID:35151923
大小:3.42 MB
页数:117页
时间:2019-03-20
《探究聚类方法及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南开大学博士学位论文聚类方法及其应用研究姓名:冯兴杰申请学位级别:博士专业:控制理论与控制工程指导教师:黄亚楼20040401摘要近年来,存储数据的爆炸性增长业已激起对新技术和自动信息处理工具的需求,以便将海量的数据转换化为有用的信息和知识。在这种背景下,知识发现和数据挖掘(KDD&DM-KnowledgeDiscoveryinDatabase&DataMining)应运而生,它足一个从大量的、不完全的、有噪声的实际应用数据中,提取隐含在其中的、事先未知的、但又潜在有用的知识的过程。作为数据挖掘的重要方法之一,聚类是自动地对物理的或抽象的对象分组,使其成为由类似对象组成的多个类
2、(簇)的过程。当把聚类方法应用于实际问题时,我们经常会遇到数据集不断变化、需要使用各种约束条件,以及如何更为有效地继承以往数据挖掘过程和结果的问题。本文针对这些问题,在增量式聚类算法、带约束条件的聚类算法、数据挖掘中的可继承性问题、适宜于可继承性数据挖掘的I-DM模型及基于此的聚类算法等方面进行深入研究。主要工作包括:1)研究了数据仓库环境下的数据更新后的增量聚类问题。通过CURE聚类算法和K-NN方法,以及朴素贝叶斯方法的有效的结合,给出两种增量式聚类算法I-CUREN和I—CUREC算法,它们能够实现增量式聚类,并可以产生新的类,其时间复杂度为0(n);2)详细研究了约束聚
3、类问题,给出约束条件的分类及常用的约束条件形式定义。分析了CLIQUE聚类方法,提出一种新的算法框架CON—CLIQUE,它能够有效的解决高维空间的约束聚类问题。3)描述了知识发现过程中的可继承性问题,通过对现有知识发现过程和挖掘算法形式化描述和分析,抽象出各个阶段的联系及其约束条件,在此基础上提出知识构件的概念。4)通过分析现有知识发现过程模型存在的缺陷,在对I—MIN过程模型改进的基础上,提出一种支持可继承性的挖掘过程模型I-DM,它是一种通用的、稳定的、可扩充的和支持可继承性的数据挖掘过程模型,并允许用户在数据集上进行交互实验和数据监控。通过对BIRCH聚类方法的改进,设
4、计适宜于I—DM模型的聚类方法。针对航空公司常旅客数据库,给出一个设计KDS的实例,详细描述了各功能部件的设计过程。关键词:知识发现、聚类、增量式聚类、约束、可继承性数据挖掘ABSTRACTInrecentyears.theexplosivegrowthinstoreddatahasgeneratedanurgentneedfornewtechniquesandautomatedtoolsthatcanintelligentlyassistUSintransformingthevastamountofdataintousefulinformationandknowledge.D
5、atamining(DM)andknowledgediscoveryindatabase(KDO)arsemergingatthiscase。whichisthenontdvalpreocessofidentifyingvalid.RoveI,potentiallyuseful.andultimatelyunderstandablepatternsindata.Asanknportentdatan_ningfunc60n.clusteringistheprocessofgroupingasetofphysicalorabstractobjactsintoclassesofsim
6、ilarobjects,Whenitisusedtosolvepracticalapplications,someproblemsareoftenencountered,suchasthechangingdataset.thedatasetwithsomekindofconstraints.andhowtoefficientlyinhedttheworkfromthelastdataming.Fortheaboveproblems,thisdissertationfocusesonthei阼孤}nlenblclusteringmethods,clusteringmethodsw
7、mcons把aints,lhep『D1)Iemofinhed乜bledl烈e^ngmeIllDdsandthedus'tedngmdh。dsbasedontheI-DMmodel,SomerelalJveissues8re刮s0sIud剐.Themaincontributesofthisdissertationarsas1bIk)wEFi吲ly.1heup删ngcharacleds6caboutdatawalehouseandtheincrementaldustedngproblemared
此文档下载收益归作者所有