基于决策树的数据挖掘方法在化学模式分类中的应用

基于决策树的数据挖掘方法在化学模式分类中的应用

ID:34825726

大小:1.88 MB

页数:73页

时间:2019-03-11

基于决策树的数据挖掘方法在化学模式分类中的应用_第1页
基于决策树的数据挖掘方法在化学模式分类中的应用_第2页
基于决策树的数据挖掘方法在化学模式分类中的应用_第3页
基于决策树的数据挖掘方法在化学模式分类中的应用_第4页
基于决策树的数据挖掘方法在化学模式分类中的应用_第5页
资源描述:

《基于决策树的数据挖掘方法在化学模式分类中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学硕士学位论文基于决策树的数据挖掘方法在化学模式分类中的应用姓名:李琳申请学位级别:硕士专业:化学工程指导教师:陈德钊20050101摘要随着计算机技术和现代测试分析技术的发展,舀:化学化I:领域移{祟了人fli的数折:。数据挖掘技术的产,E和发展为从这些数掂获以有用知订l提供了f,/J的1.具。数据挖掘1具的有敞性,总是与各个领域的数据特点紧密的结合在一起。本文针对化学模式分类·I,的数据具有高维、复苁线性和带t-J噪爵的特j_,利川决策树及其预处理过程,对连续属性的离散化、属’陀筛选、规则抉取、化学梭,℃分炎建模等进行了研究,爿‘介绍了各种数据挖掘方法和决策树的基本理论,以

2、及化。学化工数据挖掘所面临的问题。全文主要内容如卜:(1)山于化学分类数据集人多为连续型数据集,若要提高决策树分类器的性能,须先将连续型数据离散化,以方便进步的处理过程。本文系统闸述了连续属性离散化的原理、方法以及固内外的研究现状。通过分析各种算法的特点和适用性,针对实际化学数据特点,选择最小描述长度划分法(MDLP)对数捌上韭行离散化。与其它方法相比,MDLP算法稳定、离散化效果令人满意。(2)大多数数掘集都包含冗余属性,这些冗余属性的存存不仪增加数就i:处理的工作量和复杂程度,而且会干扰最终的分类结果,影响分类的准确程度。本文将属性选择的概念引入化学数据分析中,介绍了属‘陀选择的

3、基本原理,特』ji以及各种方法。通过考虑各种方法的使用条件和化学分类数据的特点,使川IJasVegasFilter(LVF)算法对离散邗数据进行选择。结粜证Hjj:该过程能够从原属性集中筛选出与分类联系最紧密的属性子集,简化了计算过程,I刊时也赴·定千l£度上提高了分类准确性。(3)介绍了决策树方法的基本原理和几种常用决策树算法。洋自lJ讨论了C4.5算法特点.并针对其体的实例建立C4.5决策树。结果证明该方法分类性能良女r。与常用的神经网络方法相比,由决策树发现的分类规则表达方式直观,便-J:理解,7卜成速度也非常快。和统计分析方法相比,决策树不依赖属r陀值的分嘶,或属,ri:独立

4、性的假设,在实际应用中也比般的统计分析方法更健壮。(4)决策树方法可从大鼍数摒·},挖掘m潜存的分类j=【1识,并县订∞沾“观的表达形式,易为专业人员理解和分析。对于较难处理的连续属性.小义捉⋯丁基于预处弹的决策树模型。先埘迮续属性离散化,并作筛选,剔除?tl余数缸r:后,再[}1C4.5方法构建决策树,其分类模型具有良好的颅报。r{:能,适J{JJ:化’学分炎模式的挖掘,两个实例表明应用效果令人满意。关键词:数据挖掘,决策树,离散化,属性选择,化’乒模,=I=分类ABSTRACTAsthecomputertechnologyandmodernanalyticaltechnology

5、develop.theamountol’datainchemistryandchemicalengineeringhasincreasedfast.111cappearanceanddevelopmentofdataminingsupp[iesI.ISapowerfidtoolIngainusefulinforn'mtionhiddenillalIkindsofdata.ButtheeffectoI、thesemethodshascloseconnectionwiththecharactelisticofdatajnvariablefields.Thedata(1i、chemical

6、classificationoftenhastheligatureofhigller.d油cnsiolllnoiseandcompoundlinearInthispaper,WefocusOilthediscretization,Ikatureselection.rulegeneration.andchemicalpatternmodeling.Somedataminingmethodsandthetheory+ol’decisionWeealsohayebccnintroduced.‘fhemaincontributionsinthisdissertationarcuslbll‘)

7、ws:【1)Becausethedatasetsforchemicalclassificationaremostly,continuous.theprocessol’discretizationisnecessary'toimprovethepertbmlancc011decisiontreeclassitier.Inthispaper,WeadoptMinima/Description1.engthPrinciple(MDI,f)】lodiscretiz

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。