基于决策树和粗糙集的分类方法研究

基于决策树和粗糙集的分类方法研究

ID:33173878

大小:1.57 MB

页数:60页

时间:2019-02-21

基于决策树和粗糙集的分类方法研究_第1页
基于决策树和粗糙集的分类方法研究_第2页
基于决策树和粗糙集的分类方法研究_第3页
基于决策树和粗糙集的分类方法研究_第4页
基于决策树和粗糙集的分类方法研究_第5页
资源描述:

《基于决策树和粗糙集的分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:分类号:了尸专lY9821]0G单位代码:10422学号:加弓J≯≯f8JL莨'。毛硕士学位论文论文题目:孰球藁树和巍抛象厶今裘弓陔研钮作者姓名至墨垒主!专业盟望型j!{塑丝掏.指导教师姓名专业技术职务趔§叠丕l盘丝po6年印月』,日山东大学硕士学位论文摘要数据挖掘是利用分析工具从大量的、不完全的、有噪声的、’模糊的、随机的数据中,提取出隐含在其中,事先未知、潜在有用的信息和知识的过程,建立数据间关系模型,用其做出预测,从而为决策者提供辅助.决策树是一种常用的分类模型,并以其能直接体现数据特点,分类效率高、

2、速度快,理解性好等特点在数据挖掘及其它领域中被广泛使用:粗糙集理论是一种处理不精确、不确定和不完备信息的有效方法,随着其在各领域中的成功应用,引起各国广大学者的关注.本文围绕决策树和粗糙集理论进行了相关的研究和创新,主要内容包括;首先,对决策树、粗糙集理论和粗糙集中信息熵的表现形式进行‘了系统的研究,分析了信息熵与粗糙集理论中上、下近似之间的关系.考虑到经典的ID3算法用求熵的方法选择节点分裂属性时没有考虑到噪声的影响,对噪声比较敏感,而可变精度粗糙集理论对噪声有很好的抑制作用,所以,结合可变精度的思想对ID3算

3、法进行了改进,使其更能适应噪声比例较大的数据集,更加符合实际要求.其次,粗糙集理论中的属性约简方法可以在不影响分类能力的前提下对数据集进行简化,为此,提出了一种基于属性重要性概念的启发式的属性约简算法.而后,用提出的基于属性重要性的属性约简方法对数据集进行简化,以改进后的ID3算法为建树算法,根据建树算法的特点选择了基于期望误分率的后剪枝算法为树的剪枝算法,设计了一个分类器:之后,‘用UCI数据库中的多个数据集为实验数据进行了模拟实验,实验结果表明,这种改进后的决策树生成算法在抑制噪声方面要优于改进前的ID3算法

4、,其实用性更好.最后,对论文工作做了总结、分析了存在的问题,指出了下一步的工作.关键词:数据挖掘:分类:决策树:ID3算法:粗糙集山东大学硕士学位论文ABSTRACTDataminingistheprocessthatUSeStheanalyticaltoolstoextractsomeimplicit,unknown,potentiallyusefulinformationandknowledgefromlarge,incomplete,noise,fuzzyandstochasticdatasets,then

5、therelationshipamongdatacouldbeestablished,thusforecastcouldbemadewithit,andassistancecouldbeprovidedforthepolicy-maker.Decisiontreeisacommonclassificationmodel,anditisusedwidelyindataminingandotherfieldsbecausethatitcanreflectcharacteristicsofdatadirectly,an

6、ditisefficient,fast,easytounderstand;Roughsetstheoryisaeffectivemethodindealingwithimprecise,uncertainandincompletedata,andithasbeenappliedsuccessfullyinalotofdomains,so,roughsetstheorygetsmoreattentionfromscholarsinmanycountries.Aresearchwasmadeandsomenewide

7、aswereputforwardinthispaperbasingondecisiontreeandroughsetstheory,themaincontentsofpaperarelistedasfollow:Inthefirst,aresearchwasmadebasingonDecisiontree,Roughsetstheoryandhowitisrepresentedbyentropy,andtherelationshipwasanalyzedbetweenupper-lowerapproximatio

8、nandentropy.BecausetheeffectofnoisehasnotbeenthoughwhenusedtheentropymethodtoselectthesplittingattributeinfamousID3algorithm,soitissensitivitytonoise,butvariableprecisionroughsetcouldrest

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。