欢迎来到天天文库
浏览记录
ID:37032380
大小:1008.36 KB
页数:67页
时间:2019-05-15
《基于变精度粗糙集理论的多属性离散化方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号学号M201676122学校代码10487密级硕士学位论文基于变精度粗糙集理论的多属性离散化方法研究学位申请人:胡振华学科专业:软件工程指导教师:吕泽华副教授答辩日期:2018.12.20AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringResearchonMulti-AttributeDiscretizationMethodonVariablePrecisionRoughSetTheoryCandidate:Hu
2、ZhenhuaMajor:SoftwareEngineeringSupervisor:Assoc.Prof.LyuZehuaHuazhongUniversityofScience&TechnologyWuhan430074,P.R.ChinaDecember,2018华中科技大学硕士学位论文摘要随着机器学习、数据挖掘技术的普及,对机器学习结果的精确度要求越来越高。研究者们提出了许多学习算法,可以应用到各个领域和场景中,如非常适合分类学习的C4.5决策树算法和支持向量机算法。为提高学习效果和预测精度,作为数据挖掘和机器学习的一个重要预处理步骤,连续值
3、属性的离散化的重要性实则非常重要。许多学习算法,如决策树,只能用于离散化的数据集,而且连续值属性的离散化使学习算法更易理解数据,并提高计算效率。当前,大多数离散化方法只考虑某一连续属性与类属性间的关系。单属性离散化方法缺乏对属性重要性的考量,离散属性的顺序大多随机决定,导致隐藏信息的丢失。单属性和多属性相结合的离散化方法可解决上述问题,其条件属性相对其他属性的重要度作为多属性评价标准,基于最小描述长度理论的信息长度为单属性评价标准。经研究验证,该离散化方法有效利用了属性重要度,提高了离散效果。单属性和多属性相结合的离散化方法的离散化停止规则是基于经
4、典粗糙集理论中的一致性水平得到,因此存在缺点。经典粗糙集理论对集合间包含关系的定义过于严格,将大样本的多数包含也视为不一致样本,必然导致信息丢失。变精度粗糙集理论则放宽了包含关系的严格定义,引入了噪音阈值β,当不包含程度低于阈值时才说明某集合包含于另一集合。为了改进原离散方法,本文基于变精度粗糙集理论的包含关系提出不一致率,以此替换原离散化方法的离散停止准则,得到新的离散化算法。实验结果分析证明单属性和多属性相结合的离散化方法符合理论预期,有效避免了隐藏信息的丢失。本文基于变精度粗糙集理论对单属性和多属性相结合的离散化方法提出的改进使得原离散化方法
5、的性能明显提升。基于变精度粗糙集理论虽然能够得到更合理的离散停止准则,但在计算过程中噪音阈值β值是基于经验得到的。如何通过数据集本身训练得到β值是离散化领域中值得研究的方向。关键词:连续值离散化离散停止准则变精度粗糙集理论I华中科技大学硕士学位论文AbstractWiththefieryheatofmachinelearninganddataminingtechnology,peopleareincreasinglydemandingbigdataapplications.Researchershaveproposedanumberoflearni
6、ngalgorithmsthatcanbeappliedtovariousfieldsandscenarios,suchasC4.5decisiontreealgorithmsandsupportvectormachinesalgorithmsthatarewellsuitedforclassificationlearning.Inordertoimprovethelearningeffectandpredictionaccuracy,asanimportantpre-processingstepofdataminingandmachinelear
7、ning,theimportanceofdiscretizationofcontinuousvalueattributesisveryimportant.Manylearningalgorithms,suchasdecisiontrees,canonlybeusedfordiscretizeddatasets,andthediscretizationofcontinuousvalueattributesmakesthedataeasiertounderstandandimproveaccuracyforlearningalgorithms.Inad
8、dition,discretizationcanmakelearningalgorithmsmoreefficient.C
此文档下载收益归作者所有