基于不平衡数据的分类方法研究

基于不平衡数据的分类方法研究

ID:35059514

大小:5.95 MB

页数:69页

时间:2019-03-17

基于不平衡数据的分类方法研究_第1页
基于不平衡数据的分类方法研究_第2页
基于不平衡数据的分类方法研究_第3页
基于不平衡数据的分类方法研究_第4页
基于不平衡数据的分类方法研究_第5页
资源描述:

《基于不平衡数据的分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.':.>1分繫号sTP39单繼代磯s譜護.S巧擎号S織抑火雀NorthUniversityOfChina、^全日制工程硕±学位论文基于不平衡数据的分类方法研究,j;?時 ̄?1■—:;‘:硕±硏究生mm育推师化- ̄… ̄■^適篮 ̄ ̄r命穿巧i冬!如帕:巧!外鑽1..张廣平^H峭^'吗‘^、‘臟领‘g雜山4卸觀赫晒.y*置碰fi應―:心抑擊鳴論瓣.

2、杉..图书分类号TP391密级非密UDC全日制工程硕±学位论文基于不平衡数据的分类方法研究张立巧校内指导教师(姓名V巧祿)师宫斌副教授)张责平研高工校外指导教师畑名^职祿申请学位级别硕:f:学位所在领域(研究方柿计算机技术论文提交日期20巧年4月10日论女答辩日期20巧年5月21日学位授予日期年月日论文评阅人张素兰斯雁盈答銳委员会主席徐玉斌2015年5月21日原创性声明本人郑重声明:所呈交

3、的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不。包含其他个人或集体已经发表或撰写过的科研成果对本女的研究作出。重要贡献的个人和集体均已在文中从明确方式标明本声明的法律责,。任由本人承担’化心V:论:狐文作者签名日期关于学位论文使用权的说明全、包:人北大关管使用学位论规定括本完了解中学有保文的其中,、送印件①学校有权保管并向有关部口交学位论文的原件与复②学校;、手制可a用印印它并保存位论文③学校可采影缩或其

4、复制段复学;允查从目制和交许学位论文被阅或借闽;④学校可学术交流为的,复赠送^论⑤1公全分换学位论文学校可义布学位论文的部或部内容(保密学位文;在解密后遵守此规定)。,VH-:1泛:)签名日期'、媒、导)::日期iMb\师签名甲中北大学学位论文基于不平衡数据的分类方法研究摘要数据分类作为数据挖掘的一项重要任务,国内外学者进行了大量的研究。但是这些传统方法都是基于平衡数据进行分类的,当基于如医学诊断、异常检测等领域的数据时,由于这些数据在分布上不平衡,导致了少数类的漏

5、报,所以基于不平衡数据的分类方法是本文的研究课题。本文的研究工作是:对传统的分类算法进行研究,根据这些方法在不平衡数据集上的缺陷,学习了目前存在的不平衡数据分类方法;重点研究了DGC和IDGC模型,针对其局限性,提出了改进的GIDGC-KNN分类模型,并进行了实验评估。(1)基础算法研究。从传统分类算法如SVM、KNN、决策树和AdaBoost等进行学习,从不平衡分类算法如数据层面、代价敏感、单分类和集成学习等方面进行研究,如SMOTE、weightSVM、OneClassSVM、SSLM和SM

6、OTEBoost。(2)针对DGC和IDGC分类模型,提出基于测地距离的局部相关分类模型GIDGC-KNN。首先从数据引力、特征权值选择、数据质点创建分析了DGC和IDGC的分类原理。由于这两个模型没有考虑数据分布性状和待测数据近邻类相关性而存在准确率低的问题,提出了GIDGC-KNN模型。该模型继承了IDGC的引力放大系数AGC,同时结合测地距离和KNN算法得到数据分布隐含的全局几何结构和近邻样本类相关性。而且该模型在数据质点创建过程中采用了MNP,相对于IDGC中使用的MDP一定程度保留了原

7、始数据的分布性状和局部相关性,体现了改进模型的先进性。(3)实验验证。实验采用来自KEEL数据集仓库中22个不平衡二类分类数据,用AUC和GM作为分类性能评估的指标,将GIDGC-KNN分类模型与传统的采样技术、代价敏感和提升方法比较。实验结果证明了该模型有明显的分类性能。关键词:数据挖掘,分类,不平衡数据,测地距离,K-近邻,数据引力中北大学学位论文TheClassificationAlgorithmResearchBasedonImbalancedDataAbstractDataclassi

8、ficationisaveryimportanttaskofdatamining.Domesticandforeignscholarshavedonealotofresearchontheclassification.Butthetraditionalmethodpresentedabovearebasedonbalancedataclassification,whenthetraditionalmethodisbasedondatafields,suchasmedicaldiagnosis,a

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。