不平衡类数据挖掘研究综述

不平衡类数据挖掘研究综述

ID:10977456

大小:74.50 KB

页数:6页

时间:2018-07-09

不平衡类数据挖掘研究综述_第1页
不平衡类数据挖掘研究综述_第2页
不平衡类数据挖掘研究综述_第3页
不平衡类数据挖掘研究综述_第4页
不平衡类数据挖掘研究综述_第5页
资源描述:

《不平衡类数据挖掘研究综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第37卷第10期2010年10月计算机科学ComputerScienceVol.37No.10Oct2010到稿日期:20091106返修日期:20100125本文受国家自然科学基金6067503060875029资助。翟云1979-男博士生讲师CCF会员主要研究方向为知识发现Email:yunfei_2001_1yahoo.com.cn杨炳儒1943-男教授博士生导师主要研究方向为知识发现与智能系统、柔性建模与集成技术曲武1982-男博士生主要研究方向为知识发现。不平衡类数据挖掘研究综述翟云12杨炳儒1曲武1北京科技大学信息工程学院北京1000831聊城大

2、学计算机学院聊城2520592摘要综述了近年来国内外对不平衡类数据挖掘的主要研究进展。首先分析了不平衡类数据挖掘的本质。其次详细探讨了处理不平衡类数据挖掘的各种技术并根据其本质区别从数据层次和算法层次分别对目前存在的各种技术方法进行了深入剖析和全面比较。最后指出当前不平衡类数据挖掘研究的热点以及将来需要重点关注的主要问题。关键词机器学习不平衡类数据重采样代价敏感学习中图法分类号TP181文献标识码ASurveyofMiningImbalancedDatasetsZHAIYun12YANGBingru1QUWu1SchoolofInformationEngin

3、eeringUniversityofScienceandTechnologyBeijingBeijing100083China1CollegeofComputerScienceLiaochengUniversityLiaocheng252059China2AbstractThispaperreviewedthepresentsituationofminingdatainimbalancedclassesathomeandabroadinrecentyears.Firstlyitanalysedindepththeexistingproblemsandthei

4、rresultingnature.Thenitindetaildealtwithvariousstateoftheartdataminingtechniquesundertheimbalancedlearningscenario.Moreoverfromthedatalevelandalgorithmlevelrespectivelyitanalysedandcomparedthemcomprehensivelyinaccordancewithessentialdifference.Atthesametimethepapersummariedmeasurem

5、etricsevaluatingperformanceofminingimbalancedatasets.Alsothepaperpointedoutrecenthotissuesoftheoreticstudiesandapplications.Finallytheperspectivesonfutureworkwerealsodiscussed.KeywordsMachinelearningImbalancedclassificationResamplingCostsensitivelearning在两分类数据集中数量相当少的一类被称为少数类或稀缺类mi

6、norityclass而另一类则被称为多数类majorityclass具有这样特征的两分类数据集则被称为是不平衡的。正是由于少数类的样本和多数类的样本分别代表稀缺样本的存在与否故它们通常分别被称为正样本positiveexamples和负样本negativeexamples。现实世界里不平衡类问题是常见的如通过对不同病人检查形成的一系列乳房射线数据库已经在处理不平衡类数据算法中得到广泛应用。其中癌变和健康的病例分别分到少数类和多数类。事实上非癌变的病人数目要远远大于癌变的病人数目在数据集中存在10923个多数类样本和260个少数类样本。在其他应用如信用卡欺骗

7、检测12、文本分类3、信息搜索及过滤4、市场行为分析5等中人们主要关心的是数据集中的少数类但这些少数类的错分所产生的代价异常大甚至是不可估量的。因此在实际应用中通过数据挖掘技术提高少数类的分类精度进而减少由于误分类造成的重大损失的研究任务迫在眉睫。近几年来不平衡数据集的分类问题开始受到数据挖掘界的重视。在2000年AAAItheAssociationfortheAdvancementofArtificialIntelligence国际会议和2003年ICMLtheinternationalConferenceonMachineLearningworkshop

8、onLearningfromImbalancedDa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。