剪枝网格采样的非平衡数据集分类算法

剪枝网格采样的非平衡数据集分类算法

ID:28468564

大小:4.34 MB

页数:55页

时间:2018-12-10

剪枝网格采样的非平衡数据集分类算法_第1页
剪枝网格采样的非平衡数据集分类算法_第2页
剪枝网格采样的非平衡数据集分类算法_第3页
剪枝网格采样的非平衡数据集分类算法_第4页
剪枝网格采样的非平衡数据集分类算法_第5页
资源描述:

《剪枝网格采样的非平衡数据集分类算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、摘要摘要49摘要非平衡数据集分类问题是模式识别、机器学习和数据挖掘领域中的常见问题,也是热点问题,吸引着众多学者的眼球。非平衡数据集是指数据集类别之间存在倾斜,某一类别样本比其它类别样本要多。传统分类器为了追求高准确率,侧重于非平衡数据集中的多数类样本分类的准确性。而恰恰相反,非平衡数据集中的少数类样本往往是我们所要关心的,这时分类性能不仅要考虑分类精度高低,同时要考虑分类代价大小。传统分类器对这种非平衡数据的处理会更多关注多数类别的样本,导致大量重要的少数类别的样本错分且真实信息受损。因此,研究非平衡数据处理问题是非常重要。目前,国内外学者在非平衡数

2、据集分类问题上的研究已取得一定的成就,主要表现在数据预处理和算法两大层面上,在算法层面上,主要是试图改进传统算法,提高在非平衡数据集上的分类性能。而在数据预处理层面上,学者们研究大体是对负类样本进行欠采样,去除噪声数据和远离分类面数据,对正类样本过采样,加入噪声数据以至于达到数据平衡,再采用已有分类器进行分类,试图提高准确率。然而,去除数据还是加入数据,不同学者处理的方法也是不同的。本文在前人研究基础上,进一步对处理非平衡数据集分类的采样方法进行研究,防止一般欠采样方法所带来的重要信息数据的丢失,结合园艺工人们培植盆景的技巧,提出一种新的欠采样方法——

3、剪枝网格采样方法,通过剪枝技术将多数类样本分类,分成绝对安全数据、边缘数据和噪声数据三类,然后进行网格采样,再利用自适应增强法对采样后数据进行学习。以ROC曲线为评价标准,对人造数据和典型的UCI数据集分别进行验证,其AUC值要大于其他几类算法,说明该模型具有良好的性能。接着,又将该方法和Random-SMOTE方法结合,提出混合采样方法,利用ROC曲线评价标准,通过两组数据对模型进行性能测试,结果发现该模型性能也很优越。关键字:非平衡数据集;剪枝;网格采样;自适应增强法;ROC曲线49摘要AbstractImbalanceddatasetsclass

4、ificationproblemiscommonproblemsinthefieldofpatternrecognition,machinelearninganddataminingaswellasahotissue.Imbalanceddatasetisadatasetofcategoriesbecauseofthepresenceofskew,namelyakindofcategorysamplesmorethanothercategoriesofsample.Thetraditionalclassifiersinordertopursueahig

5、hrateofaccuracyfocusonclassificationaccuracyofthemajorityclasssamplesofImbalanceddatasets,ontheotherhandtheminorityclasssamplesofimbalanceddatasetsshouldbeconsideredbecauseofthecostofclassificationanditstrueinformation..Therefore,researchofImbalanceddataprocessingproblemisveryim

6、portant.Atpresent,domesticandforeignscholarshaveobtainedsomeachievementsindatapreprocessingandalgorithmsoftwolevelaboutimbalanceddatasetsclassificationproblem.ScholarsaretryingtoimprovethetraditionalalgorithmsandimprovetheclassificationperformanceinImbalanceddatasetonthealgorith

7、mlevel.Inthedatapretreatmentlevel,scholarsgenerallyremovethenegativesamplesofnoisedataandseparatefromtheclassificationofsurfacedatainunder-sampling,otherwisetheyaddnoisedatatoover-samplingdatainordertobalance.Inaword,manymethodsaredifferentondatareductionordataadditionInthispape

8、r,newsamplingmethodsaboutimbalanceddatasetsclas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。