欢迎来到天天文库
浏览记录
ID:35061135
大小:5.91 MB
页数:109页
时间:2019-03-17
《基于免疫系统的不平衡数据分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、瞧:項側牵SOOCHOW丽VERSITYjlHn^RIISIII胃Hs于免減細不平臟据分类方測究:^m—;;'击ClassificationonImbalancedDataBasedonImmuneSystem; ̄ ̄ ̄ ̄:::IP:i指导教議名崔志明■編麵专业名称计算欄学与技术V皆i^1'胃m研究方向人工智能::m所在院部计算机科料技术学院论嫌交日期2016年3月';u;詞;苏州大学学位论文独创性声明本人郑重声明!所提交的学位论文是本人在导师的指导下,独
2、立进行研究工作所取得的成果。除文中己经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,巧己在文中W明确方式标明。本人承担本声明的法律责任。论文作者签名:寺础日期:心化.L心苏州大学学位论文使用授权声明本人完全了解苏州大学关于收棠、保存和使用学位论文的规定,即。:学位论文著作权归属苏州大学本学位论文电子义挡的巧容巧绽质论文的內容概一致。苏州大学有巧向国家留书馆、中国巧科巧文献僖息情报中也、中国科学技术信息研巧巧(
3、含万方数据电子化版社)、中国学术期巧(光盘版)电子杂惠化送交本学化论文的复印件和电子文楼,化许论文鞭査阅和借阅,可巧采用巧印、缩印或其他入巧制手段保存和汇编学化论文,可巧游学俭路文的全郁或郁分内容编有关数搪库进嫌索。涉密论文口本学化论文属在年月解密后适用本规定。非泼密论文口又论文作雜名:文减4日期:口I長-1>吟杉、b、!导师签名:日觀Wr殘基于免疫系统的不平衡数据分类方法研究中文摘要基于免疫系统的不平衡数据分类方法研究中文摘要随着云计算和移动技术的发展,互联网进入大数据时代,人们面对急剧膨胀的多媒体信息,需要有效的内容管理
4、和快速的信息查找。分类算法通过学习已标注数据建立模型,对数据进行分类和标签,已经广泛应用于计算机视觉、文字识别、声音识别、文档归类等领域。基于标注数据的分类算法已经走向成熟,如朴素贝叶斯、逻辑回归、支持向量机、决策树等。然而,这些算法都依赖于数据集规模,按照学习理论,只有样本规模超过规定下界时,正确率才能高于临界点;同时不平衡数据集大量存在于人们的现实生活中,人们更关心少数类的样本,错分少数类所产生的代价更大。为了解决这个矛盾,本文致力于基于免疫系统的不平衡数据分类方法研究。借鉴人体免疫系统的原理和特性,研究和解决二类不平衡数据分类问题、多类不平衡数据分类问题,密度缺失下
5、的不平衡数据分类问题,以及类内簇不平衡下的不平衡数据分类问题,主要工作和贡献如下:(1)在二类不平衡环境下,研究了基于免疫中心点的过采样提高分类算法性能的理论和方法。在二类学习中,多数类(或负类)的样本数量比少数类(或正类)的样本数量更多,标准分类学习算法趋于偏向多数类,造成少数类的错分率明显高于多数类的错分率。本文提出的基于免疫中心点的过采样方法(ICOTE)借鉴免疫网络原理,经过繁殖、变异、抑制等过程,产生免疫型中心点来扩充少数类样本,以达到样本分布的类平衡。免疫型中心点反映少数类的分布特征,扩张后的样本集不会改变原有样本的形状,防止新簇的产生,因而ICOTE在避免过
6、学习的同时,也克服了随机合成采样方法不考虑样本空间分布的问题。(2)在多类不平衡环境下,研究了基于多免疫子网络的过采样提高分类算法性能的理论和方法。与二类学习相比,多类学习面临着搜索空间变大、算法复杂度升高、空间重合等新问题,往往无法简单地把二类方法照搬到多类问题。同时,不平衡问题变得更加突出,少数类不止一个,类空间重叠现象更加普遍,造成传统分类算法忽视少数类现象,更倾向降低多数类的错分率。本文提出的基于免疫中心点的全局过采样方法(Global-IC)借鉴免疫网络原理,在每个少数类空间生成免疫子网I中文摘要基于免疫系统的不平衡数据分类方法研究络,网络节点用来扩充少数类样本
7、,最终达到整个样本分布的类平衡,促使分类算法在生成模型时,给予每个类同样的权重,正确预测未知样本。(3)在少数类数据密度稀疏条件下,研究基于阴性选择的过采样提高分类算法性能的理论和方法。与多数类样本空间相比,少数类空间不仅样本数量少,数据也比较稀疏,形成许多的孤立点或小簇,分类算法易于向多数类偏置。本文借鉴人体免疫系统的阴性选择机制,提出非我抗原型检测器和离散点检测相结合,学习整个数据空间的分布特性,生成符合少数类密度分布的合成样本,扩大少数类空间的决策区域。因为尽可能多的利用样本数据,在少数类空间生成更大或更稠密的决策区后,
此文档下载收益归作者所有