欢迎来到天天文库
浏览记录
ID:51904894
大小:6.01 MB
页数:90页
时间:2020-03-18
《基于ProGEP的代价敏感分类算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文图书分类号:TP181基于ProGEP的代价敏感分类算法研究学生姓名:周舟所在院系:管理科学与工程学院专业名称:管理科学与工程研究方向:管理决策优化理论与方法届别:2015届导师姓名:余永红教授论文完成时间:2014年10月1独创性声明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文不包含其他人已经发表或撰写的研究成果,也不包含为获得安徽财经大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。签名:日期:关于论
2、文使用授权的说明本人完全了解安徽财经大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:导师签名:日期:安徽财经大学硕士学位论文基于ProGEP的代价敏感分类算法研究摘要近年来数据挖掘技术被广泛应用在市场营销、商业管理、企业危机管理、产品制造和Internet等方面。目前全世界计算机存储的未使用的海量数据还在快速增长,数据类型和结构也愈发复杂,这对降低挖掘成本,提高算法效能均带来严峻的挑战。因此,改进挖掘算法流程、
3、提高算法运行效率对于高效取得较为满意的挖掘结果有着重要意义。本文就对数据挖掘中常用的遗传算法衍生的一种新算法——基因表达式编程展开研究并作出相关改进,提出并设计ProGEP算法,并将该算法应用于代价敏感分类问题,设计并实现了CSC-ProGEP算法。主要工作有以下四个方面:1.综述了国内外GEP及代价敏感学习算法的研究现状;概述了GEP算法的构成及流程;简述了目前几种常用的代价敏感分类算法。2.改进GEP算法并提出ProGEP算法。针对基本GEP算法重复遍历表达式树的染色体评估方法效率低下的不足,在研究目前流行的改进算法——基因阅读运算器的改进思想后,提出了逆波兰表
4、达式——堆栈法评估(RPE_SD),通过后续遍历一次表达式树获得逆波兰表达式,采用重复读取线性的堆栈结构进行存储和计算,实现染色体评估效率的提高;其次,就基本GEP未给定具体常数参数的生成方法和完全随机化的初始种群生成方式指出给定合理的常数参数的必要性和向种群插入优势个体对进化初期的促进作用,提出粗糙的多元线性回归初始化——自适应修正常数(RMLR_AC),该算法将多元回归获得的全变量系数参数作为常数变量引入染色体的基因表达式结构中,并通过进化过程实现系数常数的修正;再次,观察发现基本GEP在进化种群中存在染色体个体基因型相同的现象,定义了重复染色体及隐重复染色体的
5、概念,研究指出该现象的产生原因及对基因片多样性、进化效率的不利影响和对种群其他个体的恶性同化作用,提出消除(隐)重复个体(DSC)算法,并通过创建种群副本进行二次选择(CPCSC)来改进GEP选择流程;最后,再次观察种群结构特征,指出并定义了GEP的同族染色体和种族断层现象,为避免该现象存在导致的基因片在全种族范围内的交流受阻及进化结果向局部最优解收敛,提出基于线程机制的周期性种群多样性分化(TM_PDI)改进进化流程,并给出对主线程的种群进行排序后再分段克隆,补充随机化个体(SHS_RRI)的初始化子线程种群算法。融合基本GEP算法和上述的四点改进,本文提出并描述
6、了ProGEP算法。3.将ProGEP应用于代价敏感分类问题。通过构建代价敏感矩阵并融入1基于ProGEP的代价敏感分类算法研究摘要ProGEP的适应度函数,获得CSC-ProGEP算法。在描述该算法流程的基础上,本文给出了对稀有类分类效果的评判方法。4.实验环境的构建与算法的验证及应用。由于对基本GEP的基因评估算法、选择流程、进化流程等方面均作出修改,为了能方便地描述算法细节,灵活地进行实验结果的统计计算,本文基于MicrosoftVisualStudio2012,使用C#语言,采用面向对象的设计方法实现了GEP基本模型结构以及ProGEP相关改进。实验验证了P
7、roGEP的算法性能及CSC-ProGEP的应用效果。为独立观察每个改进带来的提升,将四个改进分步引入GEP,多次实验后观察比对引入前后的效果。在验证ProGEP的有效性之后,选取五组UCI数据集,采用10-折交叉验证法进行CSC实验,并将获得的分类器和其他分类算法训练的分类器比较,实验表明CSC-ProGEP在解决代价敏感分类问题中,相对于传统分类算法(C4.5、BN、BP)和代价敏感分类算法(AdaCost),在保证了分类准确率的同时也获得了更高的稀有类召回率及精度。本文所做研究的意义,一方面是对GEP算法理论的完善和提高,对染色体评估效率、种群结构和进化流
此文档下载收益归作者所有