欢迎来到天天文库
浏览记录
ID:32973436
大小:7.41 MB
页数:70页
时间:2019-02-18
《基于基因类别灵敏度信息与微粒群优化的基因选择方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号!£3窆!:垒!UDC519.68密级编号·@汪薛大擎硕士学位论文基于基因类别灵敏度信息与微粒群优化的基因选择方法研究AStudyofGeneSelectionApproachBasedonGene—to—ClassSensitivityInformationandParticleSwarmOptimization学位授予单位和日期江菱盍堂2Q】垒生鱼旦答辩委员会主席评阅人独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他
2、教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。靴敝储溉象日乃/够年6月p日学位论文版权使用授权书江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库
3、》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生处办理。本学位论文属于不保密口。学位论文作者签名oJ、伟k膨年6月/o日指导教师签名:№。f日江苏大学硕士学位论文摘要虽然传统基因选择方法能够获得紧凑的信息基因子集,但由于它们没有考虑到基因表达谱数据中蕴含的先验信息,从而导致选择到的基因子集在分类预测性能上仍然有较大的提高空间,并且选出的基因可解释性较差。为了克服传统方法的不足,本文在充分考虑基因类别灵敏度(gcnc.to.classsensitivity,GCS)信息的基础上,利用K-均值(K-means)聚类和二进制微粒群优化(BPSO)算法进行基因选择。该类方法能够获
4、取低冗余、高预测性的基因子集,并在多个基因表达谱数据上获得了优于经典基因选择方法的性能。本文的主要工作如下:(1)提出了一基于GCS信息、K-均值聚类和BPSO算法的混合基因选择方法(KMeans.GCSI.MBPSO.ELM)。首先,通过单隐层前馈神经网络利用极限学习机(ELM)从基因表达谱数据中提取GCS信息的先验信息;其次,在对初始备选基因库K-均值聚类基础上,根据GCS信息过滤低灵敏度的基因以形成二级备选基因库;最后,再将GCS信息编码进BPSO算法之中做进一步基因选择。在多个公开的基因表达谱数据集上的实验结果表明,相比其他经典的基因选择方法,由于充分考虑各个基因与类别相关的
5、灵敏度信息,因此能够选出较少基因但预测性能更高的基因子集,并且选中的基因具有较高的解释性。(2)针对K.Means.GCSI.MBPSO—ELM方法中冗余基因去除时会出现的“误删除”现象,提出了一改进的KMeans.GCSI.MBPSO.ELM方法(IKMeans.GCSI.MBPSO.ELM)。在IKMeans.GCSI.MBPSO.ELM方法中,首先运用Elbow方法确定K-均值聚类中合适的聚类数;然后结合GCS信息,运用PSO算法寻找K-均值聚类中最优初始聚类中心,进而优化了聚类结果,使得优化后的各聚类内各个基因的GCS值更加紧凑,从而使得应删除与应保留的基因簇之间的界限更加明
6、晰。在多个公开的基因表达谱数据集上的实验表明,该方法能有效地降低“误删除”现象出现的可能性,从而选中一些GCS值相对较低但与样本类别关联大的基因。对比K]VIeans—GCSI.MBPSO—ELM和其它经典的基因选择方法,IKMeans—Gcs!.MBPSO.ELM方法能够选择出数目更少,分类预测性能更高的基因子集。在多个公开的基因表达谱数据集上的实验结果也验证了该方法的有效性。关键词:基因选择,基因类别灵敏度信息,K-均值,微粒群优化,基因表达谱数据基于基因类别灵敏度信息与微粒群优化的基因选择方法研究ABSTMCTAlthoughtraditionalgeneselectionme
7、thodscouldselectcompactinformativegenesubsets,thoseselectedgeneshavepoorinterpretabilityandtherestillhasmuchspaceforimprovingtheclassificationperformanceoftheselectedgenesubsetsbecauseofnotconsideringpriorinformationhiddeningeneex
此文档下载收益归作者所有