欢迎来到天天文库
浏览记录
ID:35015488
大小:3.42 MB
页数:65页
时间:2019-03-16
《基于机器学习的基因癌症诊断方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号密级硕士学位论文题目:基于机器学习的基因癌症诊断方法研究英文并列题目:Researchonmethodsofcancerdiagnosiswithgenesbasedonmachinelearning研究生:范方云专业:计算机科学与技术研究方向:计算机应用技术导师:孙俊指导小组成员:学位授予日期:2015年6月答辩委员会主席:梁久祯江南大学地址:无锡市蠡湖大道1800号二O一五年六月摘要摘要目前,联合生命科学与信息科学的基因芯片技术已经成为人类探索生物分子信息的有效方法之一,同时也成为生物信息学中最为广泛使用的技术之一。通过基因芯片技术可以同时测定某一细胞中
2、成千上万个基因的表达情况。基因芯片技术为基因诊断和辅助疾病治疗等应用提供了有效前提和技术保障。随着基因芯片技术的极快发展,利用基因微阵列表达谱辅助癌症诊断吸引了越来越多的科研人员的关注。基因微阵列数据有别于一般的分类数据,与其高维特性相比,样本量就显得太过缺少。这使得研究重点集中在对高维数据的降维和利用少量样本进行训练和分类,以选出真正具有分类信息的基因,得到较高的分类正确率。针对这一研究课题,本文首先提出了基于改进的遗传算法的癌症特征基因选择与分类方法。在改进的遗传算法中,交叉操作使用均匀交叉策略,变异操作使用变异概率非线性变化策略,同时根据最优特征基因子集的特
3、点增加最优个体变异策略。均匀交叉策略增强了遗传算法的全局搜索性能。到了遗传算法的迭代后期,当个体聚集到最优解附近时,变异概率增大有效的增强了遗传算法的局部搜索能力,避免了遗传算法的早熟收敛。最优个体变异策略有效利用了每次迭代找到的全局最优解,更增加了遗传算法寻找到最优解的可能。实验结果表明,改进的遗传算法明显比基本遗传算法具有更强的分类性能,而且具有更好的鲁棒性。本文将二进制量子行为粒子群算法引入到癌症特征基因选择过程中,提出基于二进制量子行为粒子群优化算法的癌症特征基因选择与分类方法。二进制量子行为粒子群优化算法是量子行为粒子群优化算法在二进制空间的版本,是群体
4、智能算法中的一种。将其作为特征空间中的搜索引擎,与支持向量机相结合,在原始的特征空间中选择出了具有较强分类性能的特征基因子集。实验结果表明,与粒子群算法和遗传算法作为搜索引擎相比,二进制量子行为粒子群算法具有更强的搜索能力,且具有更好的鲁棒性。得到的特征基因子集规模更小,对癌症数据集的分类精度更高。本文在分析了二进制量子行为粒子群算法的收敛过程之后,为了能够有效地避免算法在寻找最优特征基因子集的过程中陷入早熟收敛,在算法中加入了可变种群规模机制,以使得算法在出现早熟时能够有效地跳出局部搜索区域,增强算法的全局搜索性能。实验结果表明,可变种群规模的二进制量子行为粒子
5、群算法相比于原算法具有更强的搜索性能,在迭代后期能够找到更好的基因子集,有效避免了算法陷入早熟收敛。关键词:基因芯片;遗传算法;支持向量机;二进制量子行为粒子群算法IAbstractAbstractCurrently,microarraytechnologywhichisthejointoflifescienceandinformationsciencehasbecomeoneoftheeffectivemethodsforhumanexplorationofbiomoleculeinformation,andalsobecomeoneofthemostwidel
6、yusedtechnologiesinbioinformatics.Usingmicroarraytechnologycanmeasuretheexpressionofthousandsofgenesinonecellsimultaneously.Microarraytechnologyprovidesapremiseandtechnicalsupportforapplicationssuchasgenediagnosticandauxiliarytherapy.Withtherapiddevelopmentofmicroarraytechnology,diagn
7、osisofcancerassistedbygenemicroarrayexpressiondatahasattractedmoreandmoreattentionofresearchers.Genemicroarraydatahasthecharacteristicsofhighdimensionsandlesssamples.Thesemakethestudyfocusondimensionreductionofhighdimensionaldataandhowtouseasmallnumberofsamplesfortrainingandclassifica
8、tion,
此文档下载收益归作者所有