欢迎来到天天文库
浏览记录
ID:35173329
大小:3.79 MB
页数:58页
时间:2019-03-20
《改进的过滤特征选择算法及其在肿瘤标志物识别中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、改进的过滤特征选择算法及其在肿瘤标志物识别中的应用——————————————————————————————————AnImprovedFilterFeatureSelectionMethodanditsApplicationontheIdentificationofTumorMarkers作者姓名:何利华专业名称:计算机应用技术指导教师:梁艳春教授学位类别:工学硕士答辩日期:2015年5月19日提要近年来科学家们致力于肿瘤标志物的研究,希望通过检测肿瘤标志物的情况来监测肿瘤发生与发展的过程。随
2、着基因芯片技术的发展,大量基因、miRNA等表达数据被公布,使不同病理条件下的批量差异表达分析成为可能。但芯片数据具有高维小样本的特点,这给数据分析带来很大的困难。如何从高维数据中提取关键特征进行有效分类,成为当前研究的热点。本文以具有高维小样本特点的成对基因(miRNA)表达数据为研究对象,利用集成策略对最大相关最小冗余特征选择方法进行改进,提出了新的特征选择方法。将改进的特征选择方法应用到6个成对数据集上,并与其他一些已有方法进行比较,实验结果表明,改进的特征选择方法获得了更高的分类准确率,在
3、成对样本的芯片表达数据分析问题上具有很好的适用性。近年来研究发现,miRNA能调节靶基因的表达,并在肿瘤的发生与发展中起到重要作用,因此研究肿瘤中异常表达的miRNA和靶基因成为了探究肿瘤机制的重要部分。本文利用改进的特征选择方法对miRNA靶基因分析方法进行改进,并将改进的特征选择方法和miRNA靶基因分析方法开发为在线服务,便于研究者对芯片数据进行分析,得到异常表达的miRNA、基因以及miRNA靶基因关系网络,为肿瘤致病机理的进一步探究提供了一种便捷的分析工具。摘要摘要改进的过滤特征选择算法
4、及其在肿瘤标志物识别中的应用近年来肿瘤的发病率和死亡率呈现出迅猛增长的趋势,科学家们致力于肿瘤标志物的研究,希望通过检测肿瘤标志物的情况来监测肿瘤的发生与发展,尽早地对肿瘤做出诊断,使病人能够及时地得到相应的治疗。而且研究发现,基因、miRNA都具有作为肿瘤诊断、治疗、预后的标志物的潜力。随着基因芯片技术的发展,可以利用芯片技术得到基因或miRNA的表达数据,但得到的数据具有高维小样本的特点,这给数据分析带来很大的困难。因此,如何从高维数据中提取少量关键特征对数据进行有效分类,提出高效的特征选择方
5、法,是十分具有挑战性的,也逐渐成为当前研究的热点。迄今为止,研究者们提出了许多特征选择方法。根据与分类器结合的紧密程度,可以将特征选择方法分为过滤式方法、封装式方法、嵌入式方法。封装式方法、嵌入式方法的复杂度和过拟合风险都比过滤式方法高,过滤式方法更为简单,且通用性强。因此,本文重点关注过滤式特征选择方法。大多数过滤式特征选择方法都先根据某些准则对特征进行打分,再根据分数对特征进行排序,选取排在前列的一些特征作为最终的特征列表。这些过滤式特征选择方法虽然简单,但只考虑了单个特征的分类能力,忽略了特
6、征之间的关系,得到的特征列表存在冗余性,而冗余会降低特征集合的代表能力和分类能力。Peng等人提出了包含减少特征集合冗余性举措的最大相关最小冗余特征选择方法。然而由于表达数据的样本很少,最大相关最小冗余特征选择方法对数据比较敏感,即使是小的干扰,也会对特征选择的结果造成很大的影响,即最大相关最小冗余特征选择方法具有不稳定性,仍需进行改进。最近几年中,成对样本引起了越来越多的研究者的重视。用从相同测量对象身上得到的成对样本做实验,可以在一定程度上减少测试对象的个体差异性对结果的影响,使结果更为准确、
7、可信。本文首先以具有高维小样本特点的成对基因(miRNA)表达数据为研究对象,利用集成策略对最大相关最小冗余特征选择方法进行改进,提出了新的特征选择方法。将I摘要改进的特征选择方法应用到了6个成对数据集上,并与其他一些已有的过滤式特征选择方法进行比较,实验结果表明,改进的特征选择方法获得了更高的分类准确率,在分类方面的表现更为出色,在成对样本的芯片表达数据分析问题上具有很好的适用性。近年来研究发现miRNA能调节靶基因的表达,并在肿瘤的发生与发展中起到重要作用,因此研究肿瘤中异常表达的miRNA和
8、靶基因成为了探究肿瘤机制的重要部分。本文利用改进的特征选择方法对miRNA靶基因分析方法进行改进,并将改进的特征选择方法和miRNA靶基因分析方法开发为在线服务,便于研究者对芯片数据进行分析,得到异常表达的miRNA、基因特征以及miRNA靶基因关系网络,为肿瘤致病机理等的进一步探究提供了一种便捷的分析工具。关键词:特征选择,最大相关最小冗余,成对芯片数据,miRNA,靶基因IIAbstractAbstractAnImprovedFilterFeatureSelectionMeth
此文档下载收益归作者所有