基于优化算法的基因选择与癌症分类

基于优化算法的基因选择与癌症分类

ID:23522349

大小:4.53 MB

页数:41页

时间:2018-11-08

基于优化算法的基因选择与癌症分类_第1页
基于优化算法的基因选择与癌症分类_第2页
基于优化算法的基因选择与癌症分类_第3页
基于优化算法的基因选择与癌症分类_第4页
基于优化算法的基因选择与癌症分类_第5页
资源描述:

《基于优化算法的基因选择与癌症分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文1.3.1关键基因选择基因选择,即从原始的基因表达数据中选择出那些与疾病分类最相关的基因,将这些基因作为疾病的诊断基因。但是,从如此多的原始基因表达数据中选择出多少个基因、选择哪些基因对疾病分类与诊断最有效?对这个问题的解答属于NP完全问题。一种方法是用穷举法找到最优解,但在如此庞大的特征(基因)数目下,穷举法做特征选择毫无可行性。因此,只能用找到次优解的可行性方法,来解决基因选择问题。基因选择作为在样本数很少的超高维特征空间中的特征选择问题,与一般的特征选择相比,具有一定特点:(1)高维特征空

2、间超小样本。基因表达数据所构成的基因空间的维数一般是成千甚至上万维,而样本数却只有几十或百十个,不像一般的特征选择问题,样本数大于特征空间维数。(2)基因选择是从成千上万个基因中选择出几个、十几或几十个关键基因,而一般的特征选择是从十几个、几十个特征中选择出几个或者更多的特征。基因选择问题中候选基因数目远远大于所选基因数目,一般特征选择问题中候选特征数目与所选特征的数目差的不是太远。(3)基因选择中对分类器在所选基因子集上的分类推广能力要求更高。保证所选基因子集对疾病诊断有较高可靠性,避免对疾病误诊所带来的

3、沉重代价。基因选择不同于一般特征选择的特点给基因选择方面的研究带来了巨大的挑战。究竟选择多少个基因以及如何选择这些基因,到目前为止,还没有定论。不过,选择最少的基因达到最高的预测精度将是追求的目标.这样就可以使基因诊断、基因治疗、药物研制、药物筛选等更有针对性,用较低的诊断费用就能对疾病做出更迅速、更准确的判断。关键基因选择为基因诊断提供诊断基因作为依据,是基因诊断的前提,对基因选择方面的研究有深远的现实意义。1.3.2关键基因选择方法1.基于过滤法(filter)的基因选择方法过滤法是一种单基因选择方法,

4、主要考虑基因在不同类型样本中的表达差异,独立于最终用于预测分类的分类方法,1999年Golubll2J等人在分析白血病微阵列数据时提出了信噪比(s适nal.to.noiseratio)准则,至今,这一方法仍然被广泛使用。随后,研究人员开始将概率统计方法引入到差异基因的识别。比如2000年Arfin和Tanaka等人【13,14J提出使用T—statistic生成基因选择准则以用于基因表达数据的分析,在基于T.statistic的基因选择方法中,由于微阵列数据天生具有高噪声、高变异和小样本等不利因素,对基因表

5、达水平的均值与方差的简单计算往往是不准确和不可靠的。除了采用参数统计量作为基因选择准则外,由于非参数统计量通常不要求较强的假设条件。各种基于非参数统计的方法也被提出和应用。最具代表性的基于优化算法的基因选择与癌症分类非参数统计方法有Pan等人提出的混合模型方法、Efron等人提山的wilcoxon统计量方法和Yen等人提出相对墒基因选择方法等【15~17J。过滤法计算复杂度低,速度快,但是用过滤法进行选择特征的时候,由于不涉及特定的分类器,所以很难确定到底选择多少个特征组成的特征子集才是最优。另外,过滤法是

6、用一个评价准则对单个基因逐个评价,没有考虑到基因间的相互作用,因此它选择出的特征组合在一起对分类器的分类贡献需要去验证。由于与分类器的决策机制脱离,对给定的分类器,由过滤方法选择的特征不一定能使分类器达到最大的分类正确率。2.基于缠绕法(wrapper)的基因选择方法基于缠绕法的基因选择方法属于有监督机器学习方法。与过滤方法相比,特征基因选择的算法是作为一个围绕归纳算法的缠绕器,归纳算法既用来搜寻有效的特征基因子集,其本身又是特征基因的评价函数。从理论上讲,由于缠绕法方法采用基因的分类贡献率评价基因的重要性

7、,该方法能够提供比过滤方法更好的分类精度。因此,使用不同分类学习算法的缠绕法方法被提出并用于癌症关键基因的选择,比如Wang等人便比较和讨论了基于三种常用的分类器包括决策树、简单贝叶斯分类器和支持向量机的缠绕法方法【l引。而在基于Mapper的基因选择方法中,最为引人瞩目的是,2002年Guyon等人结合支持向量机和反复特征消除方法所提出的SVM.RFE方法【19l。该方法在白血病和结肠癌数据的应用中取得了良好的基因选择效果。然而,缠绕法方法的主要缺点是在基因的选择过程中需要反复的调用分类算法以评估基因的分

8、类性能,结果往往造成极高的计算量。比如当采用人工神经网络分类器时,这种缠绕法方法会变得几乎不可行。另一方面,缠绕法选择的特征对参与特征选择的分类算法有较大的依赖性,理论上说由于分类器算法的不一致性,使得基于不同的分类器选出的特征子集不一定适应于其他的分类器。因此,也需要考察缠绕法特征选择对不同分类算法的有效性(鲁棒性)。1.4本文研究主要内容与结构综上所述,在利用现有的机器学习方法分析基因表达数据时具有如下挑战:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。