欢迎来到天天文库
浏览记录
ID:53732806
大小:248.52 KB
页数:5页
时间:2020-04-20
《一种基于邻域不定性信息和记分准则相结合的肿瘤特征基因提取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、2014年1月安徽大学学报(自然科学版)January2014第38卷第1期JournalofAnhuiUniversity(NaturalScienceEdition)Vo1.38No.1doi:10.3969/j.issn.1000—2162.2014.01.013一种基于邻域不定性信息和记分准则相结合的肿瘤特征基因提取方法阚海俊,唐俊,苏亮亮(安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039)摘要:基于基因表达谱的特征基因提取方法已经成为当今研究肿瘤分子诊断的热点,该文中提出了一种基于邻域不定性信息与记分准则相结合的肿瘤特征
2、基因提取方法,该方法首先通过邻域不定性信息确定每个样本的邻域信息量,然后使用记分准则提取特征基因,最后利用KNN对样本进行分类.通过对白血病和弥漫性大B细胞淋巴瘤基因表达谱数据的特征选择,验证了该文方法的有效性和可靠性.关键词:邻域不确定性信息;记分准则;KNN;基因表达谱中图分类号:TP391文献标志码:A文章编号:1000—2162(2014)O1-0079-05AmethodforinformativegeneselectionusingneighborhooduncertaintyandscoringcriteriaKANHai-jun,
3、TANGJun,SULiang—liang(KeyLaboratoryofIntelligentComputingandSignalProcessing,MinistryofEducation,AnhuiUniversity,Hefei230039,China)Abstract:Geneselectionbasedongeneexpressionprofilehasbecomeahotspotindiagnosingcancercells.Anewalgorithmispresentedbyusingneighborhooduncertainty
4、andscoringcriteria.First,foreachsample,theneighborhooduncertaintyisusedtoproducereliableexpressionlevelsofthesampleinallsamples.Theinformativegenesarethenselectedbyusingscoringcriteriabasedontheobtainedreliableexpressionlevels.Finally,theclassificationexperimentsareconductedv
5、iathetechniqueofKNN.TheeffectivenessandfeasibilityoftheproposedalgorithmareverifiedthroughtheevaluationonleukemiadataandDLBCLdata.Keywords:neighborhooduncertainty;scoringcriteria;Knearestneighbors;geneexpressionprofiles随着基因芯片技术的发展,人们可以同时观测给定样本在一定实验条件下所有基因的表达水平,即基因表达谱.然而,面对如此巨
6、大的基因表达谱数据,如何从这些海量数据中提取有用的信息就成为一项具有挑战性的工作⋯.收稿日期:2013—08—14基金项目:国家自然科学基金资助项目(11071002,61172127);安徽省教育厅自然科学基金资助项目(KJ2011A008);安徽大学211工程学术创新团队资助项目作者简介:阚海俊(1988一),男,安徽合肥人,安徽大学硕士研究生;唐俊(通信作者),安徽大学副教授,硕士生导师,E-mail:tangjunahu@163.COB.80安徽大学学报(自然科学版)第38卷基因表达谱数据具有样本少、维数高、噪声大等特点,如果直接对肿瘤数
7、据进行处理通常达不到理想的效果.幸运的是,这个问题可以通过从原始数据中仅仅选择相关的特征或者提取本质的特征来解决.Golub等以“信噪比”指标为依据,采用加权投票法来过滤冗余基因.Kerr等提出一种基于基因表达谱数据的方差分析方法.Callow等采用统计量的方法去除冗余基因,达到选择特征基因的目的.Jose等利用可变Relife算法去除冗余基因.Lj等提出一种通过考虑不同样本标准偏差的改进型信噪比算法.Du等"提出一种改进型标准化信噪比方法,同年Zhu等针对基因表达谱数据的稀疏问题,引入熵模型.Yang等基于多准则融合提出了具有鲁棒性的特征基因选
8、择方法.Yu等。。通过样本对特征相关性的影响大小赋予样本权重,从而达到稳定的选择特征基因的目的.运用记分准则对一系列基因进行可靠性打分,
此文档下载收益归作者所有