资源描述:
《基于支持向量机的肿瘤分类特征基因选取.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、计算机研究与发展ISSN100021239/CN1121777/TPJournalofComputerResearchandDevelopment42(10):1796~1801,2005基于支持向量机的肿瘤分类特征基因选取李颖新 阮晓钢(北京工业大学电子信息与控制工程学院 北京 100022)(lyxboy@sina1com)FeatureSelectionforCancerClassificationBasedonSupportVectorMachineLiYingxinandRuanXiaogang(SchoolofElec
2、tronicInformationandControlEngineering,BeijingUniversityofTechnology,Beijing100022)AbstractFeatureselectionisanessentialsteptoperformcancerclassificationwithDNAmicroarrays,fortherearealargenumberofgenesfromwhichtopredictclassesandarelativelysmallnumberofsamples1Thiswork
3、addressestheproblemofselectionofasmallsubsetofgenesforclassificationfrombroadpatternsofgeneexpressionprofilesbyproposingatwo2stepfeatureselectionmethod1Thefirststepusesanewmet2ricproposedinthispaperasthecriteriaforclassseparabilitytoremovethegenesirrelevanttotheclassifi
4、ca2tiontask,andthenasupportvectormachinewithradialbasisfunctionkernelisappliedtovalidatetheclas2sificationperformanceofthegenesselectedfordistinguishingdifferenttissuetypes1Thesecondstepfiltersouttheredundantgenesbythesensitivityanalysisbasedonthesupportvectormachinecla
5、ssifierafterpair2wiseredundancyanalysis1Thetwostepsareappliedtothegeneexpressionprofilesofhumanacuteleukemi2a,andabetterandmorecompactgenesubsetisobtainedincontrastwiththebaselinemethod,whichshowsthefeasibilityandeffectivenessofthemethodproposed1Keywordsfeatureselection
6、;supportvectormachine;geneexpressionprofiles;cancer摘 要 依据基因表达谱有效建立肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因1针对该问题,在分析肿瘤基因表达谱特征的基础上,研究了肿瘤分类特征基因选取问题1首先,提出了一种新的类别可分性判据以滤除分类无关基因,并采用支持向量机作为分类器进行特征基因分类性能的检验1然后,采用两两冗余分析及基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除1以急性白血病亚型分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性1关
7、键词 特征选取;支持向量机;基因表达谱;肿瘤中图法分类号 TP39114;TP181;Q617[1]成千上万个基因的表达水平1依据DNA芯片测1 引 言定的基因表达谱建立有效的分类模型,在分子水平上实现对肿瘤类型及亚型的准确识别对肿瘤的诊断[2,3]随着大规模基因表达谱技术的推广,人们利用和治疗具有重要意义1然而,数据集中的每个样DNA芯片可以在一次实验中同时获得组织样本中本都记录了组织样本中所有可测基因的表达水平,收稿日期:2004-04-28;修回日期:2005-01-11基金项目:国家自然科学基金重点项目(60234020)李
8、颖新等:基于支持向量机的肿瘤分类特征基因选取1797而实际上只有少数基因才真正同样本类别相关1如测基因的表达水平1然而只有少数基因才包含了样何发现对样本分类而言至关重要的一组基因作为样本具体的类别信息,大部分基因与样本类