肿瘤基因芯片数据聚类分析算法研究

肿瘤基因芯片数据聚类分析算法研究

ID:33671772

大小:14.08 MB

页数:47页

时间:2019-02-28

肿瘤基因芯片数据聚类分析算法研究_第1页
肿瘤基因芯片数据聚类分析算法研究_第2页
肿瘤基因芯片数据聚类分析算法研究_第3页
肿瘤基因芯片数据聚类分析算法研究_第4页
肿瘤基因芯片数据聚类分析算法研究_第5页
资源描述:

《肿瘤基因芯片数据聚类分析算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、肿瘤基因芯片数据聚类分析算法研究摘要生物信息的爆炸式增长吸引了大量科研人员加入到生物信息学研究领域中来,使得生物信息学很快成为全球关注与研究的焦点。基于基因表达谱的肿瘤检测方法有望成为临床医学上一种快速而有效的肿瘤分子诊断方法,但由于基因表达谱数据存在维数过高、样本量很小以及噪音非常大等特点,使得选择与肿瘤有关的信息基因或从基因表达谱中抽取肿瘤特征信息成为一项有挑战性的工作。正因如此,国内外专家学者对这个分类问题进行了广泛而深入的研究,发表了大量的研究论文。从基因表达谱的成千上万个基因中选择分类能力尽可能强而数量又尽可能少的信息基因子集极巨复杂性,通常情况下,在如此大的基因空间中进行穷尽搜

2、索是不可能的事情。因而,合适的聚类方法与分类器的选择是至关重要的。本论文中,我们在总结肿瘤聚类与分类研究成果的基础上,提出了新的肿瘤信息基因选择方法和基于基因表达谱的肿瘤聚类与分类模型,然后详细阐述了模型的关键环节及所采用的方法,最后对聚类与分类正确率与用传统方法的结果做了比较。本文主要作了以下研究工作:第一,对选择的信息基因数据集进行肿瘤的聚类分析。我们提出了利用独立分量分析算法(IndependentComponentAnalysis:ICA)进行信息基因的选择,然后将非负矩阵分解(Non.negativeMatrixFactorization:NMF)及其扩展算法—稀疏非负矩阵分解(

3、SparseNMF-SNMF)和具有稀疏约束的非负矩阵分解(NMFwithSparsenessConstraint:NMFSC)用于聚类分析。实验采用了三种肿瘤样本集验证了我们所用方法的可行性和有效性。第二,在用ICA提取特征基因的基础上,进一步利用顺序浮动前向选择算法(SequenfialFloatingForwardSelection:SFFS)来选择最具判别力的特征基因,然后将支持向量机(SupportVectorMachine:SVM)作为分类器进行肿瘤分类研究。我们也将这种方法用在三种肿瘤样本集上,通过与利用其它方法的结果对比,表明了算法有效性。本文最后指出了目前肿瘤分类研究存在

4、的一些问题以及今后需进一步开展的研究工作。关键词基因选择;聚类;肿瘤分类;独立分量分析;非负矩阵分解;支持向量机肿瘤基因芯片数据聚类分析算法研究Abs仃actTheexponentialgrowthofthecumulativebiologicalinformationhasattractedanumberofscientiststobeengagedonthestudyofbioinformaticswhichhasbecomethefocusofworld’Sattention。乃etumordiagnosismethodbasedongeneexpressionprofileswil

5、lbedevelopedintothefastandeffc:ctivemethodinclinicaldomaininthenearfuture.AlthoughDNAmicroarrayexperimentsprovideUS、析也hugeamountofgeneexpressiondata,onlyafewofgenesrelatetotumoramongthegeneexpressionprofiles.Moreover,itisachallengingtasktOextractfeatureorselectinformativegenesrelatedtotumorfromgen

6、eexpressionprofilesbecauseofitscharacteristicssuchasthehighdimensionality,thesmallsamplesetandmanynoisesandredundancyingeneexpressionprofdes.Therefore,themoleculardiagnosisoftumorhasbeenbroadlyanddeeplyinvestigatedandalargenumberofpapersrelatedtothisproblemalepublished.However,theaccurateclassific

7、ationoftunlorbyselectingthetumor-relatedgenesfromthousandsofgenesisadifficultytaskduetothelargenumberofredundantgenes,andusuallyitisimpossibletoapplyanexhaustivealgofithmtosearchinformativegenesubsetinsuchlargege

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。