欢迎来到天天文库
浏览记录
ID:33463047
大小:2.49 MB
页数:76页
时间:2019-02-26
《基于聚类分析的基因表达差异筛选方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中南大学硕士学位论文基于聚类分析的基因表达差异筛选方法研究姓名:熊芳申请学位级别:硕士专业:计算机技术指导教师:肖大光;阳菊华20070501摘要人类基因组计划的顺利完成标志着生命科学的研究进入了后基因组时代。科学家的研究重点转向了从大规模生物数据中发掘蕴含的结构和功能信息。基因表达系列分析(sAGE)微阵列和基因芯片等技术的运用使得研究者可以同时观察成千上万条基因在某个生命过程中的表达情况,己经成为了生物信息学研究的一个重要方向。如何利用计算机科学中的分析技术,从海量基因表达数据中筛选出对了解生命过程有指导意义的信息成为当
2、前生物信息学研究的新课题。聚类分析是在分析基因表达数据时最常使用的方法之一。具有相似表达特征的基因能够被聚到一起,提示这些基因具有相近的生物学功能。我们对基于CF树的两种BIRCH算法进行了分析和研究,发现其有两点不足,一是采用统一阈值形成多个簇,二是不能发现不规则形状的簇。本文提出了一种基于多代表点的特征树,它基于BIRCH算法的思想,融人了CURE算法的优点,可以对海量的聚类数据进行压缩,并且能够捕捉复杂形状的簇。利用该数据结构,采用随机采样的方法,提出了一个适合的处理数据的聚类算法,该算法能够满足上述聚类算法的要求,有
3、效地快速地处理海量数据。并从定量和定性两方面分析了改进算法。同时,文中也介绍了我们基于扩展的cF树的聚类软件系统实现,并运行了实例,应用于胃癌SAGE文库,有效而快速的筛选出肿瘤差异表达基因。筛选出的胃癌差异表达基因可指导后续分子生物学实验研究,验证后有望成为新的胃癌分子靶标。通过对筛选出的EST进行进一步生物信息学分析和分子生物学实验,有望克隆新的胃癌相关基因。关键词生物信息学,基因表达序列分析,聚类算法,扩展CF-树Abs仃actWiththeaccomplishmentofHumanGenomeProject,theb
4、iologicalresearchcomestothenewpostogenomeera.ScientistsnOWfocusonexploringgenomestructuresandfunctionsfrombiologicaldata.Serialanalysisofgeneexpression(SAGE),DNAmicro-arrayandgenechiptechnologyhavenowmadeitpossibletosimultaneouslymonitortheexpressionlevelsofthousan
5、dsofgenesduringbiologicalprocesses,Andserialanalysisofgeneexpression(SAGE)hasbecomeaveryimportantbranchofbioinformaticsresearch.Howtousetheanalysistechnologiesofcomputersciencetoanalysisthemillionsdataanddiscovertheusefulandinstructiveknowledgeofbiologicalexperimen
6、tisattractingmoreandmoreattentionsfortheinformationbiology.ClusteringanalysisiSthefrequentmethodtoanalysisthegeneexpressiondata.GeneswithsimilarexpressionparentsCanbeclusteredtogether谢msimilarfunctions,allofthemhavetheclosebiologyfunction.Throughmassiveanalysesandr
7、esearch,wefindthetwoofBIRCH-clusteringarithmeticbasedonCF—treehavetheirshortcomingseach,oneusesthesamethresholdtoshapemulti-cluster,andtheotherCan’tfindanomalouscluster.Thispaperpresentsmulti-representativepointsalgorithmbaseOilthefeaturetree,thealgorithmbasedOilth
8、eideaofBmCHalgorithm,addadvantageoftheCUREalgorithm,itCancompressmassiveclusteringdata,andCancapturethecomplexshapesoftheclusters.Usethedatastruc
此文档下载收益归作者所有