基因芯片的数据分析

基因芯片的数据分析

ID:33175411

大小:2.31 MB

页数:84页

时间:2019-02-21

基因芯片的数据分析_第1页
基因芯片的数据分析_第2页
基因芯片的数据分析_第3页
基因芯片的数据分析_第4页
基因芯片的数据分析_第5页
资源描述:

《基因芯片的数据分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、。?J!I766915分类号:UDC密级:编号:0313508038硕士学位论文基因芯片的数据分析学位申请人王江导师姓名及职称戴宪华教授软件工程二00五年五月卅L日跨幽基因芯片的数据分析专业:软件工程姓名:王江导师:戴宪华教授摘要本篇论文研究的方向属于生物信息学的范畴,主要以计算机为工具对生物信息即eDNA数据进行储存、检索、表达聚类和分析。具体来说,主要运用数据挖掘算法对cDNA基因表达数据进行聚类分析,确定具有相似表达模式的基因。本文阐述了有关基因、基因芯片的相关概念以及数据聚类的相关算法,如K一均值、主成分分析(PCA)、层次聚类等。本文运用matlab7.0语言对NCB

2、I的基因表达综合数据库系统(GEO)中的数据进行聚类分析,数据分析采用先用PC^降维方法得出大致数据分布图,即观测出大致的聚类数,然后再用K一均值对其进行细化,可以克服单一采用K一均值时盲目输入初始K值的缺点,可以得到良好的聚类效果。本文还通过求出层次聚类的结果与k一均值算法的不同k值产生的结果的交集,并对其有效性进行了检验。本文还论述了双聚类的基本原理,并编制相关算法,并对双聚类算法作了一些改进,如可视化其输出结果、对整个矩阵求出的相关性最大的子矩阵之后,再对其进行过滤与清除,如清除与均值相差比较大的点,这样可以去掉一些孤立点,得到良好的聚类效果。本文对不同实验条件下酵母菌的

3、基因芯片数据进行双聚类分析,并得出了有效的聚类结果。在双聚类有效性验证方面,采用逐个去除每个条件,看其聚类效果的变化来判断其是否强壮,最后通过实例对双聚类的有效性进行了实例分析。关键词:基因芯片、数据挖掘、聚类算法、双聚类基因芯片的数据分析AbstractComputationalAnalysisofMicroarrayDataMajor:SoftwareEngineeringName:WangJiangSupervisors:ProfessorDaiXianHuaAbstractTheresearchorientationofthispaperbelongstobioinfo

4、rmaticsfield,whichmainlydeaiswithbiologicalinformation,namely,eDNAdata,byusingcomputertechnoiogytosave,search,clusterandanalyse.Concretely,weanalysegeneexpressiondataofeDNAbyusingdataminingalgorithmtoconfirmthegeneswhichhavethesimilarexpressionpattern.Thepaperdescribestherelevantconceptionso

5、fgeneandgenechips,italsoproposestherelevantdataclusteringalgorithm,suchas,K-means,PCA,hierarchicalcluster,etc.Inthispaper,1proposeaalgorithmwhichiswritteninmatlab7.0toanalysetheGEOdataofNCBI,thealgorithmisdescribedasfollows:firstly,usingthemethodofPCAtoroughlyfigureoutdatadistrmutionmap,i.e.

6、gettheroughlyclusteringnumber,afterwards,usingtheK-meansmethodtogetmoredeailsinclusteringnumber.ThisalgorithmcanoverconletheshortcomingbroughtbytheonlyK-meanswithblindvalueofKthus,itcanbringaboutbetterresults.ThoughtheintersectionbytheresultsbroughtaboutbythehierarchicalclusterandtheresuRsbr

7、oughtaboutbytheK-meanswithdifferentvalueofkclustervaHdationwastested.Thepaperalsodealswiththebasicprinciplesofbiclustering,and,therelevantprogramwaswritteninmatlab7.0.Furthermore,thealgorithmwasimproved,suchas,visualizingtheresuits,thelargestcorrel

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。