聚类算法分析在基因表达数据中的分析应用

聚类算法分析在基因表达数据中的分析应用

ID:36468001

大小:2.42 MB

页数:55页

时间:2019-05-10

聚类算法分析在基因表达数据中的分析应用_第1页
聚类算法分析在基因表达数据中的分析应用_第2页
聚类算法分析在基因表达数据中的分析应用_第3页
聚类算法分析在基因表达数据中的分析应用_第4页
聚类算法分析在基因表达数据中的分析应用_第5页
资源描述:

《聚类算法分析在基因表达数据中的分析应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、江苏科技大学硕士学位论文论文题目聚类算法分析在基因表达数据中的分析应用研究方向数据挖掘学科、专业计算机应用技术研究生姓名孙杰导师姓名吴陈填表时间2012年3月22日摘要摘要随着人类基因组计划的发展,衍生出数以万计的基因和海量级增长的基因序列数据,但是数据并不等于信息知识,却是知识信息的来源。如何从大量的基因表达数据中利用自动分析工具得到有用的知识是目前主要面临的问题,所以数据的分析方法和工具的开发越来越受到重视。数据挖掘技术已经被广泛的应用到基因表达谱的许多方面,并取得相当的成功。数据挖掘就是从大量的实际应用数据库

2、中提取有用的信息知识,这些知识具有隐藏性、潜在性、未知性。数据挖掘作为一门新型的技术,为生物学家分析数据提供了有效的方法和工具,为基因表达数据分析提供了强有力的手段。数据挖掘方法和工具包括分类与预测、聚类分析、关联分析、序列分析及时间分析、孤立点分析等等。聚类分析作为一种有效的数据分析工具,已广泛地应用于图像处理、信息检索、数据挖掘等领域。利用聚类算法来分析基因表达数据的一个最主要的原因是基因表达数据数目的庞大,而且在生物学知识里具有已知功能基因的数目相对还是很少。聚类分析是指将一组样本依据其相互之间的相似程度归入

3、几个子类中去,根本思想是确定类群,使同一类内的各个体间差异最小,而不同类间的差距最大。本文中介绍了聚类算法的相似性度量准则欧式距离和Pearson相关系数两种参数以及提出一种比例相似性度量准则。同时介绍了外部确定和内部确定两种聚类有效性评价。本文中的聚类算法选用了层次聚类、K均值聚类、自组织映射聚类三种经典算法。层次聚类根据不同类中的相似度准则分为四种不同的连接聚类,然后讨论在两种相似度下的四种层次聚类的有效性的比较。不同的实验迭代次数,在欧式距离下K均值聚类、自组织映射聚类的基因聚类的正确率以及其中较好的一次的聚

4、类的有效性。比较三种算法优缺点提出来一种基于层次聚类和自组织映射聚类的改进算法,根据实验相关数据得出改进算法在某一些程度上的克服原来方法的缺陷,使得体现了改进算法的优点。关键词基因表达数据;数据挖掘;聚类分析;有效性I江苏科技大学工学硕士学位论文IIAbstractAbstractWiththedevelopmentofhumangenomeproject,tensofthousandsofgenesandmassivegrowthgenesequencedataarederived.Butthedatadoesn

5、otequalinformationknowledge,isthesourceofinformationknowledge.Howtogetusefulknowledgefromthelargeamountofgeneexpressiondatausingautomaticanalysistoolssothedataanalysismethodsandtoolshavebeenpaidmoreandmoreattention.Dataminingtechnologyhasbeenwidelyappliedtogen

6、eexpressionprofilinginmanyaspects,andachievedconsiderablesuccesses.Dataminingextractsusefulinformationknowledgefromalargenumberofpracticalapplicationsofdatabase,whichisthehidden,unknownandpotential.Asanewtechnology,dataminingprovidesaneffectivemethodandtooltoa

7、nalyzedataforbiologistsandapowerfulmeansofgeneexpressiondataanalysis.Methodsandtoolsofdataminingincludetheclassificationandprediction,clusteringanalysis,associationanalysis,sequenceanalysisandtimeanalysis,outlieranalysisetc.Asakindofeffectivedataanalysistools,

8、clusteranalysishasbeenwidelyappliedinimageprocessing,informationretrieval,dataminingandotherfields.Thehugeamountofgeneexpressiondataisoneofthemostmainreasonsofusingclusteringalgori

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。