基因序列图形表达及聚类分析应用研究

基因序列图形表达及聚类分析应用研究

ID:33612642

大小:1.07 MB

页数:71页

时间:2019-02-27

基因序列图形表达及聚类分析应用研究_第1页
基因序列图形表达及聚类分析应用研究_第2页
基因序列图形表达及聚类分析应用研究_第3页
基因序列图形表达及聚类分析应用研究_第4页
基因序列图形表达及聚类分析应用研究_第5页
资源描述:

《基因序列图形表达及聚类分析应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、湖南大学硕士学位论文基因序列图形表达及聚类分析应用研究姓名:周迎春申请学位级别:硕士专业:计算机应用技术指导教师:骆嘉伟20070618硕士学位论文摘要随着生物信息学和医学的迅速发展,以及各种生物的基因和蛋白质的研究,产生了越来越多的庞大的生物基因序列数据通过分析这些序列数据可以获得对人类有益的有关生物结构和功能的信息。数据挖掘技术尤其是聚类分析技术是基因序列分析的一种重要的手段,本文着重研究基因序列图形表达和基于图形表达的基因序列的聚类技术分析与应用。本文提出了一种基于生物学特征的非退化3-D图形表达方法,利用此图形表达来表征基因序列不仅使原始序列的生物学特征

2、得以保留,而且还克服了图形的非退化现象。在建立基因序列矩阵过程中引入了几何中心,采用矩阵的最大特征值不变量来表征原始基因序列。在基因序列图形表达数据聚类分析中,本文提出一种基于多维伪F统计量的动态模糊K-均值聚类分析方法。该聚类分析方法能保证最终类内散步矩阵之迹达到最小,把多维空间的数据有效的分为具有特定数目的不同的类,给出最佳聚类个数。利用文中基因序列图形表达建立H5N1病毒基因序列图形表达数据对本文聚类分析方法进行验证,结果表明该聚类分析方法具有较好的合理性。在BIRCH聚类算法分析研究中,详细分析讨论了BIRCH算法中存在的不足,并针对其不足进行一定的改进,

3、提出了一种基于离差平方和的改进多阀值BIRCH算法,充分利用离差平方和来建立簇与簇的相关性,相对于单纯以簇之间的中心距离来建立相关性有一定的改进,同时在分裂因子的确定上采用了簇中直径的最大值,克服因采用经验值确定分裂因子的缺陷。最后,引入到基因序列图形表达数据聚类分析应用中。关键词:基因序列;图形表达;伪F统计量;模糊聚类;BIRCH算法II基因序列图形表达及聚类分析应用研究AbstractTherapiddevelopmentofBiologyandtheresearchonproteinsequences,moreandmoremolecularsequenc

4、esdatahavebeengenerated.Wecangainsomeinformationaboutbiologystructureandfunctionbyanalyzingthesedata.Bioinformaticsismainlydealwithcomplexcomputationsinvolvinggenesequences,proteinsequencesbymathematicsandcomputerscience.Thetechnologyofdatamining,especiallytheclusteringisanimportantme

5、anstoanalyzegenesequences.Thispaperemphasizesonresearchinggenesequencegraphicalrepresentationandtheapplicationofclusteringtechnologybasedonthegraphicalrepresentation.Inthispaper,anovel3-Dgraphicalrepresentationwithno-degenerationispresented.Thenew3-Dgraphicalhasthevirtueofavoidingtheo

6、verlaporcrosswithoutlosingbiologicalinformationandcontainingthemainlybiologicalcharacteristicsoftheoriginalitysequence.Inordertoconstructthesequencematrix,thegeometricalcenterisintroduced.Thegenesequenceisdeclaredbythemaxeigenvalueofgenesequencematrix.Theclusteringtechnologyanalyzingo

7、nthegenesequencegraphicalrepresentationdataistheprimarycontent.inthispaper,WeintroducefakeF-statisticandproposeadynamicFuzzyK-meansclusteringanalysistechnology,thisclusteringtechnologycanensurealestinner-clusterdispersematrixtraceoffinalclusteringresultandpartitionthepointsinmulti-dim

8、ensio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。