dna序列分类模型

dna序列分类模型

ID:34624878

大小:1.47 MB

页数:43页

时间:2019-03-08

dna序列分类模型_第1页
dna序列分类模型_第2页
dna序列分类模型_第3页
dna序列分类模型_第4页
dna序列分类模型_第5页
资源描述:

《dna序列分类模型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要依据生物学知识,按照氨基酸分子中侧链基的极性性质,把碱基三联体分成五大类,即四大类氨基酸和终止码。以五类密码子出现的频率构成的特征向量来表征DNA序列。这是从不同序列中氨基酸含量不同提炼出能从碱基含量和碱基排列情况两方面代表序列特征的氨基酸类别信息的方法。’然后用三种统计方法进行分类。用马氏距离判别法和FISHER判别法对给定序列进行分类,样本回代正确率均达100%,二者分类一致率为90%;应用聚类分析方法对DNA序列片段进行分类,样本回代正确率达95%。本模型考虑结合生物学知识,特征向量维度较低,便于计算

2、,分类结果精度较高,优于仅基于碱基含量的判别分类模型。关键词:DNA序列;密码子;频率;判别分析;聚类分析AbstractAbstract:Accordingtonatureofpolarityoftheforkedchainofaminoacids,itdividesthebasetripletsintofivecategories,thatisfourkindsofaminoacidsandstopsignal.Bytheappearancefrequency5kindsofcodon,weextractC

3、haracteristicVectorforrepresentingDNAsequence.Baseonthedifferentcontentofdifferentaminoacids,theCharacteristicVectordisclosestheinformationofaminoacidsfromtwoaspectsofContentandarrangementofnucleotidebases.DNAsequencefragmentisclassifiedbyStatisticaltechniqu

4、estheory.DNAsequencefragmentisclassifiedbydiscriminatingclassificationtheoryofMahalanobisdistanceandFisherdiscriminantmethod.TheresultsshowedthatthepositiverateofverifiedsampleWas100%andtheconsistentrateWas90%.DNAsequencefragmentisclassifiedbyClustertheoryan

5、dthepositiverateofverifiedsamplewas95%.TheresultsshowthatitissimpletothearithmeticandprecisionofclassificationresultsfortheusingofthebiologyknowledgeandLowerdimensionCharacteristicvector.ItThismethodissuperiortomethodofdiscriminatingthatonlyconsideringbaseco

6、ntent.Keywords:DNAsequence;codon;frequency;discriminatingclassification;Cluster第一章导论1.1选题的目的和意义20世纪的90年代,在人类基因组计划的推动下,生物信息学迅猛发展。“海量”的DNA序列的数据被收集汇编在各种数据库中,如何来消化这些庞大的的数据,分析和理解这些DNA序列所表示的生物意义成了我们迫切的任务。所以,生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。这是一门运用数学、信息科学、计算机科学和系

7、统科学的理论与方法研究生命现象、分析和处理呈指数增长的生物学原始数据并进行加工、分析和建立计算模型的一门新兴学科。DNA分类问题也是生物信息学的一个重要问题,在医学、生命科学、食品学等多方面都有着十分重要的意义和价值。DNA分类问题很早就有提出。1999年Wang⋯等人提出了两种对DNA分类的生物技术。之后,也有很多学者提出一些DNA分类的方法。但是当时DNA分类的领域只是限于生物医学领域,很少有其他学科的学者问津。DNA分类研究的数学解决途径长期以来一直被学术界所忽视。恩格斯曾说:数学在一门科学中应用的程度,

8、标志着这门科学成熟的程度。2000年全国大学生数学建模竞赛A题DNA分类问题,为从数学的角度解读人类基因图谱提供了一种思路。这道建模题的提出,打开了一座“百花园”的大门,呈现了丰富多彩的解决DNA分类的数学方法。常见的方法有比01]BP网络,支持向量机,遗传算法,判别分析法和聚类分析法等人工智能的算法或统计方法。值得一提的是,2000年大学生建模A题DNA的分类问题中给出的40个人工序

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。