基因识别问题及其算法实现56663

基因识别问题及其算法实现56663

ID:30788661

大小:290.95 KB

页数:11页

时间:2019-01-03

基因识别问题及其算法实现56663_第1页
基因识别问题及其算法实现56663_第2页
基因识别问题及其算法实现56663_第3页
基因识别问题及其算法实现56663_第4页
基因识别问题及其算法实现56663_第5页
资源描述:

《基因识别问题及其算法实现56663》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基因识别问题及其算法实现背景介绍DNA是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleicacid,缩写为DNA)cDNA分了是一种氏链聚合物,DNA序列由腺嚓吟^Adenine,A),鸟瞟吟(Guanin匕G),胞懈定(Cytosine,C),胸腺口密碇(.Thymine,T)这四种核昔酸{nucleotide)符号按—定的顺序连接而成。其中带冇遗传讯息的DNA片段称为棊因(Gene)(见图1第一行)。其他的DMA序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。在真核生物的QNA序列中,基因通常被

2、划分为许多间隔的片段(见图1第二行),其小编码蛋白质的部分,即编码序列(CodingSequent)片段,称为外显了(Exon),不编码的部分称为内含了(Imron)。外显了在DNA序列剪接(Splicing)示仍然会被保存下来,并可在DNA序歹I」外显子(Ewn)内含子(Intron)图1真核生物DNA序列(基因序列)结构示意图DNA丿予列基因(Gene)图2蛋白质结构示意图蛋白质合成过程中被转录{transcription^.复制{replication)而合成为蛋白质(见图2)。DNA序列通过遗传编码來储存信息,指导蛋口质的合成,把遗传信息

3、准确无误地传递到蛋白质(protein)上去并实现各种生命功能。蛋白质序列对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(WalterGilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。”随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从人最的DNA序

4、列屮获取丰富的生物信息,对牛物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一•个研究热点。二、数字序列映射与频谱3•周期性:对给定的DNA序列,怎么去识别岀其屮的编码序列(即外显了),也称为基因预测,是一个尚未完全解决的问题,也是当前牛•物信息学的一个最基础、最首要的问题。基因预测问题的一类方法是基于统计学的山。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站http://genes.mit.edu/GENSCAN.html提供的基因识别软件GENSCAN(III斯坦福大学研究人员研发的、可免费

5、使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组屮有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。因此在目前基因预测研究中,采用信号处理与分析方法來发现基因编码序列也受到广泛重视⑷。1.数字序列映射在DVA序列研究屮,首先需要把4、T、G、C四种核廿酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。令/={A,7G

6、,C},长度(即核廿酸符号个数,又称碱基对(BasePair)长度,单位记为切)为N的任意DVA序列,可表达为S={S[n]IS[n]gZ,〃=0,1,2,・・・N—1}即A、T、G、C的符号序列S:S[0],S[l],…,S[N—1]。现对于任意确定的fee/,令S[n]=bS[n]^b称之为映射⑸,于是牛成相应的0-1序列(即二进制序列)[uh[n]}:®[0],坷[1],…,,例如,假设给定的一段DNA序列片段为S=ATCGTACTG,贝9所牛•成的四个0-1序列分别为:[uA[n]}:{1,0,0,0,0,1,0,0,0};{〜[〃]}:

7、{0,0,0,1,0,0,0,0,1};{%[切}:{0,0,1,0,0,0,1,0,0};[uT[n]}:{0,1,0,0,1,0,0,1,0}。这样产生的四个数字序列又称为DNA序列的指示序列(indicatorSequence)o1.频谱3■周期性为研究DVA编码序列(外显了)的特性,对指示序列分别做离散斤〃加纣变换(DFQN-_j2mk如幻=2>山]厂右,k=0,l,・・・,N-l(I)7?=0以此可得到四个长度均为N的复数序列{Ub[k]}f处八计算每个复序列{Ub[k]}的平方功率谱,并相加则得到整个DNA序列S的功率谱序列[P[k

8、]}:P[幻=

9、匕[幻『+也[幻『+氏伙『+PcW『,R=0,l,・・・N_l(2)对于同一段DNA序列,其外显子与内含子序列片段的功率

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。