基因识别问题及其算法实现

基因识别问题及其算法实现

ID:18338693

大小:274.75 KB

页数:9页

时间:2018-09-16

基因识别问题及其算法实现_第1页
基因识别问题及其算法实现_第2页
基因识别问题及其算法实现_第3页
基因识别问题及其算法实现_第4页
基因识别问题及其算法实现_第5页
资源描述:

《基因识别问题及其算法实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基因识别问题及其算法实现一、背景介绍DNA是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleicacid,缩写为DNA)。DNA分子是一种长链聚合物,DNA序列由腺嘌呤(Adenine,A),鸟嘌呤(Guanine,G),胞嘧啶(Cytosine,C),胸腺嘧啶(Thymine,T)这四种核苷酸(nucleotide)符号按一定的顺序连接而成。其中带有遗传讯息的DNA片段称为基因(Gene)(见图1第一行)。其他的DNA序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。在真核生物的DNA序列中,基因通常

2、被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(CodingSequence)片段,称为外显子(Exon),不编码的部分称为内含子(Intron)。外显子在DNA序列剪接(Splicing)后仍然会被保存下来,并可在基因(Gene)DNA序列外显子(Exon)内含子(Intron)图1真核生物DNA序列(基因序列)结构示意图蛋白质合成过程中被转录(transcription)、复制(replication)而合成为蛋白质(见图2)。DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(pr

3、otein)上去并实现各种生命功能。基因(Gene)DNA序列剪接、转录、复制蛋白质序列图2蛋白质结构示意图对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(WalterGilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。”随着世界人类基因组工程计划的顺利完成,通

4、过物理或数学的方法从大量的DNA序列中获取9丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。二、数字序列映射与频谱3-周期性:对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站http://genes.mit.edu/GENSCAN.html提供的基因识别软件GENSCAN(由

5、斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视[4]。1.数字序列映射在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便

6、于对其作数字处理。令,长度(即核苷酸符号个数,又称碱基对(BasePair)长度,单位记为bp)为N的任意DNA序列,可表达为即A、T、G、C的符号序列:。现对于任意确定的,令,称之为Voss映射[5],于是生成相应的0-1序列(即二进制序列):,()。例如,假设给定的一段DNA序列片段为S=ATCGTACTG,则所生成的四个0-1序列分别为:9:;:;:;:。这样产生的四个数字序列又称为DNA序列的指示序列(indicatorSequence)。2.频谱3-周期性为研究DNA编码序列(外显子)的特性,对指示序列分别做离散Fourier变换(DF

7、T)(1)以此可得到四个长度均为N的复数序列,。计算每个复序列的平方功率谱,并相加则得到整个DNA序列的功率谱序列:(2)对于同一段DNA序列,其外显子与内含子序列片段的功率谱通常表现出不同的特性图3编号为BK006948.2的酵母基因DNA序列的功率谱(因为对称性,实际这里只给出了功率谱图的一半)。(a)上图是基因上一段外显子(区间为[81787,82920],长1134bp)对应的指示序列映射的功率谱,它具有3-周期性;(b)下图是基因上一段内含子(区间为[96361,97551],长1191bp)的指示序列的功率谱,它不具有3-周期性。可以

8、看到:外显子序列的功率谱曲线在频率处,具有较大的频谱峰值(PeakValue),而内含子则没有类似的峰值。这种统计现象被称为碱基的3-周

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。