资源描述:
《遗传密码和DNA序列的高维空间数字编码[1]》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、生物物理学报第十六卷第四期二○○○年十二月ACTABIOPHYSICASINICAVol.16No.4Dec.2000遗传密码和DNA序列的高维空间数字编码12311陈惟昌,陈志华,陈志义,王自强,邱红霞(1.中日友好临床医学研究所生物物理研究室,北京100029;2.中日友好临床医学研究所生物化学与分子生物学研究室,北京100029;3.中国科学院自动化研究所国家模式识别实验室,北京100080)摘要:二进制数字化编码是信息科学最基本的编码方式。用0(00)、1(01)、2(10)和3(11)4个数码对4种碱基(C、T、A、G)进行二进制数字编码,共有24种可能的
2、编码组合,其中8种满足碱基互补法则,它们是拓扑等价的。按碱基分子量大小排列的编码格式:0123/CTAG是最理想的编码格式。用二进制数对DNA的字符序列进行编码,有以下优点:1)压缩信息冗余度,提高编码效率;2)可以对碱基的结构、功能基团、碱基互补、氢键强弱等性质进行编码;3)DNA序列的数字编码具有严格的大小顺序,即具有全序性质;4)DNA数字编码的对称性程度,与遗传密码简并度的对称性一致,并可得出氨基酸遗传密码的高维空间连通性简并法则;5)可以方便求出任意碱基重复单元的重复系列的数字编码法则;6)根据高维空间汉明编码距离的定义,可以确定任意多个DNA序列之间的信
3、息距离和它们的交空间和并空间,对DNA序列生物信息学的分析研究有重要意义;7)DNA序列的数字编码可以方便进行各种数学运算和逻辑运算,对促进DNA生物计算机的发展,可有重大推动作用。关键词:数字编码;DNA序列;遗传密码;高维空间;汉明距离;生物计算机中图分类号:Q617文献标识码:A文章编号:1000-6737(2000)04-0760-091DNA序列数字化编码的生物信息学意义DNA序列是生物遗传信息的载体。人类基因组计划已基本完成。DNA序列的数据库已经积累了数十亿年以来生物进化的大量数据资料,破译这些DNA序列密码的生物学意义,弄清DNA序列与生物进化,细胞
4、功能,遗传机理和疾病发生的关系,已是目前生物信息论学家和数[1]学家的迫切而艰巨的任务。在分析DNA序列的过程中,对DNA序列进行数字化编码具有十分重要的意义。数字化是当前信息革命的主要趋势。在信息论中已经知道,信息的最基本的编码方式是二进制数字编码(binarydigitalcoding),即每一种事件,都可以用0或1状态以及0与1的组合状态进行编码表示。数字编码的优点是简单明了,便于存储和查询,便于进行数值运算和数据处理。因此将大量的分子生物学数据转化为数字生物学(digitalbiology),将是生物学发展的必然趋势。目前DNA序列编码仍然采用T、C、A、G
5、4个字母对胸腺嘧啶、胞嘧啶、腺嘌呤和鸟嘌呤收稿日期:2000-03-16基金项目:国家自然科学基金资助项目作者简介:陈惟昌,研究员,电话:010-64221122-4434,E-mail:chenwch@mail.east.net.cn.©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第4期遗传密码和DNA序列的高维空间数字编码7614种碱基进行字符编码,因而还不是最基本意义上的编码。应用0(00)、1(01)、2(10)、3(11)4个数字对DNA的4种碱基进行编码,有以下优点:⑴.数字
6、码比字符码更加简单和基本;⑵.每个碱基的字符编码占用8个比特,而碱基的数字编码只占用2个比特,故此数字编码可以压缩信息冗余度,压缩存储空间,提高编码效率4倍;⑶.数字编码可以表示碱基的各种特性,如嘌呤与嘧啶,氨基与酮基,碱基互补,强氢键结合与弱氢键结合等,而且均有特定的规则可循,而碱基的字符码并不显含这些规则;⑷.数字编码具有严格的大小顺序,即具有全序性质。所以不同的DNA序列的数码亦可以按数字大小的顺序进行排序;⑸.DNA序列的数字编码可以方便地进行数学运算,如用按位加运算可比较两个DNA序列的不同,可以进行互补运算,[2]可以进行序列排对(sequenceali
7、gment),还可以对DNA数码序列进行傅立叶变换,Walsh变换,马尔可夫链转移概率分析等数学运算;⑹.由K个碱基组成的DNA系列共有2K个比特(位)的数码,它是N=2K维空间的一个点。应用高维空间的交运算和并运算,可以得到多个DNA数码序列的交空间和并空间,对分析不同DNA序列的相互关系,有重要意义。2碱基数字编码的各种格式2.1碱基数字编码的可能组合。DNA序列,由C、T、A、G四种碱基排列而成。因此对4种碱基进行数字编码,可用0(00)、1(01)、2(10)和3(11)4个数字对4种碱基进行编码。这种编码格式共有4!=24种编码方式的组合。但由于在二进