基因四进制的理论序列与实际序列的特性比对

基因四进制的理论序列与实际序列的特性比对

ID:9882115

大小:264.50 KB

页数:7页

时间:2018-05-13

基因四进制的理论序列与实际序列的特性比对_第1页
基因四进制的理论序列与实际序列的特性比对_第2页
基因四进制的理论序列与实际序列的特性比对_第3页
基因四进制的理论序列与实际序列的特性比对_第4页
基因四进制的理论序列与实际序列的特性比对_第5页
资源描述:

《基因四进制的理论序列与实际序列的特性比对》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基因四进制的理论序列与实际序列的特性比对邓宇(清华大学第一附属医院)基因组的试验研究异常火热,基因组的序列分析、算法、数据库的扩容如火如荼,理论基因组的发轫,星火正开始悄悄燃起。我们用类似语言学中对词频分布的研究方式,对基因碱基理论序列与实际序列进行了初步比较,想看看基因这本大书中,不同碱基符、碱基词组各有多少个?以及占总基因谱的比例,即分布。“基因四进制”[1]可以为碱基词的理论生成,及有规律的符号、词组序列提供比较的理论基础。比如,看看第一位碱基符A在基因组中有多少个,也可以看看二位基因词,如TC,

2、GA;三位碱基(词)组CTG,AAG等各有多少,各占比例,从而揭示基因词的存在及词法,语法规律。为生命基因组的伟大探索加把油、吹鼓风,用“新信息理论”[2-8](信息守恒律,信息的运算,信息的化学反应等新广义信息论,基因序列的正弦、余弦曲线拟合),理论基因学、理论生物信息学的基因数字实验、计算机试验,计算机数字模拟开辟基因-生命信息学研究的新天地。基因的理论实验数字、实验计算,理论基因组与实际基因组的结合,以计算机为实验仪器,碱基数字为实验原料,基因进位制为根基,将为基因的理论试验探索和发展开拓新途径。

3、一、材料方法1、核酸序列的来源:从Genbank,ENBL的核苷酸序列数据库EMBL-Bank下载:AY644963、BC011974等核酸序列,碱基合计6万多个的实际序列作为比对的原始基因库来源。2、方法的理论基础——基因四进制:根据我们建立的基因四进制[1],利用碱基、核酸的四个基符A,G,T,C(个位、第一位)为元素,及“逢四进一”规则,创造了基因,核酸的四进位制符号系统。该基因的理论进位系统的第一位、个位有4个符号元:A,G,T,C;第二位(相当于十进制的十位)有4×4=16个组员,AA,AG,

4、AT,AC,GA,GG,GT,GC,TA,TG,TT,TC,CA,CG,CT,CC;第三位有43=64个成员,AAA,AAG,…,CCC;第四位有44=256个成员;…;第n位有4n个成员AA…A,AA…G,…,CC…C。构造出了理论的或人工基因四进制系统,对基因实验和理论研究开辟了一条新路。3、验证思路策略:利用“基因四进制”理论模型,寻找碱基排布规律,解读基因密码锁匙。核酸生命的语言,遣词造句的“全息规则”。4、验证方法首先,用(数据库)程序生成四进制的基因符号系列,第一位,第二位,第三位,第四位,

5、…,第n位。再将每位的每一个成员与基因数据库的碱基序列作对比。如用“GTC”从基因序列AY644963、BC011974等的开头开始,搜索“GTC”,在序列中若发现“GTC”就计个数,定个位,一直搜到序列的结尾,合计包含“GTC”的总数量,待分析。其他组元,检索统计类似,都做全程搜索,记数。手工搜索太慢几乎不可能,故不适合。半手工半机器的搜索还是慢,自编程序的数字自动搜索计数才是上佳方法。二、结果1核酸A、G、T、C及其四进位制系统,各位频度的分布与理论值相比是不均匀、非平均的,即非遍历的,见表1及图1

6、-9。2随着位数的增加,各基因符(类似数系的数字符号)差异(极差和极差度)逐渐增大。3基因四进制系统中,各位的频度分布,从大到小的排列分布多是横“S”形的曲线,见图1,4,7。4按“基因四进制”每位的顺序排布各位“基因词(基因数字符号)”,其数量分布轨迹是“波浪形”运动的,见图3,6,8,9表1.基因四进制第一位基因符的理论与实测分布比对AGTC数量%数量%数量%数量%理论平均值1575725.0%1575725.0%1575725.0%1575725.0%实测值1698026.9%1562124.8%

7、1541224.5%1501623.8%差异12231.9%-136.3-0.2%-345.3-0.5%-741-1.2%差异率7.76%0.86%2.19%4.70%最大差异196412.5%图1.基因四进制第一位、“个位符(相当于‘个位数’)”的实际分布状态。A最多,C最少。图2.“个位符”的百分分布。以4个碱基‘个位符’为X的值,“X轴”以基因四进制的基因符为符系(数系)坐标序列。图3.基因四进制第二位16个“二位碱基”基因符号序列的实际分布。X轴是基因“四进制”转换成“十进制”的坐标计量单位标注

8、。图4.基因进制系第二位,按其在实际基因序列中分布,从大到小的排序。图5.四进制基因系中,各个“二位符(数)”在实际基因序列中的百分分布。“二联碱基词”最多的是“AG”占8.15%,“CG”最少只有2.93%,理论序列平均6.25%,各试验值是不均匀的。图6.基因四进制系统中,第三位的64个“三位符”在试验基因组中的实际起伏,“波浪”分布。图7.基因进制第三位,“三联核酸”按其在实验基因序列中的分布,从大到小的“S”形次序。图8.基因四进制

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。