翻译Class imbalance methods for translation initiation site recognition in DNA sequences

翻译Class imbalance methods for translation initiation site recognition in DNA sequences

ID:38526222

大小:56.75 KB

页数:8页

时间:2019-06-14

翻译Class imbalance methods for translation initiation site recognition in DNA sequences_第1页
翻译Class imbalance methods for translation initiation site recognition in DNA sequences_第2页
翻译Class imbalance methods for translation initiation site recognition in DNA sequences_第3页
翻译Class imbalance methods for translation initiation site recognition in DNA sequences_第4页
翻译Class imbalance methods for translation initiation site recognition in DNA sequences_第5页
资源描述:

《翻译Class imbalance methods for translation initiation site recognition in DNA sequences》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、对于在DNA序列中翻译初始地点识别的分类不平衡方法摘要翻译初始地点(TIS)识别是基因结构预测的第一步骤之一,也是任何基因识别系统的普遍构成之一。许多转录序列在辨别TIS的方法已经在文献中被形容,比如MRNA,EST和cDNA序列。但是TIS和DNA序列的识别仍是一个挑战,而且目前为止,在DNA序列中转录而描述的方法还没什么结果。大多数方法可以在生物特征上解释问题。本文中,我们尝试一个不同的角度,把这个分类问题完全看做一个单纯的机器学习。从机器学习的角度来看,TIS识别是分类不平衡问题。因此,本文中我们从这个角度接近TIS识别,并应用不同的已经被发展用来解决不平衡数据的方法。提出的方法

2、有两个优点。第一,它提高了用标准分类方法的水平。第二,它拓宽了分类算法可用的集合,如一些分类不平衡方法(比如采样不足)也被用作放大数据挖掘算法,如它们减少数据的大小。在种方法,分类器不能应用于全体数据(因为长训练时间或者大量的记忆要),可以被用在要使用采样不足方法时。结果显示一个分类不平衡方法的优势,【同时同样的但没有考虑分类不平衡的自然问题的方法应用】。应用方法也可以在文献中提到的最好的方法下提高结果的获得,这基于寻找下一个来自于推定TIS一定被预测的框架内的终止密码子。1.介绍TSI识别组成以识别起始密码子,ATG(在大多数基因中标志转录的开始)。大多数之前的方法已经致力于在转录中

3、识别TIS。但是,在基因组序列中识别TIS是不同的,而且更困难的工作。全长或部分转录经常包括1或0TIS,而且没有基因内区。另一方面,在一个一般的基因组序列中,我们可以找到ATG密码子,然后一个可能在任何地方的推定的TIS。在本文中,我们考虑分析基因序列最为不同的问题,它包括废弃DNA,外显子,基因内区和非翻译区终止区(URTs)。后者还包括转录。识别TIS在转录和基因组序列中不同的特点被在每一个问题不同的预测表现中阐明。TISMiner[1]是最好的TIS在转录中的识别的项目,在灵敏度为80%时可以明确的实现98%。但是,当测试放在基因组序列中时,在同样灵敏度水平下结果的实现降到50

4、%。从生物的观点,在基因序列中的TIS识别有一些特殊性,这将使得问题比在RNA序列中更为困难[2]:扫描模型不能被应用在基因序列中除非转录起始点已知,这不是我们要解决的问题;转录特别的包括0或1TIS,它会明显的促进识别;基因组数据包括基因内区,它破坏编码结构TIS下游而且真核基因组包括百万计的候选TIS,这要求TIS预测系统可以被有效的计算实现。在基因组序列TIS预测中最重要的特征之一是消极的实例远多于积极的实例。在机器学习理论中,这被称作分类不平衡问题[3,4]。大多数的学习算法期望一个无论怎样在不同的分类间平衡的分布。已经显示经历歪斜分布的学习算法与分类不平衡相联系。大多数TIS

5、识别没有考虑从分类不平衡方法中解决这个问题。但是,问题是可以高度不平衡的。在我们的检测数据中,我们积极/消极的比例是1:25,1:93和1:123.在低水平的编纂的序列中,比如人类21号染色体。可以达到1:4912的比例。本文中,我们把TIS识别当做一个分类不平衡问题。我们检测分类不平衡问题是否能对于那些针对为从生物角度进行TIS识别而设计的方法实现同样的表现。该工作还检测一些最广泛使用的分类不平衡方法在一个困难的现实问题中的使用情况。因此,这给予这些方法在困难问题的应用上一个有趣的评价。本文的组织如下:第二部分概述了分类不平衡问题最重要的方向和我们将使用到的方法;第三部分展示实验步骤

6、;第四部分展示所得结果;最后第五部分说明我们工作的结果和未来的研究路线。1.分类不平衡问题在类的训练实例中大多数分类法是不平衡分布这一点已经被反复显示[5]。【大多数学习算法期待一个在不同程度上不同类的大概的甚至分配的实例】。解决分类不平衡问题是很困难的,而且一个非常相关的问题,如许多大多数有着非常不平衡分布的有趣且有挑战性的的像是问题,比如基因识别,指令发觉,网络挖掘等。大多数这类问题表现为两类数据。一类【interesting】,积极的类,在数据中没有被高度表现,另一类是有许多实例的消极类。在高度不平衡问题中,正负比例可以达到1:1000或1:10000。许多算法和方法已经打算改善

7、分类不平衡对学习算法表现的影响。主要有三种不同的方法:1(1)内部作用于算法。这个方法修改学习算法来解决不平衡问题。它们可以改编结果临界值来创造对少数类的偏向或者引入学习过程中的损失来补偿少数类。(2)外部作用于数据。这个算法作用与数据而不是学习方法。它的优点在于独立于分类器的使用。这里用两个基本的途径,过多对少数类采样或过少对多数类采样。(3)结合基于推进[8]考虑训练集合不平衡的方法。这个方法修改基本推进方法来解决少数类在数据集中的不被表现

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。