基于机器学习酵母ncRNA预测研究

基于机器学习酵母ncRNA预测研究

ID:42794414

大小:250.61 KB

页数:4页

时间:2019-09-22

基于机器学习酵母ncRNA预测研究_第1页
基于机器学习酵母ncRNA预测研究_第2页
基于机器学习酵母ncRNA预测研究_第3页
基于机器学习酵母ncRNA预测研究_第4页
资源描述:

《基于机器学习酵母ncRNA预测研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于机器学习的酵母ncRNA预测研究1・背景现有研究表明,基因组屮存在大量的非编码RNA(ncRNA),在基因表达调控等方面发挥重要作用。如何利用生物信息学手段发现ncRNA,从而为用实验手段发现ncRNA提供帮助己成为牛物信息学的研究热点之一。为此,木研究以酵母基因组为研究对象,以k-tuple组成为特征变量,运用机器学习方法系统研究了酵母棊因组中ncRNA的预测问题。2.方法首先,构建用于机器学习的训练集与测试集,利用90条位于基因间区中的ncRNA作为阳性数据集,并提取岀其上游和下游各1000nt的序列。为了构建

2、阴性数据集,从酵母基因组屮提取了功能注释比较清晰的4058个蛋白编码基因,为了保持阳性与阴性数据集中序列数目的平衡,我们以成熟mRNA蛋白编码区的3-tuple含量与上游和下游1000nt序列的4・tuple含量为特征进行聚类去冗余,将获得的90个代表样本点作为阴性数据集。最终从阳性和阴性数据中各随机抽取出80个序列作为训练集,余下的序列作为测试集。其次,利用NaiveBayes和SVM方法构建分类器,结果如下:1、以ncRNA序列和蛋白编码基因编码区的3-tuple含量为特征构建分类器,基于NaiveBayes方法的

3、训练集精度为85%,测试集精度为90%;基于SVM方法的训练集精度为98.75%,测试集精度为90%o图1基丁•口身序列3-tuple的分类器精度及稳定性分析FalsePotrtnyR.・(1-Sp#crf>cty)图2自身序列3-tupie的ROC(NaiveBayes)ooooooO2、利用ncRNA和蛋白编码基因起始密码子上游4-tuple含量构建分类器,基于NaiveBayes方法的训练集精度为93.73%,测试集精度为75%;基于SVM方法的训练集精度为100%,测试集精度为90%oonor<55:'5ITh

4、erumtxfOf01•舟3d•aH010203040506070809FalsePostiv*Rate(1-Specificty)—W—WK.图3基丁•上游序列4-tuple的分类器精度及稳定性分析图4上游序列4-tuple的ROC(NaiveBayes)3、利用ncRNA和蛋白编码基因终止密码子下游4-tuple含量构建分类器,基于NaiveBayes方法的训练集精度为93.75%,测试集精度为85%;基于SVM方法的训练集精度为100%,测试集精度为90%0□i/1一1-1:一J41*****一--1010203

5、04050607080$F«h・PositrvwRat・(1-Sp^iSdty)■7dS432ooooooO图5某于下游序列4-tuple的分类器精度及稳定性分析图6I、•游序列4-tuple的ROC(NaiveBayes)利用酿酒酵母的基因注释信息,从基因组中除去所有蛋白质编码区、tRNA和rRNA,得到的基因间区序列。我们将基因间区分割成100nt的序列片段,每隔25nt取一段,也就是相邻的两个片段重叠75nto然后将这些100nt的片段提取其前lOOOnt和后1000nt的序列。计算这些1000nt的4・tupl

6、e含量。由于基因间区的k-tuple计算运算量巨大,所以我们利用一所星盈万亿次超级刀片计算机系统进行基因间区中4-tuple的计算。利用上、下游的牛tuple分类器模型对基因间区片段上、下游的4-tuple含量进行预测,取出上、下游都满足分类器的,100nt的片段。将这些片段利用3-tuple的分类器进行预测,取出满足条件的片段,如果这些片段中有相邻的片段,就将其连接成一个完整的片段。这些满足条件的基因间区片段,就是通过k-tuple方法预测得到的ncRNA候选片段。对所有的基因间区序列的负链,按照基因间区止链的做法,

7、进行同样的工作,得到负链上的预测ncRNA,然后作进一步分析。3.结果对基因间区的正链和负链进行切割,各得到113,033条长度为100nt的片段。然后利用上、下游4-tuple的分类器对这些片段的上、下游1000nt序列进行预测。在正链屮找到36,144条、负链中找到36,365条满足条件的片段。再将这些片段利用编码区的分类器进行预测,分别得到12,862条和12,948条满足条件的片段。最后,进行序列连接。在正链上,一共得到3735条预测的ncRNA;在负链上,一共得到3734条预测的ncRNAo在酵母的基因间区中

8、,总共预测得到了7469条ncRNA序列。整个预测流程和各步骤结果如图7所示。图7ncRNA预测流程预测得到的ncRNA屮,长度范围是100-1025nt,其中97%以上的长度在400nt以内oG+C含量(G+C%)在0.507之间的约占78%。我们对预测的ncRNA进行分析,利用blat进行定位,发现预测出来的ncRNA中包含了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。