欢迎来到天天文库
浏览记录
ID:52457758
大小:445.00 KB
页数:17页
时间:2020-03-27
《植物经典项目案例分析 - BGI.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、植物经典项目案例分析闵久梦2010-12-24烟草基因组项目基因组特点:基因组的重复含量较高•注释前期工作:•1.了解基因组的组装结果•2.搜集物种的相关信息烟草基因组组装结果组装结果:contigN50=8548bpscaffoldN50=96755bp注:这是补完洞之后的结果,这个结果显示烟草基因组组装结果不是很好,contig组装结果太短。这样如果一个基因长度大于9kbp,都可能存在这个基因被打断,没有组装起来。烟草基因组大小根据原始测序reads,统计17kmer的分布并作图,根据峰值位置
2、,估计该物种基因组大小(G=R*(L-K+1)/D=kmer_num/pkdepth):预计基因组大小为:2300M实测基因组大小为:2470M。烟草的相关信息•拉丁语学名:Nicotianatabacum•英语名字:tobacco•植物界被子植物门双子叶植物纲茄目茄科烟草属烟草植物基因组信息总结•1.组装结果不是很好•2.基因组较大•3.属于茄科植物,同科的植物基因组有番茄(tomato),土豆(potato)•4.客户能够提供烟草属的EST数据•5.烟草有测转录组数据注释分析-repeat注释
3、•1.repeatmasker,proteinmask•2.基因组较大,denovo方法选用repeatmodeler方法•结果:从repeat注释结果可知:烟草基因组repeat含量很高,组装起来的基因组repeat含量有70.29%。基因预测策略•1.烟草基因组重复序列含量比较高,为了减少重复序列给denovo预测造成的影响,尽量将基因组中的repeat序列remask掉,所以将repeat注释出来的所有的repeat序列都remask掉,然后再进行denovo方法预测,选用预测软件及参数:1
4、>Augustus–tomato2>FgeneSH--Nicotianatabacum(注:组装结果也不是很好,所以用denovo预测结果可能也不是很准确,所以选择最准确的两个预测软件进行预测)•2.利用烟草属的EST进行EST预测,参数:--tophit3--alignrate0.7•3.homolog预测:一定要用到同属的tomato和potato的蛋白序列,再选取其他物种的蛋白序列(我选择了:grape,papaya,poplar),参数:--align_rate0.7•4.然后结果处理:通
5、过denovo预测出来的结果取他们之前的交集•5.基因整合:glean软件结果及评价用烟草的转录组数据对注释的基因集进行评价,评价结果:我们使用RNA-seq组装的数据对得到的基因集进行了覆盖度的评价(使用的比对软件为blastn,e值设置为1e-10)。比对结果中在identity>0.9的条件下,对RNA-seq组装结果coverage>0.9的比例35.9%,coverage>0.5的比例为73.2%。所有coverage>0.5的结果对RNA-seq组装数据的覆盖度为79.7%。我们将剩余
6、的覆盖度小于50%的13044条RNA-seq组装数据结果使用blat软件比对回我们组装得到的烟草基因组上,比对结果中identity>0.9且coverage>0.5的共有3061条(占总数的23.5%),这部分的数据可以利用RNA-seq辅助基因注释的方法注释出基因补充到glean的结果中。剩余的9983条RNA-seq组装得到的数据大部分是有由于组装结果中没有把相应的转录区域拼接出来的原因造成的。甘蓝基因组基因组特点:有同源物种的基因组作为参考•注释前期工作:•1.了解基因组的组装结果•2.
7、搜集物种的相关信息甘蓝基因组组装结果组装结果:contigN50=26828bpscaffoldN50=905209bp注:这个组装结果已经达到基因组的精细图标准了,组装结果比较好甘蓝基因组大小根据原始测序reads,统计17kmer的分布并作图,根据峰值位置,估计该物种基因组大小(G=R*(L-K+1)/D=kmer_num/pkdepth):基因组大小应为655Mb。甘蓝的相关信息1.基本信息2.十字花科植物:拟南芥,白菜芸薹属植物:甘蓝和白菜和拟南芥和白菜的进化关系很近,特别是白菜。甘蓝植物
8、基因组信息总结•1.组装结果很好•2.基因组大小一般•3.属于十字花科芸薹属,同科的植物基因组有:拟南芥,同属的植物有:白菜•4.客户能够提供甘蓝的EST数据和芸薹属的EST数据,白菜的EST数据,芸薹属95K全长cDNA数据•5.甘蓝有测转录组数据注释分析-repeat注释•1.repeatmasker,proteinmask•2.基因组一般,denovo方法选用repeatscout和Piler方法•结果:从repeat注释结果可知:甘蓝基因组repeat含量有点高,组装起来的
此文档下载收益归作者所有