欢迎来到天天文库
浏览记录
ID:37754355
大小:2.01 MB
页数:23页
时间:2019-05-30
《转录组Denovo手册(无答案)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、转录组Denovo流程工作手册1.Denovo流程生物学原理1.1实验流程提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA后进入下一步)。加入fragmentaionbuffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(randomhexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNaseH和DNApolymeraseI合成第二条cDNA链,在经过QiaQuickPCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复、加polyA并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行P
2、CR扩增,建好的测序文库用IlluminaGAIIx进行测序。1.2测序质质控质控1.Rawclusters(16万~18万)对于Denovo测序,质量胜过产量,小片段(200-500bp)宜上18万尽量缩小波动范围,如果超过20万或者低于15万,则会影响质量和产量(Q20%,GC%),cluster密度越高,数据产量越大,但相邻cluster之间的荧光信号易相互干扰,影响数据质量;反之,cluster密度越低,相邻cluster的荧光信号越容易识别,但数据产量也较低。2.Basecallduplicate%该参数属于solexa-pipeline自身问题,只影响实际产量。3.Ada
3、ptercontamination%(记为Adapter%)该参数属于建库问题,adapter污染影响实际产量。4.Q20%(高于80%)该参数反映总体质量情况,denovo项目Q20都应高于80%,如果低于70%则会严重影响组装。质量非常差的数据,加进去会使组装效果变得更差。5.GC%:由于Denovo项目的GC%在最开始一般不知道,所以要采取更加灵活的处理方式,而不是设定死板的标准,如误差在+-%为合格,现在一般是35-65%。可以通过计算所有lane平均值和标准差,以及每个lane的GC%离差,来反映总体变化情况。如果rawcluster浓度上的过高或者试剂出现问题,会导致GC
4、%在reads尾部分叉,严重时需要截去reads尾部一段长度的序列。6.Insertsize:我们要求实际的插入片段长度大小的平均值跟建库时期望的插入片段长度大小不能相差太大,实际插入片段长度的分布应该符合正态分布,并且集中在平均值附近,一般来说小片段文库的insertsize的问题不太,大片段文库则跟容易出现insertsize的问题。7.Duplicaterate:该参数只影响有效产量,一般在大片段库(2K~10Kb)时很严重。8.Smallinsert建库中的问题。即read1和read2有明显的overlap,这种数据影响实际的物理覆盖度,因此实际上也降低了有效产量。严重的时
5、候,会对组装造成较坏的影响1.3本节问题:1.在建库过程中,我们是先对RNA进行片段化后合成cDNA还是先用RNA合成cDNA再对cDNA进行片段化?为什么要这样做?2.相对于生物芯片,华大的测序有什么优势?3.名词解释:插入片段4.fastq文件中reads的格式是怎样的?5.名词解释:Pair-endreads6.名词解释:Single-endreads7.原核生物如何做RNA-Seq?8.测序前的PCR扩增的目的是什么?PCR扩增是否有序列偏好性?会不会引入额外误差?9.导致组装失败或跟本物种参考基因组比对不上的常见原因是什么?如何查找这类原因?10.一对Paired-endr
6、eads的read1和read2的测序方向是怎样的?他们所在的正负链是否是确定的?我们所说的插入片段长度是指read1和read2之间没有测到的那一段的长度还是包括了read1和read2本身的长度?11.什么是index测序,进行index测序的主要目的是什么?12.解释Solexa测序中几个关键的技术:边合成边测序(SBS),可逆阻断技术和桥式PCR。2.信息分析流程:2.1数据过滤:原理:::测序得到的reads,并不都是有效的,里面含有带接头的,重复的,测序质量很低的reads,这些reads会影响组装和后续分析,我们必须对下机的reads过滤,得到有效reads.数据处理的
7、步骤:1去除含adaptor的reads2去除N的比例大于10%的reads3去除低质量reads(质量值Q<=5的碱基数占整个read的50%以上)4获得Cleanreads,后续分析都基于Cleanreads对于初级分析的项目,只需要给合作伙伴提供过滤后的数据即可,所以会对过滤后的数据做一些基本统计如下:SamplRead1Read2文库号BasesBasesBasesBases%GC%GC%GC%GC%Q20%Q20%Q20%Q20eeeeLengt
此文档下载收益归作者所有