转录组测序(RNA-Seq)--杨军课件.ppt

转录组测序(RNA-Seq)--杨军课件.ppt

ID:57375201

大小:1.62 MB

页数:26页

时间:2020-08-13

转录组测序(RNA-Seq)--杨军课件.ppt_第1页
转录组测序(RNA-Seq)--杨军课件.ppt_第2页
转录组测序(RNA-Seq)--杨军课件.ppt_第3页
转录组测序(RNA-Seq)--杨军课件.ppt_第4页
转录组测序(RNA-Seq)--杨军课件.ppt_第5页
资源描述:

《转录组测序(RNA-Seq)--杨军课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、转录组测序(RNA-Seq)JunYangRNA-Seq的技术背景RNA-Seq又称转录组高通量测序(transcriptomesequencing)或称为全转录组鸟枪法测序(WholeTranscriptomShotgunSequencingWTSS)2005年以来,以Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的SOLiD技术为标志的新一代测序技术诞生,之后HelicosBiosciences公司又推出单分子测序(Singlemoleculesequencing,SMS)技术。新一代测序又称作深度测序或高通量测序。转录组是特定组织或细胞在某一功能状态下

2、所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的最直接描述,转录组成为研究基因表达的主要手段,转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带,转录水平的调控是目前研究最多的,也是生物体最重要的调控方式。转录组?转录本All transcriptsAll mRNAsTotalRNA样品检测OD260/280:1.8~2.2;RNA28S:18S

3、≥1.0;RIN≥7;样品总量不低于15ug;样品浓度:totalRNA浓度不低于400ng/ul。样品RNA准备2.测序文库构建?使用oligodT微珠纯化mRNA?mRNA片段化处理?反转录反应合成合成双链cDNA?双链DNA末端修复及3’末端加‘A’?使用特定的测序接头连接DNA片段两端?高保真聚合酶扩增构建成功的测序文库3.DNA成簇(Cluster)扩增4.高通量测序(IlluminaGenomeAnalyzerIIx)5.数据分析?原始数据读取?与数据库比对并进行注释?深层次数据分析实验流程标准信息分析流程生物信息分析基本信息分析数据量产出:>2Gbpersample测序策略:

4、HiSeq2000,PE91or101插入片段大小:200bps测序质量控制:Q20%>80相关概念高通量测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。Q20与Q30则表示质量值大于等于20或30的碱基所占百分比。Q20值是指的测序过程碱基识别过程中,对所识别的碱基给出的错误概率。质量值Q20,错误识别概率是1%,即正确率是99%;质量值Q30,错误识别概率是0.1%,即正确率是99.9%;质量值Q40,错误识别概率是0.01%,即正确率99.99%;Q“N”0的质量值,就是正确率有N个9的百分比。N50即覆盖50%所有核苷酸的最大Unigene长度或覆盖50%

5、所有核苷酸的最大序列重叠群长度。相关概念高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig; 多个contigs通过片段重叠,组成一个更长的scaffold;一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。Unigene是UniqueGene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库

6、。相关数据库概念NR是NCBI里的非冗余蛋白数据库,即NCBI的blastp程序中的NR数据库,我们可以用自己的query序列,blast搜索这个数据库,得到这些query序列的具有序列相似性的蛋白序列。NT:NCBI的blast页面,选择nucleotideblast,数据库选others,也就是(nr/nt).SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。KEGG(KyotoEncyclopediaofGenesandGenomes,京都基因与基因组百科全书)是基因组破译方面的数据库。COG是ClusterofOrthologousGroups

7、ofproteins(蛋白相邻类的聚簇)的缩写,即直系同源基因数据库。COG是对基因产物进行直系同源分类的数据库,每个COG蛋白都被假定来自祖先蛋白,COG数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的,我们将Unigene和COG数据库进行比对,预测Unigene可能的功能并对其做功能分类统计,从宏观上认识该物种的基因功能分布特征。GO(geneontology)是基因本体联合会(Ge

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。