映射至基因组(mapping)

映射至基因组(mapping)

ID:9045376

大小:126.99 KB

页数:5页

时间:2018-04-15

映射至基因组(mapping)_第1页
映射至基因组(mapping)_第2页
映射至基因组(mapping)_第3页
映射至基因组(mapping)_第4页
映射至基因组(mapping)_第5页
资源描述:

《映射至基因组(mapping)》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、映射至基因组(Mapping)第一步的工作是比对(alignment)。对于RNA-seq的比对,从来都不是一件容易的事情。其难点如下:1.没有很好的比对模板。现在的比对模板都是基因组模板,而不是真正的转录组模板,也就是说,这对本来就不是很长的短序来说,它很有可能是界于两个exon之间。我们在比对junction的时候,一般还是假设它如果没能在基因组模板中找到合适的位置的时候,才考虑它是否是界于junction上。这种人为的假设可能并不准确。2.SNPs,碱基插入,删除,错配,或者质量不高的测序结果,从模板至比对序列本身,都存在着比基因比对更为复杂的问题。3.

2、短序可能会有多个100%的匹配位点。4.有些基因组可能需要庞大的内存空间。为了解决最后一个问题,人们使用了很多办法,但基本上都会基于事先建立的引索库。即所谓“启发式”比对(heuristicmatch)。首先使用一定长度的(通常是11个碱基)的序列做为索引用的关键字,在匹配这一索引字之后,就很大程度地缩小了其需要匹配的模板范围。但是这一办法的问题在于不容易解决问题2中的空格,错配问题。所以在很多软件使用时,会要求人工确认高保真区,以及最高允许2?3个错配。现在比较快的“启发式”比对主要有两种算法,一种是哈希表(hashtable),一种是BW压缩转换(Burr

3、owsWheelertransform,BWT)。前者速度快,但是对内存要求比后者要高。对于问题3,一般而言,大部分软件使用的办法是只保留一个匹配位点,其中,有些是只保留第一个匹配位点,有些是按照概率分布选取保留的位点。当然,前面已经提到过,可以使用paired-endread来尽量避免问题3的出现。对于问题1,可以使用外显子库来确定junctionreads。有两种办法,一种是依靠已知的外显子库来构建,另一种办法就是依据已经匹配好的短序来构建外显子库(denovoassemblyoftranscriptome)。后者的不足是运算量大,对测序覆盖范围要求高,最

4、好是使用paired-endreads。还有人发现,对于ploy(A)的处理会减少不能映身的短序数。比如,Pickrelletal.就发现,对于46bp的Illuminareads,87%的短序可以映射至模板,7%可以映射至junctionlibrary。如果对那些不能映射的短序,将在头或者尾含有的超过连续4个的A或者T去除,就可以得到约0.005%的映射。综合评价(Summarizingmappedreads)这一步,主要是基本于不同水平(外显子水平,转录水平,或者基因水平)进行统计。最简单的办法就是统计落在每个外显上的短序数。但是有研究表明,很多(可能超过

5、15%)的短序会落在外显子两侧,这会影响统计的结果。另一种办法就是统会落在内显子区域的短序数。无论如何,即使是基因水平的综合评价,也还是有其它的一些问题。比如overlapping的基因的统计。比如junction的统计。标准化(Normalization)标准化对于样品内及样品间的比较而言是非常重要的。标准化被分为两类,样品内及样品间(between-andwithin-library)。样品内标准化使得在同一样品内不得基因之间的表达差异变得有意义。最常用到的一个办法就是使用落在同一基因内的短序数除以单位基因长度。比较常用的单位是RPKM(readsperk

6、ilobaseofexonmodelpermillionmappedreads)。但是这一方法也受到样品制备和测序方法的干扰。而对于样品间标准化,最简单而直接的办法使用短序总数来平衡表达量。然而短序总数受测序深度的干扰,而且单个基因的短序数与实际的表达量并不一定会呈线性比较关系。人们又使用四分位(quantilenormlization)标准化的办法。但是有研究说这一办法并没有实际的价值。还有提出使用对数分布法则(powerlawdistributions)来进行样品间标准化。但没有研究对这一处理方式进行验证。差异表达(Differentialexpressi

7、on)差异表达分析的最终目的是将那些差异表达的基因(外显子等等)从海量数据中提取出来。最终的结果显示一般来说是表格化的,这一表格按照一定的规则排序,让人们能够尽可能简单地拿到想要的结果。由于RNA-seq结果的离散性,人们一般都会使用统计模型来拟合实验得到的结果。一般而言,RNA-seq的结果是比较附合伯松分布(poissondistribution)的。这一结果得到了单通道IlluminaGA测序结果的实验验证。但是,伯松分布分析结果常常在多组重复的样品间带来较高的假阳性,因为它低估了生物取样的样品间误差。所以RNA-seq如何设置重复是一个很重要的问题。为

8、了平衡重复样品所带来的误差,人们使用了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。