有参考基因组地转录组生物的信息分析报告实用模板

有参考基因组地转录组生物的信息分析报告实用模板

ID:30255685

大小:2.25 MB

页数:28页

时间:2018-12-28

有参考基因组地转录组生物的信息分析报告实用模板_第1页
有参考基因组地转录组生物的信息分析报告实用模板_第2页
有参考基因组地转录组生物的信息分析报告实用模板_第3页
有参考基因组地转录组生物的信息分析报告实用模板_第4页
有参考基因组地转录组生物的信息分析报告实用模板_第5页
资源描述:

《有参考基因组地转录组生物的信息分析报告实用模板》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、一、生物信息分析流程获得原始测序序列(SequencedReads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析:二、项目结果说明1 原始序列数据项目结果文件高通量测序(如illuminaHiSeqTM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)

2、的序列信息以及其对应的测序质量信息。测序样品真实数据随机截取展示FASTQ格式文件中每个read由四行描述,如下:@EAS139:136:FC706VJ:2:2104:15343:1973931:Y:18:ATCACGGCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT+@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF其中第一行以“@”开头,随后为illumina测序标识符(SequenceI

3、dentifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina测序标识符(选择性部分);第四行是对应序列的测序质量(Cocketal.)。illumina测序标识符详细信息如下:EAS139Uniqueinstrumentname136RunIDFC706VJFlowcellID2Flowcelllane2104Tilenumberwithintheflowcelllane15343'x'-coordinateoftheclusterwithinth

4、etile197393'y'-coordinateoftheclusterwithinthetile1Memberofapair,1or2(paired-endormate-pairreadsonly)YYifthereadfailsfilter(readisbad),Notherwise180whennoneofthecontrolbitsareon,otherwiseitisanevennumberATCACGIndexsequence第四行中每个字符对应的ASCII值减去33,即为对应第二

5、行碱基的测序质量值。如果测序错误率用e表示,illuminaHiSeqTM2000/MiSeq的碱基质量值用Qphred表示,则有下列关系:公式一: Qphred = -10log10(e)illuminaCasava1.8版本测序错误率与测序质量值简明对应关系如下:测序错误率测序质量值对应字符5%13.1%2050.1%30?0.01%40I2 测序数据质量评估项目结果文件2.1 测序错误率分布检查每个碱基测序错误率是通过测序Phred数值(Phredscore,Qphred)通过公式1转化得

6、到,而Phred数值是在碱基识别(BaseCalling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:illuminaCasava1.8版本碱基识别与Phred分值之间的简明对应关系Phred分值不正确的碱基识别碱基正确识别率Q-sorce101/1090%Q10201/10099%Q20301/100099.9%Q30401/1000099.99%Q40测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分

7、布具有两个特点:(1)测序错误率会随着测序序列(SequencedReads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征(ErlichandMitra,2008;Jiangetal.)。(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiangetal.)。测序错误率分布检查用于检

8、测在测序长度范围内,有无异常的碱基位置存在高错误率,比如中间位置的碱基测序错误率显著高于其他位置。一般情况下,每个碱基位置的测序错误率都应该低于0.5%。图2.1 测序错误率分布图横坐标为reads的碱基位置,纵坐标为单碱基错误率2.2 GC含量分布检查GC含量分布检查用于检测有无AT、GC分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。