欢迎来到天天文库
浏览记录
ID:41719867
大小:1.33 MB
页数:36页
时间:2019-08-30
《数据处理流程-BGI》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据处理流程计算机集群测序控制PC测序仪1.控制测序过程决定测序长度、填加试剂、控制温度、控制反应时间、拍照2.图像分析对测序仪拍照的图片进行图像分析,得到亮点的光强度和坐标3.basecalling由光强度得到碱基序列4.数据传输将basecalling结果(二进制文件bcl)传输到计算机集群的存储上5.数据处理将bcl文件转化为后续信息分析所使用的文本文件(fastq,qseq)6.index拆分7.数据质量分析8.数据备份9.后续信息分析......图像分析及basecalling基本原理1
2、234CCCCGGGTTAAACycle1Cycle2Cycle3对A发出的光拍照对C发出的光拍照对G发出的光拍照对T发出的光拍照图像分析及basecalling基本原理1234TCCAATGCACGGCycle1Cycle2Cycle3由4个cluster得到4条序列:①ATA...②CCT...③GCG...④GAC...图像分析对每个图片独立的处理图像锐化对图片进行快速傅里叶变换(FFT),在傅里叶空间乘以滤波函数后反变换识别cluster/亮点信噪比(亮度/背景值)大于阈值的亮点区域计算亮
3、点光强度和位置坐标在亮点区域,对光强度进行二维插值,求出最大光强度,以及最大光强度对应的位置坐标将同一个tile的所有图片中的亮点坐标对齐重叠不同图片之间存在偏移/拉伸/压缩(offset)系统、稳定的:4种光折射率不同、滤波片不同、光路不同,所以造成成像的偏移/拉伸/压缩,可利用crosstalk,计算出偏移/拉伸/压缩的数值(offset参数)偶然、随机的:flowcell表面不平、自动调整焦距、机械移动不够精确、随机振动,可利用crosstalk解决CrosstalkAC光谱间有交叠,GT光
4、谱间有交叠,所以:碱基A的图片中包含C发出的光碱基C的图片中包含A发出的光碱基T的图片中包含G发出的光不利:不能直接比较光强度大小而得到碱基有利:利用图片中共同的亮点,将所有图片对齐重叠,解决offset问题ACAC光谱光谱滤波片图像分析流程TemplateGeneration利用AC之间的crosstalk、GT之间的crosstalk,将前2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标{(x,y)}RegistrationandIntensityE
5、xtraction对于每一个cycle:将4张图片(ACGT)中的所有亮点与cluster坐标{(x,y)}对应,计算每个cluster的4种光强度对每个图片独立的处理图像锐化、识别cluster/亮点、计算亮点光强度和位置坐标TemplateGeneration利用AC之间的crosstalk、GT之间的crosstalk,将前2个cycle的图片,与第一个cycle的A的图片对齐重叠,确定所有cluster的位置坐标{(x,y)}ACGTAGTCCycle1Cycle21243ACycle1A
6、Cycle1CCycle1ACCACCycle2ACycle2CCycle1ACACAC123GTCycle2GCycle2TCycle1ACGTACGTCycle1GCycle1TGT12431243图像分析结果Cluster坐标Cycle1Cycle2Cycle3......(1053,1543)A1000A500A23......C800C900C26......G20G-18G500......T24T-12T300......(1923,1723)A-13A1000A33......C-
7、12C800C24......G40G25G500......T700T20T300......(1032,1231)A500A50A1000......C900C40C800......G26G500G-20......T32T300T-20....................................Crosstalk固有发光能力不同,需要归一化BasecallingCrosstalk校正4种光强度归一化(用DNA样品计算参数)Phasing/Prephasing校正(用DNA样品计
8、算参数)对于每个cluster:在每个cycle中,比较4种光强度,光强度最大的就是当前cycle测到的碱基,各cycle测到的碱基连起来组成这个cluster的碱基序列;计算每个碱基的质量值4种光强度归一化2种光强度分布2种光强度分布ACGTphasingSequencingprimerprephasingBasecalling结果:qseq文件每一行表示一条reads(一个cluster)每行有11列,tab分隔:机器编号、run序号、Lane号、Tile号、X坐标、Y坐标、i
此文档下载收益归作者所有