生物信息学专业级分析平台介绍.pdf

生物信息学专业级分析平台介绍.pdf

ID:53078377

大小:4.32 MB

页数:53页

时间:2020-04-16

生物信息学专业级分析平台介绍.pdf_第1页
生物信息学专业级分析平台介绍.pdf_第2页
生物信息学专业级分析平台介绍.pdf_第3页
生物信息学专业级分析平台介绍.pdf_第4页
生物信息学专业级分析平台介绍.pdf_第5页
资源描述:

《生物信息学专业级分析平台介绍.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、后基因组时代高通量数据的生物信息学分析—与翔生物信息学分析平台简介张新宇博士前言以生物芯片为代表的高通量生物技术飞速发展,其数据特点为海量、复杂、难于深入分析生物学研究人员要求数据分析更加系统化、个性化,具创新性商业版和免费版分析软件繁多,而缺乏专业的、系统的、扩展性高的数据分析平台专业公司的服务相对于团队建设周期短,投资少与翔公司高通量数据分析平台基因组学–ArrayCGH–DNA甲基化芯片编程环境:–TilingArray(ChIP-chip)Linux和–SNP芯片(genotype/LOH/CN/GWAS)MySQL–高通量DNA测序(454/Solexa/SOL

2、iD)–基因组注释编程语言:转录组学C++,R,Perl,–DNA芯片(mRNA/microRNA)Python,–SAGE/EST文库Matlab,Java–高通量RNA测序蛋白质组学/代谢组学所有流程已本–双向电泳/HPLC质谱地化并经过–蛋白质结构及其功能预测unit测试系统生物学–基因网络/相互作用分析–异质和异源数据整合分析Tilingarray(ChIP-chip)分析系统(Client-Servermode)SDK流程MAT流程ChIP-chip结果IGB/UCSC视图IGBUCSCSNP芯片分析系统(Client-Servermode)Genotyp

3、e分析LOH分析CN分析GWAS分析CN/LOH结果IGB全基因组视图CNLOHSNP芯片分析系统(Client-Servermode)Genotype分析LOH分析CN分析GWAS分析关联分析主要目的是寻找生物标志物和标志谱要求有足够多的样本和足够多的候选位点通过表型和基因型关联度的分析手段,在提高预测准确率的同时对候选位点进行降维处理通过建立数学模型,可以准确的预测未知样本的表型,发现表型相关基因目前最为流行的关联分析是全基因组关联分析(GenomeWideAssociationStudy,GWAS)与翔GWAS平台主要方法不同类型的高通量数据(CN,SN

4、P,表达谱等),有不同的流程HWEχ2检验:筛选符合Hardy-Weinberg平衡的位点(只针对SNP数据)χ2test/Fisher’sexacttest/t-test:筛选显著差异的位点KNN:交叉验证PCA/MCA:主成分分析RandomForestSVM三种机器智能学习算法,用于建模和预测ANNGeneticAlgorithm:用于降维以及提高预测准确率孤独症GWAS研究实例数据:567套GEOGSE9222数据集为孤独症(ASD)样本;270套AffymetrixMapping500KHapMapGenotype数据集作为对照已解决的GWAS难题:–样

5、本种群差异导致的系统误差–预测子的显著性排序(传统的按卡方检验P值排序不可靠)–适用于连续变量和不连续变量的统计学模型–遗传算法的局部收敛问题结果:得到由37个SNP组成的一个标志谱,对437个独立样本的预测准确率为92%Manhattan基因组视图显著结果假阳性和阳性结果的基因型密度分布图种群差异所致假阳性阳性主成分分析(PCA)和ROC曲线线下面积为0.9558对独立样本的预测准确率为91.53%交叉验证的准确率为95.75%Shietal.,submittedPNTPTNFPFNSensitivitySpecificityAcCCModelingResult200200193

6、19010796.5%95%95.75%0.9151PredictionResult367703356553291.28%92.86%91.53%0.7426RNA高通量测序microRNA分析mRNA分析microRNA测序项目分析目标完成高通量测序数据的预处理和标准化鉴定出物种特异的miRNA和物种间保守的miRNAmiRNA:*miRNA双链体的鉴定miRNAclusters的鉴定系统发生学方法基于miRNA研究物种进化microRNA分析路线原始reads数据可能的全基因组发夹miRNAreads结构搜索去除低质量序列、接头序列、重复序列筛选最合适的参考物种Ma

7、pping参考符合结构特征的基因组miRNA前体跟据比对情况调整匹配容忍度位置和自由能筛选高可信度不匹配序列匹配序列miRNA前体miRNA比对不放弃由于基因组不搜索miRBase13.0兼容性而遗漏的目标物种特异的保守的miRNA新的miRNA物种间保守的筛除假的pre-miRNAmiRNAmiRNA的表达物种特异的编码成熟miRNA的基因拓展分析关键问题及解决方案近似参考基因组mapping造成有用信息流失可能会有更多的不匹配序列应对策略:根据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。