深度测序数据分析部分

深度测序数据分析部分

ID:43786178

大小:54.50 KB

页数:6页

时间:2019-10-14

深度测序数据分析部分_第1页
深度测序数据分析部分_第2页
深度测序数据分析部分_第3页
深度测序数据分析部分_第4页
深度测序数据分析部分_第5页
资源描述:

《深度测序数据分析部分》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、1基因数据库的建立1.1建立病原体数据库肺炎的发生是有很多原因所致。病因可分为以下几类:①细菌性肺炎,可分为肺炎链球菌肺炎、金黄色葡萄球菌、甲型溶血性莲球菌、肺炎克雷白杆菌、流感嗜血杆菌、铜绿假单胞菌肺炎等。②非典型病原体所致肺炎,如军团菌、支原体和衣原体等。③病毒性肺炎,如冠状病毒、腺病毒、呼吸道合胞病毒、流感病毒、麻疹病毒、巨细胞病毒、单纯疱疹病毒等。④真菌性肺炎,如白色念珠菌、曲霉、放线菌等。⑤其他病原体所致肺炎,如立克次体(如Q热立克次体)、弓形虫(如鼠弓形虫)、原虫(如卡氏肺囊虫)、寄生虫(如肺包虫、肺吸虫、肺血吸虫)等。⑥理

2、化因系所致的肺炎如放射性损伤引起的放射性肺炎,胃酸吸入引起的化学性肺炎,对吸入或内源性脂类物质产生炎症反应的类脂性肺炎等。凡是能引起肝脏损害、出现肝功能异常的肝脏炎症性疾病,称之为肝炎。它是一类严重危害人体健康的疾病。我们常说的肝炎,主要是指病毒性肝炎。据近几年科学研究,因其致病病原体的不同而有甲型肝炎、乙型肝炎、丙型肝炎、丁型肝炎、戊型肝炎、己型肝炎、庚型肝炎等。另外,因大量、长期饮酒引起的肝炎,叫做酒精性肝炎;对肝脏有损害的药物引起的叫做药物性肝炎;还有由于机体免疫功能紊乱引起的叫做自身免疫反应性肝炎。本项目不考虑由理化原因引起的肺

3、炎和肝炎疾病,因此,只需建立FI前己知的所有肺炎和肝炎致病基因的数据库。1.2建立人体常见的微生物基因组数据库人体有四个大的细菌储存库,即皮肤、口腔、结肠、泌尿生殖道。种类繁多,多与人类能和平共处,少数是条件致病菌。论个难以数计,论重量,据估计每个活的个体可达3・4公斤。人类体表和肠道是无数微生物的居所。ElizabethCostello及其同僚对多达27个身体部位的微生物进行了调查,其中包括肠道、口腔、耳朵、鼻子以及多达18个区域的皮肤表面。研究人员还发现,某些皮肤部位,如食指或膝盖的背侧常常比肠道或口腔能容留更为多元的微生物。他们的

4、数据所强调的事实是,我们身体的个体化的微生物随着时间的推移仍然保持着相对的稳定,而且它们展现了在我们身体各个位置生长的可预测的模式。人体微牛物基因组计划乂称第二人类基因组计划,已由美国国立卫生研究院资助,于2007年开始启动。研究人体微生物对于疾病的预防和治疗有重大意义。1.3人体全基因组数据库人类基因组计划于20卅纪80年代提出的,由国际合作组织包括有美、英、日、中、徳、法等国参加进行了人体基因作图,测定人体23对染色体由3x109核苜酸组成的全部DNA序列,于2000年完成了人类基因组"工作框架图〃。2001年公布了人类基因组图谱及

5、初步分析结果。2高通量测序数据分析由于不知道疾病的致病原因,因此病原体的类别为以下几种:病毒、真菌、细菌以及等。而且这些病原体的遗传信息又可分为DNA、RNA以及蛋白质或是多肽。本项目以基于高通量RNA测序数据进行分析。高通量RNA测序即RNA-seq,就是把mRNA,smallRNA,andNONcodingRNA等或者其屮一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。主要有以下几个应用领域:转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变界研究(如基因融合、编码区SNP研究),菲编码区域功能研究(Non-co

6、dingRNA研究、microRNA前体研究等),基因表达水平研究以及全新转录本发现。与基因芯片技术相比,RNA-seq无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录片段,并能应用于基因组图谱尚未完成的物种⑹,具有信噪比高、分辨率高、应用范围广等优势,正成为研究基因表达和转录组的重要实验手段.木项目对当前RNA-seq应用的现实情况,尝试以Illumina/Solexa测序平台产生的mRNA-seq数据为例(即产生的),不对测序过程做讨论,只对数据处理和分析的基本流程、关键方法和现有软件进行介绍,并讨论RNA-seq数据分

7、析屮存在的挑战.RNA-seq数据分析包括基本数据分析和生物信息数据分析,对测序数据的序歹!J匹配(mapping),裁减低质量部分,数据格式转换等。序列拼接(assembly),tRNA/rRNA识别和分类。基因组GC含量分析,并识别特异区域。基因功能注释(包括同源注释和蛋白结构域识别)。基因功能分类,参照GeneOntology或COG标准(由用户指定标准)。2.1测序数据的读段定位(Mapping)获得RNA-seq的原始数据后,首先需要对所有测序读段进行序列映射(mapping)定位,高通量基因组测序序列mapping分析是指将

8、测序得到的序列又称作read)比对回参考基因组(mRNA或EST等参考序列),其中read长度多在25bp至lOObp不等。通过将每一个read快速的和参考基因组序列比对,最终得到read在比对的基因组或其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。