基因表达数据分析实验指导

基因表达数据分析实验指导

ID:10894888

大小:1.81 MB

页数:40页

时间:2018-07-08

基因表达数据分析实验指导_第1页
基因表达数据分析实验指导_第2页
基因表达数据分析实验指导_第3页
基因表达数据分析实验指导_第4页
基因表达数据分析实验指导_第5页
资源描述:

《基因表达数据分析实验指导》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基因表达数据分析实验指导1. 实验基本情况2. 实验方法:2.1 表达谱数据的下载2.2 将表达谱数据导入matlab软件2.3 补缺失值2.4 数据标准化2.5 差异表达基因筛选2.6 选择差异表达的基因2.7对差异表达基因送入功能注释附 --Matlab的MicroarrayDataAnalysis 1. 实验基本情况实验目的:掌握和了解常用的基因表达分析过程,包括数据下载、数据预处理、差异表达分析和基因功能注释。了解GEO、SMD、Matlab软件和WebGestalt数据库的使用。实验方法:详见下面的描述。实验作业:每位同学从GEO

2、或SMD数据库上下载一套表达谱数据,进行数据预处理,差异表达基因分析或聚类分析等数据分析过程(依据具体问题操作,arraytool或matlab或其他软件均可),基因功能注释(WebGestalt、GO、KEGG等数据库)。实验实例分析=====================================================================2. 实验方法:2.1 表达谱数据的下载2.1.1 从GEO数据库上下载表达谱数据1) 网址及数据库概述GEO主页:http://www.ncbi.nlm.nih.gov/

3、geo/GEO数据库中包含四种类型的条目,分别以GPLXXXX(检测平台),GSMXXXX(生物样本),GSEXXXX(基因表达系列),GDSXXXX(基因表达数据集)表示。其中GPLXXXX有SAGE、MPSS、单色芯片(Affymetrix)、双色芯片(spotcDNA/DNA)几种;GSEXXXX与GDSXXXX的区别在于:GSE是实验者一次一起提交的数据集,包含原始的数据文件,而GDS是GEO数据库的维护者根据样本和实验平台的特性进行整理的,与原有的GSE数据可能有样本量上的差异;一般GDS都有对应的GSE数据;GDS不包含单独的原

4、始数据,如果想获得其原始数据,需要链接到他的GSE网页上下载;GDS样本间的可比性更强,如果有GDS就先分析GDS。2)数据下载GEO可提供两种数据的下载,一种是整理好的soft格式数据,是一个数据矩阵,包含多个基因在多个条件下的表达值,如GDS2220.soft;另一种是单独的数据文件,每张芯片一个数据表格,如GSE3519_family.xml文件夹里的文件,就是对应GDS2220这次实验的原始数据。另外还有一个GDS2220.annot数据是提供基因描述的。具体的下载方式如下:在GEO主页上(图1),可以通过浏览(browse)或qu

5、ery中输入疾病名字,如风湿性关节炎(rheumatoid arthritis)在Datasets后,点击go进行搜索,结果如图2。图1.GEO的主页图2.GEO的搜索结果之后点击你感兴趣的GDS集合,如GDS2220,就进入每套数据的页面了(图3)。图3.GDS2220数据的浏览界面在图3中,点击下拉菜单中的DataSet SOFTfile,就能下载GDS2220.soft文件;点击AnnotationSOFTfile就可以下载GDS2220.annot文件;点击seriers family miniml file就可以下载GSE3519

6、_family.xml文件夹,但这个速度较慢,这里有个小窍门,大家可以在迅雷中新建一个下载任务,粘贴地址: ftp://ftp.ncbi.nih.gov/pub/geo/DATA/MINiML/by_series/GSE139/GSE139_family.xml.tgz ,这里GSE139是可以替换的,比如要下载GDS2220配套的数据,就直接把两个GSE139都替换成GSE3519就可以直接下载了;点击seriesfamilysoftfile下载的文件与GDS2220.soft类似,只是样本是GSE3519的数据,可能和GDS2220的样

7、本不同,这里是相同的。也可以通过以下方式寻找特殊平台的数据。3) 文件描述(a)GDS22.soft该文件从上到下分为三个部分:第一部分,数据集合基本描述,文字形式,以!或#开头;第二部分,表格的表头,如“ID_REF                  IDENTIFIER      GSM80309         GSM80310         GSM80311         GSM80312         GSM80313         GSM80314         GSM80315        GSM80316    

8、     GSM80317”,以tab键分割,表示下面的数据部分每一列的含义;第三部分,数据,如GDS2220.soft中第一列为每一个基因的编号,第二列是基因名字,第三列是GS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。