资源描述:
《在Matlab中探索基因表达数据》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、在Matlab中探索基因表达数据本文利用Matlab及其牛物信息学工具箱提供的函数识别差界表达基因并利用基因本体论确定差异表达基因的生物学功能。引言包含寡核苗酸或CDNA探针的微阵列可用来比较基因组尺度的基因表达谱,微阵列试验的重要目的在于确定不同条件下,如两种不同的肿瘤类型,是否存在统计显著的基因表达量的变化进而确定差异表达基因的生物学功能。本文利用一个公共数据集來说明计算过程,这个数据集包括42个胚胎中枢神经系统肿瘤组织(CNS,Pomeroyetal.2002),样本采用Affymetrix公司岀品
2、的HuGeneFL基因芯片进行杂交。这些CNS数据集(CEL文件)可在CNS实验网站获得,42个肿瘤样本包括10个10个髓母细胞瘤,10个横纹肌样脑膜瘤,10个胶质瘤,8个幕上原始神经外胚层肿瘤和4个正常人小脑,CNS原始数据集用鲁棒多芯片平均(RMA)和GC鲁棒多芯片平均(GCRMA)进行了预处理。可以采用t检验和假发现率(FDR)來检测不同肿瘤类型间差异表达的基因,还对以探索与显著上跳基因相关的基因本体论术语。载入基因表达数据用Load命令加载MAT文件cnsexpressiondata包含三个Dat
3、aMatrix对象,expr_cns_rma,expr_cns_gcrma_mle/andexpr_cns_gcrma_eb,分别储存用RMA和GCRMA(MLE和EB)预处理的基因表达值。loadcnsexpressiondata在每个DataMatrix对象中,每行对应一个HuGeneFI芯片的探针集,每列对应于一个样本,行名是探针集的ID而列名为样本名,本文用expr_cns_gcrma_eb示例,当然也可以用其他对象。调用get命令获取DataMatrix对象的特征。get(expr_cns_gc
4、rma_eb)Name:'CNSgeneexpressiondata*RowNames:{7129x1cell}ColNames:{1x42cell}NRows:7129NCols:42NDims:2ElementClass:'single'确定DataMatrix对彖expr_cns_gcrma_eb中的基因和样本的数目。[nGenes,nSamples]=size(expr_cns_gcrma_eb)nGenes=7129nSamples=42可以用基因符号来代替探针集的ID用于标记基因表达值,HuG
5、eneFI芯片的基因符号在一个包含Java哈希表的MAT文件中。loadHuGeneFL_genesymbol_hashtable;为hu6800genesymbol_hashtable变量创建一个基因表达值的基因符号的cell矩阵。huGenes=cell(nGenes,1);fori=l:nGeneshuGenes{i}=hu6800genesymbol_hashtable.get(expr_cns_gcrma_eb.RowNames{i});end用DataMatrix的rownames方法将exp
6、rs_cns_gcrma_eb中的行名设成基因符号。expr_cns_gcrma_eb=rownames(expr_cns_gcrma_eb,丫,huGenes);基因表达数据的过滤首先除去没有基因符号的表达数据,如标成的空符号。expr_cns_gcrma_eb(‘…::)=[];在这个研究中很多基因没有表达或在样本间变化很小,这些基因需要用非特异性过滤除去。用genelowvalfilter函数滤除绝对表达量值很低的基因。[mask,expr_cns_gcrma_eb]=genelowvalfilte
7、r(expr_cns_gcrma_eb);用genevarfilter函数滤除样本I'可方差很小的基因。[mask,expr_cns_gcrma_eb]=genevarfilter(expr_cns_gcrma_eb);确定过滤以后的基因数目。nGenes=expr_cns_gcrma_eb.NRowsnGenes=5758识别差异基因表达现在可以比较一下CNS髓母细胞瘤(MD)和非神经源恶性胶质瘤(Mglio)Z间基因表达值的差异了。从42个样本中提取10个MD和10个Mglio样本数据。MDs=str
8、ncmp(expr_cns_gcrma_eb.ColNames,‘Brain_MD8);Mglios=strncmp(expr_cns_gcrma_eb.ColNames,Brain_MGIio‘,11);MDData=expr_cns_gcrma_eb(:,MDs);get(MDData)Name:HRowNames:{5758x1cell}ColNames:{1x10cell}NRows:5758NCols:10NDim