差异表达基因识别算法性能比较和研究

差异表达基因识别算法性能比较和研究

ID:6238723

大小:26.50 KB

页数:5页

时间:2018-01-07

差异表达基因识别算法性能比较和研究_第1页
差异表达基因识别算法性能比较和研究_第2页
差异表达基因识别算法性能比较和研究_第3页
差异表达基因识别算法性能比较和研究_第4页
差异表达基因识别算法性能比较和研究_第5页
资源描述:

《差异表达基因识别算法性能比较和研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、差异表达基因识别算法性能比较和研究  摘要生物信息学研究的一项重要课题就是对芯片上成千上万个基因点的杂交信息进行解读,从而揭示生命特征及规律。不同的数据分析处理方法会得到截然不同的分析结果。本文简述了三种不同类型的差异表达基因识别算法,并采用Java语言进行实现,最后结合模拟基因表达数据计算结果,对三种算法计算准确度和运算速度进行了详细的比较与分析。【关键词】基因芯片差异表达基因算法1引言Microarray技术,亦称生物芯片技术。作为一种高通量检测技术,它可以同时检测几十万个大分子生物表达水平,大规模的提高了检测效率,是生物信息学领域具有里程碑式意义的一项重大技术革新。生物

2、信息学研究的一项重要课题就是对芯片上成千上万个基因点的杂交信息进行解读,从而揭示生命特征及规律[1]。差异表达基因识别是一项重要的基因芯片数据的分析方法。通过该技术可以找到疾病中表达水平发生显著变化的基因,进而对疾病的预后有着极为重要的意义。2差异表达基因分析算法5在研究中,我们需要在两种完全不同的实验条件下(例如癌症与非癌症患者)处理生物样本,主要目的就是要得到不同条件下的基因表达值。其中,处理后的样本被称为实验组样本;未被处理的样本被称为对照组样本。下面我们简述SAM、t-test和RSDM三种不同类型的差异表达基因识别算法。2.1SAM算法2001年由Tusher提出的

3、基因芯片显著性分析算法SAM是一种基于统计分析理论的差异表达基因识别算法。检验统计量如公式2.1所示:……………(2.1)式中代表实验组基因样本均值,代表对照组基因样本均值,为标准差,是的调整常量。估算的期望,如公式2.2所示:……………(2.2)SAM算法流程如下:构造检验统计量并排序;计算期望值;识别差异表达基因(统计量与其期望的差别超过门限值);计算错误发现率FDR(即在多重检验中,错误的拒绝原假设数与拒绝原假设总数的比值的期望)。2.2T-test算法T-test算法主要用于计算样本量小的正态分布数据。该算法是一种简单的、基于统计分析理论的差异表达基因识别方法。Glo

4、balT检验统计量如公式2.3所示:5…………(2.3)Gene-specificT检验统计量如公式2.4所示:…………(2.4)上式中,代表基因表达值平均对数比,代表合并数据集的标准误差,代表标准误差对数比。Gene-specific方法的主要特点是不受异质性数据的影响。2.3RSDM算法RSDM是一种具备标准差过滤技术的元分析差异表达基因识别算法。该算法可以处理异质性数据集,通过对多组同质芯片数据进行整合分析,计算差异表达基因,并通过标准差分析,滤除计算结果中存在的部分伪差异表达基因[3]。算法流程如下:计算实验组与对照组数据的差异度量值;形成差异度矩阵,并对矩阵数据排序

5、;使用统计量判断差异表达基因;计算每个基因的标准差,进行B次随机扰动,计算P-value。3差异表达基因识别系统为了比较三种算法的性能,我们采用Java语言设计并实现了一款集成了三种差异基因识别算法的软件系统。软件主要具备数据导入、算法选择、差异表达基因识别以及结果读取等主要功能。软件功能流程如图3.1所示。4实验与分析5采用上述系统对包含3000个基因的模拟数据集进行实验与分析。模拟数据中预置了30个差异表达基因,其中上调基因20个,下调基因10个。对原始数据进行标准化处理,然后分别采用三种差异表达基因识别算法SAM、T-test和RSDM进行计算,最终得到三组不同的数据,

6、我们对其进行比较与分析,结果如表4.1所示。上表中,伪差异表达基因代表算法所识别的结果中所包含的非差异表达基因个数,识别率代表算法发现的正确的差异表达基因占总差异表达基因数量的比率。SAM算法共发现24个差异表达基因,其中伪差异表达基因5个,识别率为63%;T-test算法共发现26个差异表达基因,其中伪差异表达基因3个,识别率为77%;RSDM算法共发现了全部30个差异表达基因,其中伪差异表达基因为0,识别率为100%。通过实验结果可以发现,RSDM算法的准确度最高,其次是T-test,SAM的准确度相对最低;对于算法运算处理速度,SAM最快,其次是T-test,RSDM相

7、对较慢。5结论5差异表达基因的识别是微阵列基因表达谱数据分析的一项重要任务。通过比较正常和非正常状态下基因表达的差异,对于生物疾病的发生机理及预后预测都有极为重要意义。我们对SAM、T-test、RSDM三种不同类型的差异表达基因识别算法进行了简要的描述,并结合实验数据对三种算法计算准确度和运算速度进行比较与分析。希望本文的工作能为从事生物数据分析的科研工作者提供一定的帮助。参考文献[1]CandesEJ,etl.AnIntroductiontoCompressiveSampling[J].Signal

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。