多因素癌症诊断分类模型的建立和应用

多因素癌症诊断分类模型的建立和应用

ID:38210800

大小:155.61 KB

页数:6页

时间:2019-06-03

多因素癌症诊断分类模型的建立和应用_第1页
多因素癌症诊断分类模型的建立和应用_第2页
多因素癌症诊断分类模型的建立和应用_第3页
多因素癌症诊断分类模型的建立和应用_第4页
多因素癌症诊断分类模型的建立和应用_第5页
资源描述:

《多因素癌症诊断分类模型的建立和应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《生命的化学》2010年30卷3期·368·●MiniReviewCHEMISTRYOFLIFE2010,30(3)文章编号:1000-1336(2010)03-0368-06多因素癌症诊断分类模型的建立和应用孙淳刘银坤复旦大学附属中山医院肝癌研究所,上海200032摘要:随着基因组学、蛋白质组学技术的运用,对癌症相关分子标志物的筛选,以及基于多个分子标志物的诊断分类模型,成为近年来研究癌症诊断问题的热门途径。本文介绍了如何从基因芯片和质谱等数据库中筛选有诊断作用的分子标志物,以及构建高敏感性、高特异性诊断分类模型的技术路线;并根据在各类肿瘤中的研究实例,分析各分类算

2、法的特点。关键词:分子标记物、生物信息学、分类模型中图分类号:Q3临床上对癌症的诊断,一般依赖于影像学资料1.1数据的预处理及若干诊断标记物。这些标记物包括各类癌细胞抗因为实验过程中存在着多种“技术”的和“生原以及各类糖链抗原,如甲胎球蛋白、癌胎抗原等。物学”的影响因素,在比较多个实验数据前,必须然而由于基于单个分子标记物的癌症诊断分类模型,对原始数据进行归一化处理,以减少或消除各个实尚未表现出令人信服的敏感性和特异性,新的癌症验间的差异。相关的组织或血清分子标记物的筛选和鉴定、评估在基因芯片实验中,“看家基因”常被作为对其诊断价值已经成为肿瘤研究的重要领域之一[1,

3、2]。照,利用对照点信号和样品点信号的比值,来减小癌症作为一种多因素、多通路参与的疾病,需要对“技术”误差。“生物学”的误差则通常由重复实验疾病信号分子更加全面的、丰富的了解,辅以生物来优化。在具体计算中,基因芯片数据的归一化经信息学数据挖掘的技术,构建出基于多个标记物的常借助于Lowess回归来实现,随后一般会通过Sig-诊断分类模型,以提高诊断准确率。本文将对近年nificantAnalysisofMicroarray(SAM)软件筛选差异表来相关的研究成果进行简要介绍。达基因,并对其进行聚类分析。1.数据挖掘技术路线在质谱实验中,在得到基于多肽组的原始谱图基因组

4、及转录组的芯片技术和蛋白质组及代谢后,一般要先进行谱图的校准。谱图的校准旨在保组学的质谱技术作为目前最常用的实时、高通量检证同一样品中同一峰的强度在多次测量中保持一致,测方法,在疾病分子标记物的筛选中起了核心作用,除了商品化质谱仪自带的配套软件,一些研究小组其所得到的海量数据在利用生物信息学分析技术进还开发了在文件格式上更具普适性的软件,以克服行数据挖掘后,将对疾病的分类诊断产生重要意义。各类上下游分析软件的格式兼容问题[3]。在谱图被构建疾病分类模型,通常需要进行如下几步工作:校准后,仍需对其进行消噪和标准化。消噪处理包数据的预处理、特征选择及分类算法选择和数学模括

5、去除基质、电子干扰以及离子无规则运动等造成型的检验。的干扰以及校正谱图的基线[4,5]。标准化旨在消除样本或仪器所造成的系统误差,通常使用所得峰的平收稿日期:2009-12-08均值或中位数作为参照[6]。随后,各谱峰所对应的作者简介:孙淳(1984-),男,硕士生,E-mail:bacchicsc@质荷比与强度才能被有效地测定。后续承担差异峰hotmail.com;刘银坤(1944-),男,教授,博士生导师,通讯作者,E-mail:liu.yinkun@zs-hospital.sh.cn筛选工作最常用的软件是BiomarkerPatternSoftware《生命的化

6、学》2010年30卷3期●小综述·369·CHEMISTRYOFLIFE2010,30(3)(BPS)。算法[22]。1.2特征选择及分类算法选择在基于基因芯片的分类模型研究中,除了使用通过基因芯片技术以及质谱技术,研究者得到到上文提及的决策树法[23]、人工神经网络法和支持大量关于基因和肽段表达量的数据。在不同类别的向量机法[24,25]以外,还包括PAM法(PredictionAnaly-样本中,如果某个或多个表达量有明显的差异,那sisofMicroarrays)[26,27]、最近均值法(Nearest-mean)[28]、么基于该基因或肽段的分类模型就可能对

7、疾病的诊最近质心法(ClassifierofNearestCentroid)[26]、k近邻断或预测具有很强的鉴别力。被选择的标记物(或称法(k-nearestneighbor)[29,30]、对数线形法(Log-linear)[31],为属性)通常需要有如下特征:对疾病的鉴别或分类多维秩分析法(Multi-DimensionalRanker)[25]、混合共具有病理学意义,具有属性间相互作用的信息,应变预测法(CompoundCovariatePredictor)[32]等。各种当尽可能的减少属性个数以做到合理高效。因此,分类算法的优劣很难仅从其数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。