欢迎来到天天文库
浏览记录
ID:38640746
大小:715.00 KB
页数:30页
时间:2019-06-16
《蛋白质质谱高通量分析平台》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、蛋白质质谱高通量分析平台文献:《蛋白质质谱高通量分析平台的建立及其在消化道肿瘤中的应用性研究》作者:余捷凯 学校:浙江大学 发表时间:2006-06-01内容简介一、血清蛋白质质谱标准化方法的建立二、建立蛋白质质谱高通量数据分析平台三、蛋白质质谱标准化分析平台的验证及其在大肠癌中的应用四、蛋白质质谱标准化方法分析平台在其他消化道肿瘤中的应用研究五、肿瘤特异性标志物鉴定1.简介2.数据预处理去除噪音和基线,局部极值法和信噪比过滤寻找峰,峰的重复性比较,不同样本中同一个峰聚类成簇,强度均一化,数据标准化3.候选肿瘤
2、标志物的筛选建立蛋白质质谱高通量数据分析平台一.简介简介蛋白质组学质谱数据是做了必要处理的生物样本经过飞行时间质谱仪产生的。质谱仪输出的数据是一系列质荷比及其对应的观测信号强度的数据对列表:第一个值是质荷比,记做m/z;第二个值是观测信号强度或谱丰度,记做intensity.每次测量可以产生几万至几百万个这样的数据对。将m/z作为横坐标,intensity作为纵坐标,整个数据对列表构成蛋白质组学谱图。简介传统的方法使用3个软件来完成数据分析:ProteinchipSoftware3.2:calibration和normaliz
3、ation;Biomarkerwizard3.1:信噪比过滤和寻找蛋白质峰;BiomarkerPatternsSoftware5.0:筛选候选肿瘤标志物并建立决策树模型。简介缺点:过程复杂,耗时耗力,效果不理想,设备昂贵二.数据预处理应用小波变换降低噪音:离散小波变换(DWT)线性平移不变离散小波变换(UDWT)1.去除噪音和基线分别对它们去除噪音的效果做了比较。并比较了UDWT的硬阈值和软阈值,以及阈值的具体取值。基线采用局部最小(中值)线性拟和的方法来去除。1.去除噪音和基线1.去除噪音和基线去除噪音和基线的效果如图:蓝线
4、为处理前红线为处理后1.去除噪音和基线去除噪音和基线后的质谱数据用局部极值法结合信噪比过滤可以很好的寻找蛋白质峰。如下图所示:a为原始图谱,b为局部极值法扫描图,c为信噪比5,d为信噪比为32.局部极值法和信噪比过滤寻找峰结果显示,这部分数据用信噪比为3(图d),可以得到较好的蛋白质质峰。2.局部极值法和信噪比过滤寻找峰以此方法找到的峰总共为在80%以上的样本中均出现的为64个;而传统方法在80%以上的样本中均出现的样本数仅为17个。重复性总体上提高了60%3.找到的峰的重复性比较这里以0.3%为分子量的偏差范围来聚类,
5、即在平均分子量前后0.3%的峰都认为是同一个。并将那些只在10%以下的样本中出现的峰进一步过滤掉,因为它们可能是个别实验的误差引起的。4.不同样本中同一个峰聚类成簇传统方法都是用ProteinchipSoftware3.2软件的totalionnormalize来实现样本间的均一化,但是用总离子强度的均一化会将噪音也作为其均一化的一部分,直接导致蛋白峰均一化的减弱。本研究改进了方法,只对以上步骤找到的峰簇进行均一化,消除了噪音对强度均一化的影响。5.强度均一化将原始数据标准化到[-1,1]的范围内,这将使接下来的模型分析的
6、准确率有所提高。Pn=2*(p-minp)/(maxp-minp)-1Pn为标准化后的数据,p是标准化前的数据,minp为标准化前数据中的最小值,maxp为标准化前数据中的最大值。6.数据标准化三.候选肿瘤标志物的筛选特征提取的必要性:第一.大部分蛋白质峰(特征)对肿瘤与正常组织之间的分类问题不提供有用信息第二.这些无用特征将会给系统引入干扰第三.特征提取有助于克服模型的过适应现象第四.客观上在临床需要用最少的标志物达到最佳差别效果特征提取的策略主要分为模型依赖型方法和过滤方法。本研究采用了过滤法和模型依赖法相结合的策略。过
7、滤的过程采用秩和检验,将P值小于0.05的作为没有差异表达的蛋白质峰直接过滤掉。统计过滤后留下的特征向量进一步用模型依赖法筛选。这里采用的是遗传算法结合模式识别的方法,这是一种全局最优化策略。遗传算法基本要素:参数编码为染色体(这里把蛋白质峰是否被选中作为染色体结构特征);初始群体的设定;适应度函数(这里采用模式识别的预测效果);选择、杂交和变异策略;控制参数(终止条件等)。分别将蛋白质峰编码为染色体,每个染色体的每个等位基因都由0或1组成,对应的蛋白质峰即为没有选中和选中。遗传算法的适应度函数为平均正确率,设置种
8、群大小为100(即每代中有100个个体),变异率为0.1(较高的变异率,为了得到更多样性的个体),交叉率0.8.以甲状腺癌和甲状腺结节的区分为例,通过秩和检验过滤法,得到蛋白质峰共14个。将染色体的不同编码作为遗传算法的不同个体,通过选择、杂交和变异等遗传方法产生下一代,最后
此文档下载收益归作者所有