基于临床与基因图谱的结肠癌基因标签提取

基于临床与基因图谱的结肠癌基因标签提取

ID:47878113

大小:497.80 KB

页数:24页

时间:2019-11-17

基于临床与基因图谱的结肠癌基因标签提取_第1页
基于临床与基因图谱的结肠癌基因标签提取_第2页
基于临床与基因图谱的结肠癌基因标签提取_第3页
基于临床与基因图谱的结肠癌基因标签提取_第4页
基于临床与基因图谱的结肠癌基因标签提取_第5页
资源描述:

《基于临床与基因图谱的结肠癌基因标签提取》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、全国第七届研黑生数学建栈丸题0基于临床与基因图谱的结肠癌基因标签提取摘要由于基因间的调控和相互作用表现为“功能基因组合”形式,基因的功能与作用是集体作用的结果,而非单个基因单独作用的结果,表现在分类特征对样本的分类能力方面就是以特征集合的形式整体体现出來的。根据这个生物学知识,本文考察由多个基因构成的基因簇作为区分正常人和癌症患者的分类因素,利用独立成分分析(1CA)技术对已给岀的基因表达采样数据进行分析,最大程度地降低基因之间强烈的相•互影响,从而获得对判断是否患有肿瘤或者癌症的最有直接关系但数目较少的潜在因素,即基因簇信息。随后,我们采用了支持向量机(SVM)

2、依据提取出的潜在因素(基因簇)进行分类,筛选出致病的癌症基因15个。另外,我们还运用基于灵敏度的支持向量机对基因木身进行分类,而不是基于基因簇。利用得到的结果与基于独立成分分析的方法所提取的基因提供比较。发现所筛选的基因簇中有三个基因与灵散度支持向量机方法筛选的基因相同。对预处理过后的1908个基因,通过独立成分分析提取出61个基因簇,这些基因簇屮含冇与分类无关的基因簇,即噪声,以及与分类相关的分类因素5个。事实上,为了能够得到最好的分类因素,我们将问题转化为一类信号稀疏表示的优化问题。此外,为了进一步进行基因分类,我们利用含噪声的ICA和带松地因子的非光滑优化模

3、型研究带有噪声的基因图谱信息。通过含噪声模型与不含噪声模型进行对比,说明含噪模型的优势。最后,借助于条件概率模型,对病人数据进行了筛选,将临床结论与基因图谱相结合,通过已有文献以及生物信息网站所获取资料发现,所筛选的大部分基因标签与当今临床医学所得到的直肠癌研究结论相吻合。关键词:含噪基因簇独立成分分析支持向量机非光滑优化模型临床基因标签一、问题的重述癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原來的正常分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平)。

4、所以探讨基因分布的改变与癌症发生Z间的关系具冇深远的意义。随着大规模基因表达谱(Geneexpressionprofile,或称为基因表达分布图)扌支术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都冇了参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。通常由于基因数冃很大,所以在判断肿瘤基因标签的过程中,我们需要剔除掉大量“无关基因”,从而大大缩小需要搜索的致癌基因范围。从project_data.txt数据中获取的基因表达谱中的数拯中包含62个样本(其中22个为正常人样木,40个人为癌症病人样木),每个样木

5、屮包含2000条基因数据,我们着重需要解决以下几个问题:(1)由于基因表示Z间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会冇大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突变基因数目很少。对于给定的数据需要选择最好的分类因素;(2)相对于基因数口,样木往往很小,对于给定的结肠癌数据需要从分类的角度确定相应的基因“标签”;(3)基因表达谱中不可避免地含有噪声,对含有噪声的基因表达谱提取信息时会产生偏差,需要建立噪声模型去分析给定数据屮的噪声对确定基因标签产生冇利的影响;⑷在肿瘤研究领域通常会已知若干个信息基因C如APC、RAS基因)与某种癌症

6、的关系密切,需要建立融入了这些冇助于诊断肿瘤信息的确定基因“标签”的数学模型。二、模型假设1.基因表达谱数据中虽然含有噪芦,但随机噪声的强度不会淹没真止的基因信2.不同基因信号之间的兀余关系是存在的。三、数据预处理基因芯片经激光扫描仪扫描,再经图像分析软件进行处理,得到反映基因表达水平的数据序列。这些数据用于差界表达基因的鉴别和基因表达模式的分析之前,还需要进行初步的处理。如为了从生物学角度上更好地解释及使数据满足特定的数据分布,需要对荧光强度数据进行对数转换;实验屮系统误差的存在使得不能对不同样本的数据进行直接比较,因此针对系统偏倚产生的原因而进行数据归一化是必

7、要的,也是数据预处理中重要的一个步骤。(-)数据的对数转换对数据进行对数转换是基于以下一些方而的原因。首先是在生物学上易于理解和解释。假设两个基因在对照样品屮的背景校正强度值均为1000,而在另外一种实验条件下的强度值分别为100和10000。如果从对照与实验的绝对值来看,一个基因表达的变化远远大于另一基因,即10000-1000»1000-100o但是,从主物学的角度出发,两个基因变化的是相等的,都是10倍的变化。用对数转换可以消除这种由两个和对变化间的不成比例所引起的误导。例如,对数据进行以10为底的对数变换,则IglOO=2lgl000=3lg10000=4

8、可以看出,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。