欢迎来到天天文库
浏览记录
ID:23617532
大小:2.10 MB
页数:41页
时间:2018-11-09
《基于邻域互信息的肿瘤基因选择研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第一章绪论1.1研究背景及意义大量不确定性问题和海量模糊数据的存在是现代信息社会的一大特点,是数据挖掘理论、方法和技术得以不断发展的主要原因。在生命科学研究中,近年来涌现了大量指数级增长的复杂数据,使得数据的获取能力己远远超出数据处理技术的发展。如何收集、存储、分析这些作为信息与知识载体的复杂数据,尤其是如何从这些异常复杂、数目繁多的数据库中提取有用的生物信息是获取这些数据的最终目的,也是当前生物信息学需要研究和解决的主要课题之一[¨。肿瘤是影响人类健康的主要疾病之一,尤以恶性肿瘤危害更为严重。精
2、确的分类和识别肿瘤细胞,是提高癌症诊断准确率和治疗效果的重要步骤,对整个人类社会具有重要的意义[21。传统的肿瘤识别主要是通过医疗工作人员对癌症组织的主观判断来决定,然而某些肿瘤疾病存在多种亚型,不同亚型肿瘤的临床表现特征非常相似,只依据病理检测结果,很难在临床上做出一个准确的诊断;同时在肿瘤早期阶段,癌症组织在形态等方面与正常组织相比没有显著变化,这也为肿瘤的早期诊断带来了困难,不利于人类对癌症的诊断和治疗。近年来微阵列技术的出现,使得同时测定不同样本中基因的表达水平成为可能。当今生物信息和医学
3、等领域专家均认为肿瘤组织与正常组织之间,以及不同的肿瘤亚型之间在基因表达水平上均存在显著的差异【¨。因此利用肿瘤表达谱数据进行分类能够有效的对癌症进行诊断和治疗,这也是微阵列技术研究的热点领域。目前微阵列技术已经广泛地应用在白血病、结肠癌、乳腺癌、前列腺癌、淋巴癌等多种肿瘤的研究中。在微阵列实验的组织样本中,基因的数量往往成千上万,但与疾病有关的特征基因却只有几十或上百条,且疾病相关基因中包含大量冗余基因【3】。因此,特征基因选择是分析基因表达谱数据的必要步骤,具有至关重要的作用【4]。基因表达谱
4、数据具有高维度、低样本、不完备和连续型的特点【5】。为了克服高维度、低样本造成的“维数灾难”问题,将基因评估策略作为基因选择的初选方法,能极大地提高效率。然而初选得到的基因子集具有大量冗余基因,干扰正确基因子集的生成,需基于邻域互信息的肿瘤基因选择研究要通过相关降维技术有效地去除冗余基因。由于一些客观因素的存在,如遗漏、缺省等,使得基因表达谱数据集存在不同程度的缺失,这使得数据分析变得非常的困难,甚至容易出现严重的错误[6。8】。基因表达谱数据中所包含的基因是连续型属性,现行的研究方法多采用离散化
5、处理,其中等宽和等频是最早和最简单的离散化方法【91。它们不需要决策类提供信息,是无导师监督方法的一种。然而,通常属性值的分布并不是均匀的,且其噪声点会对离散化结果产生影响,这使得实际应用中的效果难以令人满意【协131。为此,引入邻域互信息作为相关度度量,直接处理连续型属性,着眼于提高分类精度,简化特征选择过程,降低分类算法的时间复杂度,整合缠绕法与封装法,以适用于处理基因数据,具有重要的理论意义和应用价值。1.2特征基因选择研究进展作为多学科交叉的研究领域,知识发现(也称作数据挖掘)、机器学习和
6、模式识别等均是智能信息处理技术方法的不同体现,其中特征选择又是这些研究领域的具体课题或主要方向之一【2】。尽管这些研究技术都有各自不同的研究目的和出发点,但它们都有’着相同或相似的数据处理方式,即从现有或历史数据中进行训练学习,并挖掘出潜在有用的模式,从而抽取出可用的知识,以描述或指导用户的行为[14】。特征选择就是从海量数据中发现或挖掘那些隐藏在数据背后的规律或模式的过程113,15-17】。它的主要任务是根据历史数据来发现那些有用的模式,其具体过程一般由数据收集、预处理、数据转换、学习/挖掘算
7、法和结果评估/解释等这五个步骤组成。特征选择从功能角度可分为预测型和描述型这两大类,其中预测型模式是指根据现有数据间的关系,预测或判定未知数据的行为方式或结果,即未来的行为由过去所发生的情况确定。描述型模式则是使用人们容易理解的方式描述或解释行为规律。根据模式的实际作用,特征选择又可细分为以下几种类型【18】:(1)分类模型(Classification)是对事先己知类别的样本数据进行归纳汇总,以找出各种类别的区分特点,即分类模式,并根据这些获取到的分类模式,对未知类别的样本数据进行类别预测或判定
8、。(2)回归模型(Regression)是从历史数据中找出对数值变化规律的准确描述,并依此预测未来趋势或数值。与分类模型预测样本所属类别不同的是,回归模型一般是预测样本数据的未来趋势或具体数值,如股票价格等。2第一章绪论(3)聚类模型(Clustering)是根据样本各自不同的特点将一个群体分成多个组或类,使得相同组的样本尽可能相似,而不同组的样本之间的差异尽可能大。注意到,聚类模型的具体类别和分类标准最初是未知的。(4)关联模型(Association)是利用事物同时出现的规律来
此文档下载收益归作者所有