一种有效的dna微阵列数据特征基因提取的策略

一种有效的dna微阵列数据特征基因提取的策略

ID:23756691

大小:60.50 KB

页数:8页

时间:2018-11-10

一种有效的dna微阵列数据特征基因提取的策略_第1页
一种有效的dna微阵列数据特征基因提取的策略_第2页
一种有效的dna微阵列数据特征基因提取的策略_第3页
一种有效的dna微阵列数据特征基因提取的策略_第4页
一种有效的dna微阵列数据特征基因提取的策略_第5页
资源描述:

《一种有效的dna微阵列数据特征基因提取的策略》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、一种有效的DNA微阵列数据特征基因提取的策略微阵列数据[1]广泛而成功地应用于生物医学的癌症分类研究。一个典型的微阵列数据集包含大量(通常成千上万,甚至数十万)的基因和相对较少(往往少于一百)的样本。在这成千上万的基因中,只有一小部分基因有助于癌症分类。因此,对于癌症的分类,如何找到对于样本分类来说起决定性作用的一组基因作为样本的分类特征基因,是建立一个有效分类模型的关键所在,同时也是发现肿瘤分类与分型的基因标记物及药物治疗潜在靶点的重要手段。  鉴于特征基因的选取在肿瘤分类中的重要作用,研究者们针对该问题提出了大量研究方案[2?6]。本文在分析肿瘤基因表达谱特征的基础上,提出了基于Relie

2、fF_DE的基因特征选择方法。首先采用ReliefF算法计算每个基因与分类属性的相关性,并进行降序排列,取[N]个关联性较大的基因作为候选基因子集;再使用差分进化算法对候选基因子集进行特征基因选择。本文选取了4个公共微阵列基因数据集进行仿真实验,实验结果表明,本文算法不仅可以在特征属性的选择上剔除了大量的冗余属性,而且分类精度有较大的提高。  1ReliefF算法  1992年Kira和Rendell首先提出Relief算法[7],算法首先对随机选择的[m]个样本的假设间隔进行计算,然后将计算结果累加起来作为属性的权值,最后根据属性权值的大小就可以近似地估计出对于分类最有用的特征子集。  假设

3、间隔定义为在保持样本分类不变的情况下决策面能够移动的最大距离,可表示为:  [θ=12x-M(x)-x-H(x)](1)  式中:[H(x),][M(x)]分别是与[x]同类和非同类最近邻点。  样本[x]更新属性[p]的权值可表示为:  [(x))m](2)  最初,Relief算法主要针对两类问题。于是1994年Kononenko对Relief算法进行了改进[8],提出ReliefF算法。算法的思想是将分类问题视为一类对多类关系加以解决,使算法可以解决多类问题和回归问题。其改进主要是在权值更新上,权值更新公式为:  [j(x))mk](3)  ReliefF算法的基本步骤:从训

4、练样本集中随机抽取出一个样本[x];从与[x]同类的样本集中找出样本[x]的[k]个近邻样本;从与[x]每个不同类的样本集中找出[k]个近邻样本;根据式(3)更新每个特征的权值。  ReliefF算法的优点:运行效率高、多类型问题处理、特征间的关系不敏感。缺点:不能很好地处理冗余特征,对与类别相关性高的特征都赋予较高的权值,而不考虑它们之间是否存在冗余特征。  2差分进化算法  差分进化算法(DifferentialEvolution,DE)[9?10]是基于群体搜索的启发式算法,通过种群内个体间的合作与竞争来实现对优化问题的求解。算法的基本步骤[11?12]如下: (1)初始化种群  初始种

5、群[x0i=xLi+rand(0,1)(xUi-xLi),][i=1,2,,NP。]其中[x0i]表示种群中第[0]代的第[i]条染色体(或个体),[NP]表示种群的大小,[rand(0,1)]表示在[(0,1)]区间均匀分布的随机数。  (2)变异操作  从种群中随机选择4个不同个体生成差分矢量对每代最优个体进行变异操作,这样既能提高算法的收敛速度,又能在一定程度上保持较高的种群多样性。  变异操作方式为:  [vg+1i=xg+1best+k[(xg+1s1-xg+1s2)+(xg+1s3-xg+1s4)]](4)  式中:[vg+1i]是对每一个[g]代个体[xgi]利用式(4)进行变异

6、操作而得到的变异个体;[xg+1best]是[g+1]中的最优个体;[g]是当前代;[s1,s2,s3,s4∈1,2,,N]是互不相同与[i]不同的随机数;[k∈0,1.5]为缩放因子,对差分量进行放大和缩小控制。  (3)交叉操作  为了提高种群的多样性,交叉操作方式为:  [yg+1i=vg+1i,j,rand(j)≤CRxgi,j,rand(j)>CR](5)  式中:[yg+1i]是利用式(5)对[xgi]和由式(4)生成的变异个体进行交叉操作而得到的试验个体;[rand(j)]是[[0,1]]之间的均匀分布随机数;[CR∈[0,1]]为交叉概

7、率。[CR]越大,[vg+1i]对[yg+1i]的贡献越多,当[CR=1]时,[vg+1i=yg+1i,]有利于局部搜索和加速收敛速率;[CR]越小,[xgi]对[yg+1i]的贡献越多,当[CR=0]时,[xgi=yg+1i]有利于保持种群的多样性和全局搜索能力。  (4)选择操作  采用贪婪搜索策略,经过变异和交叉操作后生成的试验个体[yg+1i]与[xgi]进行竞争。只有当[yg+1i]的适

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。