基于gp算法的知识发现系统

基于gp算法的知识发现系统

ID:8934039

大小:56.50 KB

页数:10页

时间:2018-04-12

基于gp算法的知识发现系统_第1页
基于gp算法的知识发现系统_第2页
基于gp算法的知识发现系统_第3页
基于gp算法的知识发现系统_第4页
基于gp算法的知识发现系统_第5页
资源描述:

《基于gp算法的知识发现系统》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于GP算法的知识发现系统;李亚非3),&MS&tK8x#s[![州学习计算机其它计算机.gzU521.]3),&MS&tK8x#s[!摘要本文提出了一个新的知识发现系统。该系统以遗传编程算法为核心,解决发现一组属于面向对象数据库的对象所具有的共性问题。本文对系统作了扼要的说明,对gp算法进行了描述,并给出了一个实验例子。关键词进化计算遗传编程知识发掘在数据库中发现有用的知识是数据挖掘(datamining,dm)的主要任务,在一定的情况下,所有的数据库查询可以认为是完成这项任务。我们现在

2、有一套分析和探索数据的工具:sql查询、olap和数据挖掘技术。sql查询由关系代数所构成;olap提供了建立在多维数据模型基础上的高水平查询;而数据挖掘提供了最抽象的数据分析操作。我们可以认为不同的数据挖掘任务是在高水平上的复杂查询。数据挖掘是机器学习和数据库技术的交叉学科,dm系统的主要特点是:在数据库中发现能够用某些规则表述的、隐含的知识;与数据库是紧密集成的;高度自动化的;对知识发现的处理是有效率的(尤其对大型数据库)。这里我们给出一种基于gp(geicprogramming,遗传编程)算

3、法的知识发现系统,和通常对数据库的查询不同的是,这个系统可对特定的对象集产生特定的查询集,系统自动根据查询集访问数据库,从而发掘出数据库中隐含的知识。本文将对上述知识发掘过程进行详细描述,并提出了一种用遗传编程(gp)来进行数据挖掘的方法,gp个体由数据库查询组成,而这些查询代表了高水平上的规则。1系统基本结构我们在[1]文给出的知识发现系统结构基础上加以改进,给出如图1的基于gp算法的知识发现系统。1.1系统结构描述整个系统由gp引擎、oodbms(object-orienteddatabase

4、managementsystem,面向对象数据库管理系统)、知识库、db接口和用户接口组成。系统以一组对象、领域知识和模式信息作为输入。根据所给输入,gp引擎将产生许多随机的查询,系统将这些查询应用于oodbms,oodbms将返回其结果。系统用给定的输入对该返回结果进行评价,评价是计算个体查询的适应值的过程。那些能够匹配所给对象集的查询或查询集将被选中,在没有查询能够匹配所给对象集时,那么其最好的查询将被选中。最后,将能够最好地描述所给对象集特性的查询作为输出。1.2面向对象的数据库这里,我们假

5、定一个基于面向对象和函数的数据库模型(object-orientedandfunctionaldatamodel,oofdm),oofdm具有面向对象和函数数据模式的特性。这种模型要比传统的关系数据库模型在表达知识时更加逼近和容易。oofdm的基本概念是"将感知到的真实世界作为相互关系对象的变量,并从不同的更细的层次上观察这些对象。"[2]函数数据模型可以简单地借助函数的数学符号来表示数据间的关系。每个类(或实体集)有自己的属性和值,类与属性间的关系是将类中的对象集映射到属性域的一个函数。关系或逆

6、关系组成了类间的连接。1.3查询算子我们使用下列查询算子作为其面向对象数据库的查询语言。①selc-1[(谓词)]该算子选择所有属于c-1且满足谓词的对象。c-1既可以是一个类名也可以是一个属于c-1的查询。谓词是一个可选项。如果在这个算子里没有谓词,它将选择该类中的所有对象。②resc-1谓词该算子根据所给谓词,限制给定集合的对象与另一个类的对象关联。c-1和谓词同sel算子,但对于res的谓词属性必须是关系型的属性,而对于sel算子谓词属性则必须是非关系型属性。③relc-1r-rclass-

7、2该算子选择所有c-1中与c-2中对象有关联的对象。这是一个通过r-r将一个类c-1与另一个类c-2关联起来的关系算子。r-r可以是一个通过c-1中定义的关系集中的关系属性之一。c-1既可以是一个类名也可以是一个属于c-1的查询。c-2必须是一个类名或是一个属于c-2的查询,并且通过r-r关联到另一个类c-1。④g-relc-1r-rc-2该算子是rel的逆算子,它选择所有c-2中与c-1中对象有关联的对象。c-1、c-2以及r-r的意义同rel算子。2gp算法遗传编程(gp)属于进化计算(evo

8、lutionaryputation,ec)模型的一种。ec是一种借鉴自然界进化机制而产生的并行随机搜索算法。进化算法的基本原理是选择和改变,它区别于其他搜索方法有两个显著特征:首先这些算法都是基于种群(population)的;其次在种群中个体(indvidual)之间存在竞争。为搜索特定的(感兴趣的)查询需要一种工具,这种工具可智能生成一组查询并以它们是否能导出与用户给定的同样的对象集来进行评价。gp算法对这一类问题是很实用的。2.1函数集与端点集一般gp中可生成的程序集是使用者

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。