数据挖掘的模糊系统实现

数据挖掘的模糊系统实现

ID:32470657

大小:3.64 MB

页数:136页

时间:2019-02-06

数据挖掘的模糊系统实现_第1页
数据挖掘的模糊系统实现_第2页
数据挖掘的模糊系统实现_第3页
数据挖掘的模糊系统实现_第4页
数据挖掘的模糊系统实现_第5页
资源描述:

《数据挖掘的模糊系统实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要的实验也证明了这两种输入选择方法的有效性。本文对许多著名数据挖掘问题进行了较全面的分析,如MPG预测问题,BoxJenikin煤气炉问题,波士顿住房问题,得到了许多形象、生动、有趣的结沦。杨灿于浙江人学2005年11月引言本课题的研究背景“我们淹没在信息的海洋里,却因缺乏知识而饥渴万分。”一RoutherfordD.Roger随着信息时代和计算机时代的到来,对我们人类而言,数据与信息的获得都更加方便和快捷。但是,数据处理的问题却因大量的、复杂的数据而变得更加棘手。这些大量的数据能告诉我们什么呢?这就是“数据挖掘”的目标。我们要从错综复杂

2、的数据中去发现某种重要的模式、某些重要的趋势,真平地去理解数据的内涵,这就是从数据中获耿知识。因此,我们需要一种理论,能系统地描述人类知识并将其同其它信息一起嵌入到实际系统中去。模糊系统正是这样的一个理想的系统。一般地讲,一个好的工程理论应该能够有效地利用得到的信息。对于大多数实际系统来说,有两个重要的信息来源:一个是用自然语言描述系统性能的专家;另一个是传感器提供的测量数据和根据自然法则推导出来的数学模型。因此,一项重要的任务就是怎样将这两类信息整合到系统设计巾去。实现这种整合的关键在于怎样将人类知识整合到同传感器测量结果及数学模型类似的

3、“框架”中。基于规则的模糊系统允许以人类语言的形式来表述各种信息,因此使模型极易被人理解。模糊集合在真值变量与语言变量问起到了极其重要的作用。从数学的角度讲,模糊系统是一个万能逼近器,可以任意精度地逼近任意连续函数。正如王立新教授(wang,1997)所指出的:“模糊系统理论有以下特点:·强调充分利用各种所能获得的信息,包括数据信息,模型信息,语言信息等。·将各种信息融为一体,在一个统一的数学框架下进行研究。·强调实用性与理论完备性相结合,以实用性为先导。·应用对象不限于某个邻域,而广泛适用于工程、经济、金融、管理、社会等各个邻域。”引言但

4、是,这并不意味着模糊系统己经完美无缺。现有的模糊系统依然存在着一些问题,我们把这些问题归为两个大类:1.现有的许多模糊建模方法仅仅是从函数逼近这个角度来研究,即如何改进函数逼近精度以及建模的速度。这只是根据模糊系统万能逼近的性质来进行模糊建模,如何更加充分地利用各种信息尤其是来自于数据的信息呢?这就是数据挖掘提出的新要求!模糊系统因为它的规则库而倍受人们的关注与青睐,这是因为规则库能够向人们提供所研究问题的信息,这是其它建模方法所无法比拟的。然而,现有的模糊建模方法还没有能很好地考虑这一点,而仅仅是从函数逼近这个角度来进行研究,还没有真证充

5、分发挥模糊系统的优越性。以函数逼近为目标的众多方法中,Jang(1993)的ANFIS是最为出色的。据我们了解,到目前为止尚未有方法从逼近速度和精度两个方面同时超过ANFIS。ANFlS(图1)的参数辨识采取了混合辨识算法,隶属度函数部分的非线性参数采用最速下降法,结论部分的线性参数用最小_二乘法,因此ANFIS具有十分快速和高精度的逼近能力。但是由于ANFIS只从函数逼近角度考虑,所得到的模糊规则较难以解释;更令人焦虑的是,ANFIS擅长于对数据内插值而不善于外推(这点在本文的第四章中有实例)。这些缺点对于数据挖掘而言是致命的。×y图1.

6、ANFIS的结构图ZWang(1994)的最近邻聚类法和Chiu(1994)掣J减法聚类法是两种非常快速的建模方法(速度比ANFIS更快,但精度稍差)。这两种方法的最人不足是无法引言提供特别有意义的规则库,因而模糊系统独特的优势还是没能发挥出来。还有的方法,如Wang(1994)的正交最小二乘法,Takagi和Sugeno(1985)的连续划分法,Brown和Harris(1994)的样条构造法等等,都存在这样的问题,详见综述文章Guillaume(2001)。构建高精度、可解释的模糊系统是我们的建模目标,从而能更加充分地提取数据信息。2.

7、面对高维数据,现有的模糊系统几乎都面I临着维教灾难的问题:模糊规则的指数增长;大量参数需要拟合而却只有十分稀疏的数据散落在高维空间。问题的复杂度随涉及变量数目的增加而指数上升是一个常见现象,这不为模糊系统所独有。Bellman(1961)称这种现象为“维数灾难”,Hastie(2001)也详细地描述过这种现象。模糊系统在处理高维问题时主要面对着两方面的问题:一是模糊规则随维数的升高而指数增长,具体地讲,假设有以个输入变量,每个输入变量定义m个模糊集合,则模糊系统的规则数为m”。当n值较大时,珊”将是一个巨大的数,在实际中,有五个输入变量并不

8、鲜见,当n=5,m=3(通常每个变量需要定义3个模糊集合)时,m"=243;如果m=5,这比m=3更接近实际,则m"=3120。在一个模糊系统中要采用数千条规则是不现实的,所以模

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。