数据挖掘技术在化工优化中的应用

数据挖掘技术在化工优化中的应用

ID:37379294

大小:215.28 KB

页数:5页

时间:2019-05-22

数据挖掘技术在化工优化中的应用_第1页
数据挖掘技术在化工优化中的应用_第2页
数据挖掘技术在化工优化中的应用_第3页
数据挖掘技术在化工优化中的应用_第4页
数据挖掘技术在化工优化中的应用_第5页
资源描述:

《数据挖掘技术在化工优化中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第32卷第4期  江苏化工  Vol.32No.42004年8月JiangsuChemicalIndustryAug.2004专题论述数据挖掘技术在化工优化中的应用杨善升,陆文聪,陈念贻①(上海大学理学院化学系,上海200436)摘要:简要介绍了数据挖掘基本概念和发展现状,综述了数据挖掘的任务、数据挖掘的常用方法和技术,重点介绍了数据挖掘在化学工业优化中的应用,对数据挖掘在化学工业优化应用中面临的挑战进行了总结,并对其发展趋势进行了预测。关键词:数据挖掘;知识发现;化学工业;优化中图分类号:TQ015.9文献标识码:A  文章编号:1002-1116(200

2、4)04-0001-04  化工生产在生产产品的同时,也产生大量关于式识别、统计学、智能数据库、知识获取、数据可视生产过程的信息。这些信息的有效利用极大地促进化、高性能计算机和专家系统等多个领域。数据挖了化工生产的科学管理和生产优化,与此同时,日益掘的两个高层次目标是预测和描述。预测的基本任积累的信息也带来了许多新的挑战和问题,如信息务包括分类、回归、时间序列分析和预测。描述的基过量、信息真假难辨、信息安全隐患、信息矛盾等。本任务包括聚类、总结、关联规则和序列发现。面对这一挑战,数据挖掘技术应运而生,并显示了强数据库技术只是将数据有效地组织和存储在数大的生命

3、力。据库中,并对这些数据作一些简单分析,大量隐藏在一般说来,数据库里的知识发现(KnowledgeDis2数据内部的有用信息无法得到。而机器学习、模式coveryinDatabase,KDD),是指从大量的数据中提取识别、统计学等领域却有大量提取知识的方法,但没出有效模式的非平凡过程,该模式是新颖的、可信有和实际应用中的海量数据结合起来,很大程度上[1]的、有效的、可能有用的和最终可以理解的。而数只是对实验数据或学术研究发挥作用。数据挖掘从据挖掘(DataMining,DM)被认为是KDD中的一个步一个新的角度将数据库技术、机器学习、模式识别和骤,是指利用某

4、些特定的知识发现算法,在一定的运统计学等领域结合起来,从更深层次中发掘存在于[2]算效率限制下,从数据库中提取出感兴趣的模式。数据内部有效的、新颖的、具有潜在效用的乃至最终近十年来,数据挖掘技术无论在理论上,还是在实用[3]可理解的模式。数据挖掘常用方法及技术分为:技术上,都已取得了较大的进展,同时也开发出了[4](1)数学统计方法各种专用或通用的商业数据挖掘软件。在化学领数学统计方法主要用于完成总结知识和关联知域内,数据挖掘理论和算法的发展,极大地促进了计识挖掘。它利用统计学、概率论的原理对关系中各算机化学、化学计量学和化学信息学等新学科的发属性进行统计分

5、析,建立一个数学模型或统计模型,展。从1986年起,陈念贻等就利用数据挖掘的一种重要方法———模式识别技术从事工业优化工作,有以找出他们之间的关系和规律。常用的统计方法包关成果引起国内外关注[5~8]。括判别分析、因子分析、相关分析、回归分析、偏最小二乘回归(PLS)和聚类法等。1 数据挖掘技术概述(2)决策树数据挖掘是一门交叉学科,涉及到机器学习、模决策树技术主要用于分类、聚类和预测的预测①收稿日期:2004-03-03作者简介:杨善升(1975-),男,安徽庐江人,硕士研究生,师从陆文聪教授,主要从事化工过程建模与优化研究。电话:021-66133513

6、,E-mail:yss116@163.com。2                     江苏化工                      2004年8月建模技术。它利用信息论中的互信息(信息增益)寻到最优或近似最优的知识集。找数据库中具有最大信息量的字段,建立决策树的(6)粗糙集方法一个结点,再根据字段的不同取值建立树的分枝,在粗糙集方法用于数据简化(例如,删除与任务无每个分枝子集中重复建立下层结点和分枝,这样便关的记录或字段)、数据意义评估、对象相似或差异生成一颗决策树。接着对决策树进行剪枝处理,再性分析、因果关系及范式挖掘等。RoughSet理论是把

7、决策树转化为规则,利用这些规则可对新事例进Pawlak在20世纪80年代提出来的,用于研究非精行分类。典型决策树方法有分类回归树(CART)、确性和不确定性知识的表达、学习、归纳等方法的。ID3和C4.5等。主要思想如下:在数据库中将行元素看成对象,列元(3)模式识别方法素是属性,把对象的属性分为条件属性和决策属性,模式识别是数据挖掘的主要方法之一。它是一按各属性值是否相同划分等价类。等价关系R定种借助于计算机对信息进行处理、判决分类的数学义为不同对象在某个(或几个)属性上取值相同,这统计方法。模式识别方法大致可以分为统计模式识些满足等价关系的对象组成的集合

8、称为该等价关系别和句法模式识别两大类。统计模式识别将

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。