工业过程数据挖掘的几个重要问题

工业过程数据挖掘的几个重要问题

ID:37376288

大小:285.26 KB

页数:3页

时间:2019-05-22

工业过程数据挖掘的几个重要问题_第1页
工业过程数据挖掘的几个重要问题_第2页
工业过程数据挖掘的几个重要问题_第3页
资源描述:

《工业过程数据挖掘的几个重要问题》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、CBB!"#$%&&’!()*++,工业过程数据挖掘的几个重要问题郭朝晖(宝山钢铁股份有限公司,上海!"#$%##)!!摘要:在实际的工业过程数据中,任何数据都有可能存在误差。即便是最简单的线性模型,在自变量存在误差的前提下,最小二乘的估计有偏。这说明平均误差最小的模型对于特定的应用来说不一定是好的。因此,对于实际研究来说,单纯追求减少模型误差是有害的。!!关键词:数据挖掘;工业过程建模;无偏估计!"#"$%&’()*$+%,+-$*.&"(/0,1%+%20,0,3+*+4"’,56/+$0%&-$*7"//!"#$%&#%"’(8%*/4%,’$*,9!+""&:*;,<

2、+5;,!4%,34%0"#$%##,:40,%)!!=./+$%7+:&’()*+*,-./0123-.+’(/0)45+3/*673-,(55,*00(8(3*8-/)23-..(*543/01(33-39:-;(8(3,(8(0+-+’(6/0(*3.-)(6,/+/5-06<40)(3+’(*554.7+/-0-2+’*++’(/0)(7(0)(0+8*3/*=6(5=(/0173(,/5(6<.(*543(),+’(6(*5+>5?4*3((5+/.*+/-0/540=/*5()9@+/0)/,*+(5+’*++’(.-)(6;/+’+’(6(*5+*8(3*1((

3、33-3.*<0-+=(+’(=(5+-0(+-5-.(*776/,*+/-059A++’*++/.(,/+/5’*3.246+-,-05/)(3+’(*8(3*1((33-3=(/01+’(40/?4(57(,/2/,*+/-0-2.-)(659>"?@*$5/:)*+*./0/01;/0)45+3/*673-,(55.-)(6/01;40=/*5()(5+/.*+/-0AB问题来源数据的时候经常出现,但在传统统计理论中没有工业过程数据的一个特点是数据本身的质量受到足够的重视。笔者认为,这可能是由于传统比较差,也就是说,数据本身经常性地存在误差。的统计理论主要服务于实验研究

4、。因而,利用工业过程本身数据进行建模时,模型误对于实验研究来说,数据本身都是比较准确差在很大程度上来源于数据本身。利用这些数据的。如果模型和实验数据之间出现较大的差异,建模时,经常发现模型误差小到一定程度以后就则认为模型本身有问题(包括遗漏了对模型起重很难继续小下去了。另外,平均意义下误差接近要作用的变量)。一种例外的情况是,模型的输的模型,其预报结果可能有很大的差别,因此,很出受到外部干扰。但是,理论研究一般假定这种难单纯用模型的误差来衡量模型的好坏。虽然理干扰足够小且服从一些常见的分布规律。这种思论界对这个问题非常难以研究,但对实际使用者想的经典体现是最小二乘法。来说却是

5、至关重要的。这样一来,尽管理论界热一般认为,最小二乘法对于参数估计是无偏衷的许多时髦的算法可以提高模型精度,但仍难的。但是,对工业数据进行分析的时候,则能强烈以用于指导生产。地感觉到无偏的假设不能成立,这对分析实际过由于误差不能作为惟一的衡量指标,必须考程造成了很大的误导。经过理论分析确定其确实虑其他评判模型的手段,特别是用领域知识对统如此。为此,笔者请教了复旦大学著名的统计学计结果进行分析。统计建模有很多前提条件,一家汪嘉冈。他告诉我们,这个问题其实在统计理个模型是否真实地反映了客观实际,与这些条件论中早有研究,但在绝大多数有关统计的教科书[$,"]是否成立有关系。基于传统

6、的统计建模方法在分中被忽略了,仅在个别专著中中简单地提及析这些问题上具有比较成熟的理论基础。了这个问题。本文从这个话题引出的几个问题,笔者在从事实际问题研究的过程中,发现了对于工业过程数据建模的实际应用是极为重要一个非常重要的问题。这个问题在处理工业过程的。!"#$%&&’!()*++,&+,$!"最小二乘法的有偏性#%(")&"%(#$)!!#("")$$经典的最小二乘法假设因变量!和自变量"%(")#%(")&"#&"服从下面的规律:公式("")表明,最小二乘法对#的估计是有!!#"(")偏的。确切地讲,对绝对值估计得小了。由于!不能精确测量,每次测量都存在一个怎样理解上

7、述问题呢?其本质是,观测值的小的误差!,而!符合零均值的随机正态分布。范围比实际值的分布范围大。当测量值在某些特因此,实际能够得到的描述是:定区域出现时,与实际值的期望并不相等。为此,!$!#"#!($)用下面例子说明这个问题:式中,!$表示实际测量得到的!,它与真实的!关例":假设干扰"和自变量"都服从[%","]系是:的均匀分布,两者相互独立。那么,当检测变量"$!!!$%!(&)!"#"!$时,可以断定,必然是"!",而不是众所周知,最小二乘法可以得到#的无偏估"!$。这一例子说明,检测变量的分布

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。