《论文_化工工程师论文化工助理工程师论文带确定性决策项的关(定稿)》

《论文_化工工程师论文化工助理工程师论文带确定性决策项的关(定稿)》

ID:43838602

大小:160.43 KB

页数:10页

时间:2019-10-15

《论文_化工工程师论文化工助理工程师论文带确定性决策项的关(定稿)》_第1页
《论文_化工工程师论文化工助理工程师论文带确定性决策项的关(定稿)》_第2页
《论文_化工工程师论文化工助理工程师论文带确定性决策项的关(定稿)》_第3页
《论文_化工工程师论文化工助理工程师论文带确定性决策项的关(定稿)》_第4页
《论文_化工工程师论文化工助理工程师论文带确定性决策项的关(定稿)》_第5页
资源描述:

《《论文_化工工程师论文化工助理工程师论文带确定性决策项的关(定稿)》》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、化工工程师论文化工助理工程师论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用摘要:提出了带确定性决策项的关联规则挖掘算法。理论和实验分析表明,该算法与传统的关联规则挖掘算法相比,具有高效率。在实际中应用该挖掘算法,可以得到有意义的知识模式,为生化企业优化生产环境提供理论基础。关键词:关联规则;数据挖掘;生化企业;决策由于生物化工生产过程复杂,产生的数据量大,且数据具有高维、交互、不确定、不完备、不一致及多时态性等特点,如何从杂乱无章的数据中获取有用的知识,如生产环境因子优化、生产过程的发展趋势预测等,是大多数生化企业面临的一个共同难题。面对海量的数据资源,如何从中发现潜在的有用模式

2、或知识,是数据库技术与应用的一个重要领域从数据库中发现知识(knowledgedis-coveryfromdatabases,KDD)0数据挖掘是KDD中的一个步骤,是指利用某些特定的知识发现算法,从数据库中提取感兴趣的模式[1,2]0在数据挖掘中,关联规则是最早被人们注意并引入商业应用的研究领域Z-o关联规则反映了数据中不同数据项间的关联性,通过挖掘关联规则,可以分析和理解数据库中不同数据项间的关联关系[3,4]o针对生化企业中所积累的生产数据,可以利用数据挖掘及关联规则挖掘方法来进行生物化工生产环境优化[5,6]-经典的关联规则算法,在运算过程中可能会产生大量的候选项目集,使得算法的效率很

3、低。对候选数据项集的生成进行有效的剪枝控制是提高关联规则挖掘效率的主要方法,本文提出的算法即是基于对非决策数据项的剪枝来过滤无效候选项目集的生成。1关联规则及确定性决策项关联规则挖掘数学模型的描述见参考文献[7,8]。例如,采用微生物(黑曲霉)发酵法生产柠檬酸时,可能产生这样的规则:如果“pH值在稍偏酸性条件下(4.2~5.6)”并且“温度控制在稍低条件下(37.0-37.2°C)"并且“黑曲霉接种浓度为中等水平(58000-68000个/ml)”时,则具有高的柠檬酸发酵转化率。该规则可以表示成:pH(稍偏酸)ATemp(稍低)ACont(中等)Con-version(高)。此处,数据项I={

4、pH(稍偏酸),Temp(稍低),Cont(中等),Conversion(高)}。其中,pH、Temp、Cont>Conversion分别表示pH值、温度、黑曲霉接种浓度、柠檬酸发酵转化率等4个数据项,其中前3个是规则的条件(条件项集),后一个是规则的结果,符号人表示“并且”。当且仅当现有的样本数据集(即事务集T)中至少有s%的样本同时具有"pH二稍偏酸/Temp=稍低ACont=中等八Conversion=高"特征时淋以上规则为频繁规则(支持度=s%)。当且仅当同时满足条件“在现有的样本集满足最小支持度特征(即支持度=S%)”和,在'pH=稍偏酸ATemp=稍低ACont=中等'的样本集中

5、至少有c%的样本具有'Conversion=高,”时,称以上规则为强规则(支持度=$%,置信度=C%)o本文提出的确定性决策项是指在有意义的关联规则的条件项集或结果项集中包含了一个或多个确定的数据项。例如,对于采用微生物发酵法生产柠檬酸这样的生物化工生产,人们感兴趣的仅是那些由若干个条件数据项和特定的结果数据项组成的规则,如“柠檬酸发酵转化率高”或柠檬酸的“总酸量高”是柠檬酸生产中的两个结果数据项(决策项),所有的不包含这两个决策项的规则都是人们所不感兴趣的,因而在设计关联规则算法时,可以对所有包含了非确定性决策项的规则进行剪枝,以提高数据挖掘的效率。2算法分析与实现关联规则的挖掘一般包括两个

6、步骤:①找出支持度大于给定值的频繁数据项集。②用频繁数据项集挖掘出强关联规则。经典的关联规则采掘算法Apriori算法的基本思想为:首先通过扫描数据库产生一个大的候选数据项集,并计算每个候选数据项发生的次数,基于预先给定的最小支持度生成一维数据项集L1,然后基于L1和数据库中的数据产生二维数据项集L2;用同样的方法,直到生成N维数据项集LN,其中已不再可能生成满足最小支持度的N+1维数据项集。这样,依次产生了数据项集{L1,L2,…,LN}。最后,从数据项集中产生强规则。对于包含有决策目标项目集的应用,可以首先求得所有的频繁数据项集,然后把包含了决策目标项目集的频繁数据项集提取山来,即是所需要

7、的结果。本文对Apriori进行扩展,实现有确定性决策目标的数据项条件下关联规则的发现,该算法会过滤所有不包含决策目标项目集的项目集,提高算法效率。假设在项目集I中包含有n个数据项,其中确定性决策项有m个,求频繁项目集的具体步骤为:①若m>l,则将m个确定性决策项合并为一个决策项o例如,在一个项目集中包含了“高转化率”、“高总酸量”两个决策项,可以把这两个决策项合并为"高转化率且高总酸量”一个决策

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。