化学数据挖掘技术和应用

化学数据挖掘技术和应用

ID:45030864

大小:1.22 MB

页数:42页

时间:2019-11-08

化学数据挖掘技术和应用_第1页
化学数据挖掘技术和应用_第2页
化学数据挖掘技术和应用_第3页
化学数据挖掘技术和应用_第4页
化学数据挖掘技术和应用_第5页
资源描述:

《化学数据挖掘技术和应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、化学数据挖掘技术和应用陆文聪上海大学理学院化学系21数据挖掘(DataMining)利用计算机和现代统计科学理论对复杂数据进行整理、分析、建模等研究工作,达到总结规律、预报未知的目的。1.1概念3数据挖掘技术涉及到数据库、人工智能、模式识别、数理统计、计算机可视化等多种技术和学科,是近十多年愈来愈为人们所关注的技术热点。41.2主要难点:数据对象的复杂性复杂数据的六大特征5(1)将传统的统计数学方法与现代常用的数据挖掘方法结合起来使用,彼此取长补短,组成一套完整的数据处理流程,可以解决复杂数据处理问题。1.3复杂数据处理和建模技术(2)利用Vapnik的统计学习新理论和支持向量机算法,较好

2、地解决了小样本、过学习、维数灾难等问题62我们的数据挖掘技术的特色2.1独特的信息处理流程在实践中总结出了有效的信息处理流程,关键环节包括:数据评估、数据结构分析、样本筛选、相关分析、自变量筛选、优化建模等。7将模式识别新方法与传统的统计数学方法相结合,如最佳投影回归方法;将模式识别的优化控制区作为人工神经网络预报的边界条件以避免错误的外推方向和误报,等等。2.2独特的复合方法8根据数据的不同拓扑结构,采用不同的变量筛选方法:对于偏置型数据用投票法对于包络型数据用熵小法(2)用超多面体模型筛选变量2.3独特的变量筛选方法9(1)逆投影方法(2)最佳投影方法(3)超多面体方法(4)逐级投影方

3、法(5)最佳投影回归方法(6)多目标的模式识别方法2.4独特的模式识别新方法102.4.1逆投影方法X3X1X2Y(2)Y(1)11最佳投影法和主成份分析法的模式识别分类结果比较2.4.2最佳投影方法(a)最佳投影分类图(b)主成份分析分类图12用超平面组合法形成超多面体模型示意图2.4.3超多面体方法132.4.4逐级投影方法用最佳逐级投影组合法形成优化控制区示意图142.4.5最佳投影回归方法最佳投影回归示意图X1X2高维空间向低维空间投影降维后噪声下降预报能力增强152.4.6多目标的模式识别方法多目标的模式识别方法形成优化控制区示意图目标1的优化区目标2的优化区多目标的优化区162

4、.5.1Vapnik的统计学习理论[1]VladimirN.Vapnik.StatisticalLearningTheory,AWiley-IntersciencePublication,JohnWileyandSons,Inc.:theUSA,1998[2]《计算机与应用化学》,2002,19(6):7122.5.2核函数的应用2.5融合国际上先进的数据挖掘新方法17具体形式主要有以下三类:多项式径向基S形核函数18最优分类面支持向量平行于最优分类面支持向量分类空隙2.5.3支持向量分类(SVC)19S个支持向量非线性变换输入向量各分量y支持向量网络预报未知样本类别的示意图20回归超平面

5、支持向量支持向量超平面支持向量不敏感通道2.5.4支持向量回归(SVR)213数据挖掘技术应用3.1在材料设计中的应用(1)相图的评估和计算机预报合金相图(二,三元)已测一万多,未测约七万氧化物相图(二,三元)已测一万多,未测七万以上熔盐相图(二,三元)已测四千多,未测几十万已测的并不全可靠,需评估22实例:熔盐相图的评估和计算机预报热力学方法及其局限性。我们采用的综合评估方法(三个步骤):(1)热力学方法:检查是否合乎热力学原理和相律(2)数据挖掘-原子参数方法(3)自己做实验验证怀疑对象23CsF-CaF2系相图的评估结果24(2)材料物性的计算机预报1222型高温超导体临界温度Tc的

6、计算机预报(以金属离子半径、电负性、价数为特征变量)25(3)树枝状纳米材料(NdOHCO3)的控制合成(控制反应温度、时间、碳酸氢铵的量等)(a)SEMimageofhierarchicalNdOHCO3dendrites;(b)TEMimageofhierarchicalNdOHCO3dendrites.26树枝状纳米材料(NdOHCO3)的模式识别分类图“1”:树枝形貌“2”:非树枝形貌27哈密瓜状AlOOH超级结构(4)哈密瓜状AlOOH超级结构形成规律28哈密瓜状AlOOH超级结构的模式识别分类图“1”:形成哈密瓜状AlOOH超级结构“2”:不形成哈密瓜状AlOOH超级结构293

7、.2在分子设计中的应用 实例:酚酞尼衍生物的构效关系ΔE(energydifferencebetweenHOMOandLUMO)MR(molecularrefractivity)MW(molecularweight)通过数据挖掘,建立了分子描述符与ED50大小的判别关系式:30SVC模型:当g(X)<0时,ED50<1.0×10-6mol·kg-1当g(X)>0时,ED50>1.0×10-6mol·kg-131合成氨优化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。