欢迎来到天天文库
浏览记录
ID:40789260
大小:3.88 MB
页数:71页
时间:2019-08-07
《高性能数据挖掘技术及其应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、刘莹博士副教授yingliu@gucas.ac.cn中国科学院研究生院信息科学与工程学院高性能数据挖掘技术及其应用简介1999/07,北京大学,计算机科学与技术,学士2001/12,美国西北大学(NorthwesternUniversity),计算机工程,硕士2005/06,美国西北大学(NorthwesternUniversity),计算机工程,博士2005/06–2005/11,助理研究员,美国西北大学2006/01–今,副教授,中国科学院研究生院信息科学与工程学院,虚拟经济与数据科学研究中
2、心2021/9/212@YingLiu科研经历美国国家航空航天局(NASA):MassStoragePerformanceInformationSystem美国能源部(DOE):ScientificDataManagementIntegratedSoftwareInfrastructureCenterIntel公司:CharacterizingScalableDataMiningKernels/PrimitivesonSMP’s美国国家科学基金(NSF):High-PerformanceTech
3、niques,DesignsandImplementationofSoftwareInfrastructureforChangeDetectionandMining(IIS-0536994)2021/9/213@YingLiu科研经历负责中国人民银行横向课题《个人信用评分系统研究》主持自然科学基金创新群体项目子课题《海量数据的挖掘技术的研究》主持自然科学基金重点项目子课题《可信软件过程的基本属性和度量模型》主持教育部留学归国人员启动基金《基于传感器网络的交通数据流挖掘》主持中科院研究生院院长基金
4、《基于效用的数据挖掘理论与技术的研究》2021/9/214@YingLiu科研成果大规模科学模拟计算中的高性能数据挖掘天体物理模拟中的聚类算法HOP的并行方案适用于超大规模的科学模拟计算中,取得了非常好的加速比被美国圣地亚哥超级计算中心(SDSC)使用可扩展的数据挖掘算法的性能评估可扩展的数据挖掘算法的性能评估发布了NU-Minebench,第一个数据挖掘算法的基准组(benchmarksuite),被下载1666次(2005/06/15–今)被Intel公司使用2021/9/215@YingL
5、iu提纲数据挖掘简介高性能(并行/分布式)数据挖掘应用实例介绍天体模拟(cosmologicalsimulation)天文(astronomy)航天(spaceoperation)生态系统(ecosystem)生物信息学(bioinformatics)总结2021/9/216@YingLiu数据挖掘自动的、从”海量”数据中挖掘出隐藏的、潜在的、有价值的知识的技术挖掘的结果(知识)是用户感兴趣的,管理决策支持系统数据挖掘技术的特点海量数据从历史的数据中自动寻找高效可扩展性好模型更新快应用性强202
6、1/9/217@YingLiu数据挖掘的动机——商业角度收集和存储的数据量太大电子商务商业交易数据信用卡交易保险CPU的处理速度每年增长15%,不能满足数据量增长的需要提供更好的个性化服务,先进的客户关系管理手段等数据爆炸,知识贫乏2021/9/218@YingLiu数据挖掘的动机——科学计算角度海量数据(GB/hour)遥感数据天文望远镜巡天基因表达微阵列(Microarrays)科学模拟帮助科学家对数据进行多种分析,如分类、分层等2021/9/219@YingLiu数据挖掘的起源交叉学科统计
7、方法机器学习方法神经网络数据库并行计算传统方法的局限性在于海量数据高维数据异构数据复杂数据类型2021/9/2110@YingLiu流程DataCleaningandIntegrationDatabasesDataWarehouseKnowledgeSelectionandTransformationDataMiningPatternEvaluationFlatfiles2021/9/2111@YingLiu数据挖掘的主要技术聚类(clustering)异常点检测(anomalydetectio
8、n)分类(classification)预测(prediction)关联规则(associationrulesmining)顺序模式(sequentialpattern)时间序列(time--series)2021/9/2112@YingLiu聚类自动将数据分成若干簇,使得不同簇的数据项相似性最小,簇内数据项的相似性最大。(不依赖于预先定义好的类,不需要训练集)应用模式识别地理信息系统图像处理生物基因序列分析天体模拟文档聚类常用算法K-means,BIRCH,DBSACN,EM2021/9/21
此文档下载收益归作者所有