欢迎来到天天文库
浏览记录
ID:30158602
大小:27.42 KB
页数:19页
时间:2018-12-27
《学科发展报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划学科发展报告 数据挖掘学科发展报告 时间:XX-10-1714:59:00 【摘要】近年,随着各行业对大规模数据处理和深度分析需求的快速增长,数据挖掘引起了研究界和工业界的广泛关注。 1.引言 数据挖掘是知识发现过程中的一个关键步骤,一般是指从大量数据中自动发现隐含的的数据关系,并将其转化为计算机可处理的结构化表示。数据挖掘是计算机学科中的一个交叉研究领域,其研究方法与多个其他科学紧密相连,如:统计、机2器学习、专家系统、信息检索、社会网络、自然语言处
2、理和模式识别等等。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划 近年,随着各行业对大规模数据处理和深度分析需求的快速增长,数据挖掘引起了研究界和工业界的广泛关注。自1995年以来,学术界和工业界共同成立了ACM的数据挖掘及知识发现专委会,并组织了国际数据挖掘与知识发现大会,后者发展成为数据挖掘领域的顶级国际会议。至今KDD大会已经连续举办了19届,论文的投稿量和参会人数呈现出逐年
3、增加的趋势。图1给出了自XX年以来SIGKDD每届接收的论文投稿数和最终录用的论文数的对比。近几年,以社会网络和信息网络为中心的大数据分析成为数据挖掘研究的热点。 本报告围绕数据挖掘领域近年最主要的几个研究方向,以数据挖掘顶级国际会议KDD和国际期刊IEEETKDE、ACMTKDD上发表的论文为基础介绍近几年国内学者在数据挖掘领域的主要研究进展,分析和比较国际国内学科发展趋势,并展望未来发展机遇。 图1.数据挖掘国际会议KDD历年投稿和论文接收情况(左);KDDXX研究热点(右) 2.研究现状和主要成果 数据挖掘基础理论 最早的数据挖掘理论基础主要源于统计,机器
4、学习和数据库系统。经过近20年的发展,数据挖掘领域逐渐形成了一套自己的基础理论,主要包括规则和模式挖掘,分类、聚类、话题学习等。近年,随着网络数据的规模和复杂性的快速增长,时间序列和空间数据挖掘、以及基于大规模网络的稀疏学习也得到越来越多的重视。以下我们简要介绍国内学者在数据挖掘基础理论上的最新成果。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划 在分类学习方面,清华大学的张长水团
5、队研究了多任务的特征学习方法,提出了名为rMTFL的学习方法。该方法首先将多任务和不同特征的关系用矩阵表示,并基于GroupLasso的思想抽取出相关任务的特征空间,并因此找出孤立任务[6]。清华大学的靳晓明等人针对跨域的文本分类,提出跨域的主动学习方法[17]。该方法有效地结合了不同数据源的特征,自动从多数据源中抽取同质特征并区分异构特征,从而有效的选取样本进行主动学习。南京大学的周志华带领的课题组提出分类算法中应使用代价区间而不是精确的代价值,因为实际应用中,用户常常只能判断各类错误的相对严重性而无法给出精确描述。他们提出的CISVM算法将costinterval应用
6、于SVM,比使用任何单一代价的标准SVM减少了60%的风险[21]。 他们还进一步提出名为MAHR的分类算法。该算法可以自动发现分类结果之间的关联关系,从而提高分类精度[13]。在多类标的学习中,由于每个样例可以和多个类标关联,可能的类标集非常多,导致多类标分类和预测常常比较困难。东南大学的张敏灵等人使用贝叶斯网络刻画类标之间的依赖关系,将多类标学习问题分解为一系列的单类标分类问题,从而在多个数据集上超越了现有方法的效果[44]。流数据分类是分类学习中的一个重要分支,集成学习是对流式数据进行分类的常用方法,但线性扫描每个分类器会带来很大的时间开销。中科院的张鹏等人提出了
7、一种新颖的Ensemble-tree(E-tree)方法,利用类似R-tree的高度平衡的结构将流数据分类中集成学习的复杂度由线性降低到次线性[41]。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划 概率图模型是数据挖掘中的重要基础工具,北京大学的宋国杰等人提出基于重叠分解的概率图模型[8],其基本思路是将原始的概率图分解为若干小的概率
此文档下载收益归作者所有