流式数据挖掘发展与统计研究

流式数据挖掘发展与统计研究

ID:45124607

大小:1.48 MB

页数:25页

时间:2019-11-10

流式数据挖掘发展与统计研究_第1页
流式数据挖掘发展与统计研究_第2页
流式数据挖掘发展与统计研究_第3页
流式数据挖掘发展与统计研究_第4页
流式数据挖掘发展与统计研究_第5页
资源描述:

《流式数据挖掘发展与统计研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、流式数据挖掘的发展 与统计学研究朱建平来升强厦门大学经济学院计划统计系7/19/2021TheDevelopmentandTheStatisticalResearchfor StreamingDataMiningZhuJian-pingLaiSheng-qiangDepartmentofPlanningandStatisticsoftheSchoolofEconomicsofXiamenUniversityxmjpzhu@xmu.edu.cn7/19/2021报告目的本报告对近年来在国内外学界涌现出的流式数据挖掘的研究成果进行较为全面的介绍,分析了流式数据挖掘的研究现状。

2、提出了统计学在流式数据挖掘研究中的发展趋势,以便更好让大家深入的认识统计学和数据挖掘的结合,拓展统计学方法的研究思路。7/19/2021报告的基本内容一、流式数据挖掘的研究现状二、流式数据挖掘中统计学的研究趋势三、统计学研究的体会7/19/2021一、流式数据挖掘的研究现状经过近二十年的发展,数据挖掘方法在众多领域被广泛研究和应用。在学术界,美国计算机学会(ACM)有多个主题为数据挖掘的学术会议,例如SIGMOD(ConferenceonManagementofData)、DMKD(DataMiningandKnowledgeDiscovery)和VLDB(Very La

3、rge Data Bases)等。以数据挖掘为主题的国际期刊也有不少,其中影响较大的有《超大数据库期刊(VLDBJournal)》、《数据挖掘与知识发现(DataMiningandKnowledgeDiscovery)》和《美国计算机学会数据库系统学报(ACMTransactionsOnDatabaseSystems)》,并且一些系统科学、统计学、人工智能、临床医学等领域的重要刊物上也屡见数据挖掘理论及方法的应用研究。7/19/2021近年来,国内外学界涌现了一大批针对流式数据挖掘的研究成果。所谓流式数据,指按照时间顺序无限增加的数据观测值向量所组成的数据序列,也可以将流

4、式数据看成历史数据和不断增加的更新数据的并集。从定义易知,流式数据挖掘是数据挖掘的更一般形式。流式数据主要出现在大量实时监测和控制系统中,例如航天水利设备传感器组监控、气温水流等环境气象监测、以及金融市场实时交易监控等实时系统都会产生规模巨大的历史数据,并能在数分钟内就生成一个相当规模的更新数据集。7/19/2021数据对象的复杂化和动态化向研究者提出了新的挑战。从总体上,国外在该领域的研究较为广泛,我们从数据挖掘的技术和挖掘的知识看,在流式数据挖掘的研究方面取得了一些成效。1.流式数据聚类。2.流式数据分类。3.时变模式识别。4.流式数据压缩。5.规则发现。7/19/2

5、0211.流式数据聚类长期以来,数据挖掘的聚类分析都处在静态数据的层次上。这一方面是维数灾问题(coarseofdimensionality)没有得到很好的解决,常用的特征变换(featuretransformation)和子空间选择(subspaceselection)方法实际上都是有损失的降维技术,许多研究都试图提出新的降维方法,以尽可能地减少信息损失。另一方面是数据规模问题。由于计算机性能限制,大量的研究都在改进算法和降低复杂度。7/19/2021然而,流式数据是历史数据与不断增加的更新数据的并集,因此除了以上提到的两个问题,流式数据聚类分析还应考虑:(1)如何反映

6、流式数据在时间上的动态特征。现在基本是采用对时间窗内不同时刻观测值加权的办法(有些文献称之为“倾斜时间窗(tiltedtimewindow)”),例如AggarwalC.,etal.(2005)采用一个关于数据观测值生存时间的指数衰减函数对历史数据进行加权;(2)如何处理更新数据对已有聚类的影响。显然只有在(1)的基础上,这个问题才有可能解决,目前这方面研究几乎空白。7/19/20212.流式数据分类在流式数据条件下,分类过程不仅仅是建立一个判别模型就完成了,更重要的是保证分类模型对于更新数据的适应性和分类稳定性。例如HultenG.,etal.(2001)提出的动态决策

7、树CVFDT,可以根据更新数据动态地建立新枝或删除旧枝,有效的结合了历史信息和更新信息。HastieT.,etal.(2001)的一种分类回归树(CategoricalAndRegressionTree)的改进形式还可以完成对非数值型流式数据的分类任务。最近LeeS.,etal.(2005)将广义估计方程(GEE)应用到决策树分类中,较好解决了混合型流式数据的分类问题。RousseeuwP.,etal.(2006)改进了稳健统计分析中的最小截断二乘法的估计方法(LeastTrimmedSquares),使LTS回归能胜任大型流

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。