浅谈数据挖掘技术及其研究现状

浅谈数据挖掘技术及其研究现状

ID:32398472

大小:241.33 KB

页数:3页

时间:2019-02-04

浅谈数据挖掘技术及其研究现状_第1页
浅谈数据挖掘技术及其研究现状_第2页
浅谈数据挖掘技术及其研究现状_第3页
资源描述:

《浅谈数据挖掘技术及其研究现状》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、2010年3月现代情报Mar..201O第3o卷第3期Journ~ofModemInfoHnaftonv0I.30No.3·研究生园地·浅谈数据挖掘技术及其研究现状刘先花(吉林省经济管理干部学院计算机系,吉林长春130012)[摘要]本文首先介绍了数据挖掘的概念、过程与系统构成,其次从数据挖掘的研究方法和应用角度论述了数据挖掘的研究现状,其中着重论述了目前的热点研究方向——web挖掘的流程与分类。[关键词】数据挖掘;Web挖掘;研究现状[中图分类号]TP284[文献标识码]A[文章编号]1008—0821(2010)03—0167—03StudyonData5liningTe

2、chnologyandItsResearchStatusLiuXianhua(DepartmentofCumputer,JilinProvinceEconomicsandManagementCadresColege,Changchun130012,China)(Abstract]Fimt,thispaperintroducedtheconcept,processandsystemconfigurationofdatamining.Second.itanalyaedthest~usquoofdataminingfromit'sresearchmethodsandapphcafi

3、on.Thefocusistheprocessandclassificationofthecurrenthotresearch--Webmining.[Keywords]datamining;Webmimng;researchstatus近年来,Internet的发展使计算机、网络、通信合而为1数据挖掘的过程及系统构成一。网络经济、注意力经济等新概念的出现,以其巨大的社会效益和极富挑战与机遇的内涵,成为信息科学最引人1.1数据挖掘的实施注目的研究课题。然而,网络在快捷、方便地带来大量信大体可分为以下3步:息的同时,也带来了一大堆问题:诸如信息过量难以消化;1.1.1数据准备(

4、DataPreparation)信息真假难以辨识;信息安全难以保证;信息形式不一致,本阶段包括两步:难以统一处理等等。如何快速、准确地获得有价值的信息,数据集成:从操作型环境中提取数据并加以集成,解如何理解已有的历史数据并用于预测未来的行为,如何从决语义的二义性问题,消除脏数据。这些海量数据中发现知识,导致了知识发现(Knowledge数据选择和预分析:进一步缩小数据范围,提高数据挖掘的质量。DiscoveryinDatabases)和数据挖掘(DataMimng)领域的出1.1.2数据挖掘(DataMimng)现。这个阶段实际的挖掘工作,包括:数据挖掘(DM)就是从大量的、

5、不完全的、有噪声先决定如何产生假设,是让数据挖掘系统为用户产生的、模糊的、随机的数据中提取隐含在其中的、人们事先假设,还是对于数据库中可能包含的知识提出假设。前一不知道的、但又是潜在有用的信息和知识的过程。数据挖种称为发现型的数据挖掘,后一种称为验证型的数据挖掘;掘是一种能够智能的自动的把数据转换成有用信息和知识选择合适的工具;的技术和工具,是人们对数据库技术进行研究和发展的结利用前面提到的数据挖掘方法挖掘数据库中的知识;果。数据挖掘是-t3很广义的交叉学科,它汇聚了不同领证实发现的知识。域的研究者,尤其是数据库、人工智能、数理统计、可视1.1.3规则表述(Presentat

6、ion)化、并行计算等方面的学者和工程技术人员。数据挖掘将获得的信息以方便用户理解和观察的方式反映给用户,这时可利用可视化工具。这些基于不同数据收稿日期:2OO9—11—28作者简介:刘先花(1980一),女,研究生,研究方向:数据挖掘。—-——167·-——第203100卷年第33月期浅谈数据挖掘技术及其研究现状Mar.,2010vo1.30No.3集合的分析结果除了通过可视化工具提供给用户外,还可中,AgrawM等人提出的Apfiofi算法(其中涉及频繁集这一以存储在知识库中,供日后进一步分析和比较。概念)最为著名_3J,这3个关键词之间的关系如图2顶部1.2数据挖掘系统

7、的构成所示;④序列模式也是由AgrawM等人提出,指从序列数据典型的数据挖掘系统如图1所示[1】:库中发现相对时间或者其他顺序所出现的高频率子序列,而时间序列则通过研究信息的时间特性深入洞悉事物进化的机制;⑤粗糙集方法;⑥可视化方法。事实上,数据挖掘方法不仅仅是上述6种,还包括模糊数学方法、线性回归方法、判别分析法(如贝叶斯判别)、机器学习方法、最近邻技术方法等,但通过近十年的文献分析可发现图2中6种方法可称为数据挖掘的热点方法。数据清决策树ll经M遗传算图1数据挖掘系统构成图(1)数据库、数据仓库或其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。