数据挖掘浅析

数据挖掘浅析

ID:33496214

大小:428.71 KB

页数:4页

时间:2019-02-26

数据挖掘浅析_第1页
数据挖掘浅析_第2页
数据挖掘浅析_第3页
数据挖掘浅析_第4页
资源描述:

《数据挖掘浅析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第36卷第3B期武汉大学学报(工学版)Vol.36No.3B2003年12月EngineeringJournalofWuhanUniversityDec.2003文章编号:1671一8844(2003)3B一146一04数据挖掘浅析肖风华(武汉大学计算机学院,湖北武汉430072)摘要:主要介绍了数据挖掘的产生、发展、定义和任务,讨论了常用的挖掘方法和工具,最后举例介绍了数据挖掘的一些应用.关键词:数据挖掘;知识发现;决策树中图分类号:TP311.132.4文献标识码:AShalowdiscussionofdatamunng)

2、IAOFeng-hua(Schoolofcomputer,WuhanUniversity,Wuhan430072,China)Abstract:Thispaperintroducedthebirth,thedevelopment,theconceptandthetaskofdatamining.Discussedthemethodsandtoolsofdataminingincmmonuse.Intheend,theauthorintroducedsomeapplicationsofdataminingforexample.K

3、eywords:datamining;KDD(knowledgediscoveryindatabase);decisiontreeDiscoveryinDatabase)混用.从1995年开始,每年主1数据挖掘技术的由来及其发展办一次KDD国际学术会议,将KDD和DM(Data当今数据容量规模已经达到万亿字节(TB)的Mining)方面的研究推向了高潮,从此,“数据挖掘”水平,被人们称为信息爆炸,这些过量的数据引起一词开始流行.在中文文献中,DM有时还被翻译的挑战是:一方面规模庞大、纷繁复杂的数据体系为“数据采掘”、“数据开采

4、”、“数据发掘”等.让使用者漫无头绪、无从下手;另一方面在这些大数据挖掘其实是一个逐渐演变的过程,电子数量数据的背后却隐藏着很多具有决策意义的有价据处理的初期,人们就试图通过某些方法来实现自值的信息.目前的数据库系统可以高效地实现数据动决策支持,当时机器学习成为人们关心的焦点.的录人、查询、统计等功能,但无法发现数据中存在机器学习的过程就是将一些已知的并已被成功解的关系和规则,无法根据现有的数据预测未来的发决的问题作为范例输人计算机,机器通过学习这些展趋势.缺乏挖掘数据背后隐藏的知识的手段,导范例总结并生成相应的规则,这些规则

5、具有通用致了“数据爆炸但知识贫乏”的现象.那么,如何发性,使用它们可以解决某一类的问题.现这些有用的知识,使之为管理决策和经营战略发随后,随着专家系统技术的形成和发展,人们展服务?计算机科学给出的最新回答是:数据挖掘的注意力转向知识工程,知识工程不同于机器学习(DataMining).那样给计算机输人范例,让它生成出规则,而是直数据挖掘(DataMining)一词是在1989年8月接给计算机输人已被代码化的规则,而计算机是通于美国底特律市召开的第十一界国际联合人工智过使用这些规则来解决某些问题.专家系统就是这能学术会议上正式形

6、成的,常常与KDD(Knowledge种方法所得到的成果,但它有投资大、效果不甚理收稿日期二2003一10-20作者简介:肖风华(1962一),男,湖北武汉人,高级工程师,从事计算机应用及控制方面的研究.第3B期肖风华:数据挖掘浅析想等不足.共同问题是:企业数据量非常大,而其中真正有价进人20世纪80年代,人们又在新的神经网络值的信息却很少,因此从大量的数据中经过深层分理论的指导下,重新回到机器学习的方法上,并将析,获得有利于商业运作、提高竞争力的信息,就像其成果应用于处理大型商业数据库.在80年代末,从矿石中淘金一样,数据挖

7、掘也因此而得名.一个新的术语产生了,那就是数据库中的知识的发因此,数据挖掘可以描述为:按企业既定业务现,简称KDD(KnowledgeDiscoveryinDatabase).它目标,对大量的企业数据进行探索和分析,揭示隐泛指所有从源数据中发掘模式或联系的方法,人们藏的、未知的或验证已知的规律性,并进一步将其接受了这个术语,并用KDD来描述整个数据发掘模型化的先进有效的方法.的过程,包括最开始的制定业务目标到最终的结果数据挖掘与传统的数据分析(如查询、报表、联分析,而用数据挖掘(DataMining)来描述使用挖掘机应用分析)

8、的本质区别是数据挖掘是在没有明确算法进行数据挖掘的子过程.但最近人们却逐渐发假设的前提下去挖掘信息、发现知识.数据挖掘所现数据挖掘中有许多工作可以由统计方法来完成,得到的信息应具有先前未知、有效和可实用三个特并认为最好的策略是将统计方法与数据挖掘有机征.的结合起来.先前未知的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。