知识发现与数据挖掘_其它管理论文-毕业论文

知识发现与数据挖掘_其它管理论文-毕业论文

ID:44276067

大小:44.05 KB

页数:5页

时间:2019-10-20

知识发现与数据挖掘_其它管理论文-毕业论文_第1页
知识发现与数据挖掘_其它管理论文-毕业论文_第2页
知识发现与数据挖掘_其它管理论文-毕业论文_第3页
知识发现与数据挖掘_其它管理论文-毕业论文_第4页
知识发现与数据挖掘_其它管理论文-毕业论文_第5页
资源描述:

《知识发现与数据挖掘_其它管理论文-毕业论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、知识发现与数据挖掘_英它管理论文-毕业论文内容提要:本文介绍了知识发现及其数据挖掘的发展历史,数据挖掘常用技术及应用。【关键词】知识发现,数据挖掘1、引言随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPNVirtualPrivatenetwork)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工

2、作。这样,展现在人们而前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如果没冇冇效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据佔计,一个大型企业数据库中数据,只有百分之七得到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informalionpoor)和“数据关在牢笼中”(datainjail),奈斯伯特(JohnNaisbett)惊呼“Wearcdrowningi

3、ninformation,butstarvingforknowledge”(人类正被数据淹没,却饥渴于知识)。面临浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术。从数据库中发现知识(KDD)及其核心技术一一数据采掘(DM)便应运而生了。2、知识发现过程知识发现(KDD)是从数据中发现有用知识的整个过程;数据开采(DM)是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。1996年,Fayyad>PiatetskyShapiror和Smyth将KDD过程定义为:从数据屮鉴别

4、出冇效模式的非平凡过程,该模式是新的、可能冇用的和最终可理解的。KDD过程是多个步骤相互连接、反复进行人机交互的过程。具体包扌舌:①学习某个应用领域:包括应用屮的预先知识和目标。①建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。②数据预处理:去除噪声或无关数据,去除空口数据域,考虑时间顺序和数据变化等。③数据转换:找到数据的特征农示,用维变换或转换方法减少有效变量的数目或找到数据的不变式。④选定数据挖掘功能:决定数据挖掘的冃的。⑤选定数据挖掘算法:用KDD过程中的准则,选择某个特定数据挖掘算法(如汇总、分类、回

5、归、聚类等)用于搜索数据屮的模式。⑥数据挖掘:搜索或产生一个特定的感兴趣的模式或一个特定的数据集。⑦解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式,以使用户明白。⑧发现知识:把这些知识结合到运行系统中,获得这些知识的作用或证明这些知识。用预先、叮信的知识检查和解决知识中叮能的矛盾。3、知识发现的核心一一数据挖掘所谓数据挖掘,就是从数据库小抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。数据挖掘是KDD最核心的部分。数据挖掘与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和

6、其它算法决定数据Z间的重要联系。数据挖掘算法的好坏将直接影响到所发现知识的好坏。口前大多数的研究都集中在数据挖掘算法和应用上。需要说明的是,冇的学者认为,数据开采和知识发现含义相同,表示成KDD/DM.它是一个反复的过程,通常包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。在实际,人们往往不严格区分数据挖掘和数据库屮的知识发现,把两者混淆使用。一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。4、数据挖掘中常用技术目前市面数据挖掘应用方面有着种类繁多的商品

7、工具和软件,大致可以归纳为下列主要类型:[1]传统主观导向系统:这是针对专业领域应用的系统。如基于技术分析方法对金融市场进行分析。采用的方法从简单的走向分析直到基丁高深数学基础的分形理论和谱分析。这种技术需要冇经验模型为前提。属于这类商品有美国的Metastak,SuperCharts,CandlestickForecaster和WallStreetMoney等[2]传统统计分析:这类技术包扌舌相关分析、回归分析及因了分析等。一般先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同吋在数据探索过程中

8、,用户需要重复进行一系列操作。属于这类商品冇美国的SAS,SPSS和Stargraphis等。由于近年来更先进的DM方法的出现和使用,这些厂商在原有系统小综合一些DM部件,以获得更完善的功能。以上两种技术主要基于传统的数理统计等数学的基础上,一般早已开始用于数据分析方而。[3]神经元网络(NN)技术:神经元网络技术是属于软计算(S

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。