欢迎来到天天文库
浏览记录
ID:32059372
大小:1.78 MB
页数:57页
时间:2019-01-31
《基于农业数据元表示的数据挖掘分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、首都师范大学碰士学位论文第一章绪论信息化是人类对现实世界各种事物抽象和数字他的过程。人类是通过鸯然暴孛务黪事物黢特蛙来诀磬i事物黔,嚣这些事鐾嬲特性农信息化姥会中叉通过各类信息系统中的各种数据来表现。以计算机网络为核心的网络萎撼设藏褥全豫备越弱诗冀筑系统、信息瘦瘸系统等辖塞憝壤系统有效遣连接起来,为企业、个人、政府等爿i同类型的用户提供快捷、通畅的信息交换渠遭,井或为拣建售慧纯褪会鹣震耍墓奄。信懋佬社会激显著熬褥煮就是对信息的自动化处理和分析利用的能力,而要实现这点必须依赖于各静麓样信惠系统之阉豹协俸耩褥按。鍪类韭务信惠
2、系统是瓒代亿管理鹣标志,实现各种不同业务信息系统间踌地域、踌行业、跨部门的信息共攀和韭务协同罴信患纯霹标之一,而信惑共享藕效务拚闵是建立程信患便糟者和信息拥有者对共攀数据的涵义、表示及标识有着相同的而凭歧义的耀解基础上。然而,由于各部门、各行渡及各应糯领域对于相同静数据概念有者不周的功能需求和不同的描述,从丽导致丁数据触不一致矬。主要表现为:数据名称、数掇长度、数据表示的不一致及数据禽义的不统一。醐此,对数据进稃媲范忧蟹理豹数据标准他豹重要蠛不言蕊嗡,蒡魏戏为全球信息化关注的重要领域之一。逶过数据蠡准豫工终,霹强实现数据
3、的纛效共事,交信息戆集戒分据、高效利用奠定坚实的数据基础。本文通过对数据标准化和数据挖掘工作的本囊秘漉程避杼剡辑,建立起数据蠡浚位蟊数攒挖掘鹳骞攫联系,恣数攮挖握技术体系的丰富和究善提供新的思路。1.2.i数据挖掘的定义§i.2数据挖溯的概念及模型数据挖掘(DataMining)就是簸大董斡、不完全的、有嗓声的、禳糨的、随机的实际应用数据中,提取黪禽在其中的、人们事先不知道的、但又建潜在有用的信息和知识的过程。与数据挖掘相近的同义诫有数据融合、数撩分据积决策支掩等。这个定义包括好几鼷含义:数据源必须是真实的、大麓的、含噪
4、声的;发现的知识要怒用户感必趣的知识;发现的知识菠可接受、可理续、胃运窝。2首都师范大学硕士学位论文第一章绪论数据:数据是指一个有关事实F的集合,它是描述事务有关方面的信息,一般来说这些数据都是准确无误的。数据是数据挖掘的对象,不仅是知识数据库,也可以是文件系统,或其他以任何方式组织在一起的数据集合。模式:对于集合F中的数据,我们可以用L来描述其中的数据特征。E所描述的数据是集合F的一个子集F。。只有当表达式E比所有F。中元素的描述方法更为简单是才可以称之为模式。处理过程:数据挖掘是一个多阶段的处理过程,包括数据预处理、
5、模式提取、知识评价及过程优化。可信:通过数据挖掘从当前数据中发现的所有模式有一定的有效程度,否则数据挖掘就毫无意义。可以通过增新数据来检验模式的正确性,以c来表示模式E的可信度C=C(E,F),其中E∈L,E对应的数据集合FB-F。新颖:经过数据挖掘提取出的模式必须是新颖的,至少对系统来说应该如此。模式是否新颖可以通过两个途径来衡量,其一是得到的数据,通过对比当前得到的数据和以前数据中期望得到的数据来判断模式的新颖程度;其二是其内部所包含的知识,通过对比发现的模式与以有的模式关系来判断。可以用一个函数N(E,F)来表示模
6、式的新颖程度,该函数的返回知识逻辑值或是对模式E的新颖程度的一个判断值。潜在作用:提取出的模式应该是有意义的,可以通过某些函数的值来衡量。用“来表示模式E的有用程度,/.1=U(E,F)。可理解:数据挖掘的一个目标就是将数据中隐含的模式以可以被人理解的形式表现出来,从而帮助人们更好的理解数据中所包含的信息。当然一个模式是否容易被人理解,这本身就很难衡量,比较简单的方法是对其简单程度进行衡量”“。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究
7、,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据首都拜藏太攀硕士学位论文第~章维论进行探索和分析,揭豕隐藏的、未知的或验证已知的规律性,辩进一步将其模型纯豹先避,有效熬方法。1.2.2数据挖掘研究内容和本质夔罄DMKD疆究逐步走自深入,数据挖攘窝熊谖发瑗蘸疆究器经影残了三根强大的技术支柱:数据库、人二[智能和数理统计。因此,KDD大会程序委员会曾经由这三个举科的权威人物同时来任主席。目前DMKD的主要研究舞寥氮戆蓉稿理论、发现
8、算法、数爨念瘁、可视纯捩寒、定缝定爨互换摸型、知识表示方法、发现知识的维护和并利用、举结构化和非结构化数据中的知识发现以及嗍上数据挖掘等。数据挖掘_
9、羲发现豹躲识最霉冕鹃毒班下几类:1、广义知识(Generalization)。广义知识糖类别特征鲍概括性描述知识。根据数据的微观特性发现其衮征的、带有瞥遍性的、较掰层次
此文档下载收益归作者所有