欢迎来到天天文库
浏览记录
ID:61794439
大小:27.00 KB
页数:4页
时间:2021-03-20
《浅谈大数据挖掘与数据处理方法.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、浅谈大数据挖掘与数据处理方法摘要:本文阐述了大数据挖掘的来历、方式和技术体制还有对数据的处理方法。从数据本身和使用工具方面比较了大数据与数据挖掘的异同,并且提出了关于在大数据时代数据挖掘的发展路线。现在科技的发展使大数据获得了广泛的关注、重视、和进行开发从而加以实践。现时代数据中非结构化流式数据作为一种主要的数据形态,而他的信息庞大和复杂使得传统数据处理体制无法满足对数据处理的要求,为了满足新时代的对大数据的处理需要将大数据处理系统从流程设计向数据设计方向转化,从而提高对数据处理的效率。关键词:大数据;挖掘;数据处理;方法现时代大数据的涌来,使得人们迫切的想加大对
2、数据的研究与了解。数据挖掘因此成为了我们在对数据了解的路上的一个障碍,通过对大数据挖掘的阐述,将有助于我们加深了解数据的情况。在数据的处理方法上这里也将做出一个完整的阐述。1.基本概念4学海无涯数据挖掘,意思很明显,就是表层意思,其就是从海量的数据中提取出有效的信息,也就是相当于在数量大、信息不完全、信息不清晰的数据中,提炼出对人类有用的的信息和知识的过程。数据挖掘主要操作是在大量数据中利用分析工具发现数据与模型间关系,在这个过程中它可以帮助使用者寻找数据与数据之间的联系,使模糊的因素变得明显,所以数据挖掘被认为是在这个信息时代解决信息贫乏的一种有效途径。数据挖掘
3、不仅融入了数据仓库、模式识别、建模技术、还包括了机器学等多领域的理论基础和技术。其中数据库、数理统计、人工智能是数据挖掘的三大技术支持。大数据是通过高速采集、发现和解析海量信息,是一种全新的从大容量数据中获取价值的技术结构。有一个权威的机构给过大数据以一定的定义,分别是四个”V”字开头的字母:Volume(体量大),Velocity(速度快),Variety(种类杂),Value(价值大)。Volume是指数据的大小决定所考虑的数据的价值和潜在的信息;Velocity意思是对数据获取的速度;Variety则意味着要在数量大、信息复杂的数据间发现其内在关联;Valu
4、e最重要,它是大数据的最终意义:挖掘数据中存在的价值。2.相互联系当前的大数据才刚开始发展,一切都是以数据挖掘为基础,相当于其是对数据挖掘的概念再深化,所以可以说数据挖掘是大数据的开山鼻祖。大数据和数据挖掘都是朝着对数据进行挖掘解析,提取有实用价值的信息为目的。虽然从表面上看,两者区别在于大上,但深入就会发现:数据挖掘的对象并不只是用于少量数据,在对海量数据的处理上也同样适用,只是由于挖掘方法和技术的革新,给与了一种新的说法称作大数据;另一方面:大数据的重点并不是在“大”,而是用全新的思想和一线技术去对海量数据进行分析,提取其中有用的信息,进行对未来的预估,或者根
5、据其中的模式,创造新的产品和服务。所以大数据和数据挖掘在一定时间内还会共存,其大致的区别就是如何体现出数据的价值。大数据是数据挖掘产业化的表现。信息是数据的价值,利益是技术的价值,数据挖掘是在专业技术领域中的一种专业名词,在到了高端的商业领域就需要加以修饰升级。当前大数据正成为增强国家竞争力的重要因素之一,被视为创新和生产力提升的下一个前沿,在世界范围内受到各国越来越大的重视,多国政府在对大数据的发展上给与了大力的扶持,甚至到了国家战略的层面。3.非结构化数据处理流程非结构化处理流程主要包括信息采集、网页分类和网页预处理三个阶段。3.1信息采集信息采集是将杂乱无章
6、的信息从海量的网页中提取出来保存到具有一定顺序的数据库中的过程。其主要面对是专业技术人群,因此其采集的信息在一定的范围内,并且出于对性能和成本上的考虑不能对整个网络进行全方面阅览,所以在信息采集的方面上要做到对信息的价值进行判断是否值得访问,研究以何种策略进行对web的访问,尽可能的提升对信息采集的效率。通过预先设定的种子链接集,利用HTrP协议访问并下载页面,再用各种技术对页面与主题之间的联系进行分析并且提取出待访问的链接,使用种类不同的爬行策略循环的访问网页是信息采集的基本方法。介于内容的主题信息采集和基于超链接的主题信息采集是信息采集基于主题的不同的两种分类
7、,基于内容的信息采集需要建立一个针对主题的词表;另一类则是基于网页之间的引用关系。4学海无涯3.2网页预处理网页预处理主要是一个对一些数据进行筛选的过程,保证信息的准确性。网页预处理部分这里主要是对网页去重的介绍,基于URL的对比去重,适用哈希算法;用信息指纹的文本相似度算法去进行内容的对比去重,这两种方法是对网页去重的归类。网页去重需要先对文档对象的特征抽取,对文档内容进行分解,以若干组成文档的特征集合表示,这一步骤主要是为了使特征比较计算相似度变得方便。之后需要针对特征的压缩编码,进行专业处理,做到减少存储空间,加快比较速度的作用。最后需要对文档的相似度进行计
8、算个,这一
此文档下载收益归作者所有