大数据下的信息挖掘技术

大数据下的信息挖掘技术

ID:13834143

大小:66.00 KB

页数:4页

时间:2018-07-24

大数据下的信息挖掘技术_第1页
大数据下的信息挖掘技术_第2页
大数据下的信息挖掘技术_第3页
大数据下的信息挖掘技术_第4页
资源描述:

《大数据下的信息挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、大数据下的信息挖掘技术潘琪钟晓星尚越(63600部队科技情报资料室,甘肃酒泉,732750)摘要:大数据时代的数据量大且数据结构多样化,对于数据量早已逾越TB、增长率惊人、实时性高的大数据,如何快速挖掘隐含其中有价值的的或潜在有用的信息应当被研究工作者加以重视并进一步提升。本文概述了信息挖掘的常用技术,并提出了大数据背景下信息挖掘的未来研究方向及热点。关键词:大数据;信息挖掘1概述近些年,由于以社交网站、基于位置的服务LBS等为代表的新型信息产生方式的涌现,以及云计算、移动和物联网技术的迅猛发展,无处不在的移动、无线传感器等设备无时不刻都在产生数据,数以

2、亿计用户的互联网服务时时刻刻都在产生着数据交互,大数据时代已经到来。在当下,大数据炙手可热,我们创造大数据同时也被大数据时代包围。虽然大数据的市场前景让人充满期待,但是在公众眼中,对于数据量早已逾越TB、增长率惊人、实时性高的大数据,如何分析、管理、利用大数据等工作仍将面临若干的挑战。目前,对于大数据的定义尚未达成完全的共识。维基百科对大数据的定义为:所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理帮助企业经营决策更积极目的的资讯。互联网数据中心对大数据的定义为:为更经济地从高频率的、大容量的、不同结构和类型的数

3、据中获取价值而设计的新一代构架和技术。所有对大数据的定义基本上是从大数据的特征出发,通过这些特征的阐述和归纳给出其定义。在这些定义中,可将大数据的特点总结为:规模性(volume)、多样性(variety)、高速型(velocity)和价值性(value)。大数据时代的数据量大且数据结构多样化,其复杂程度早已超过了传统意义上的关系数据库。另外,随着大数据已经渗透到人们生活的各个领域,很多行业都开始增加对大数据的需求。但普通用户往往更关心结果的展示,数据的复杂性限制了普通用户从大数据中直接获取知识。因此,如何从浩瀚如海洋的大数据中挖掘出具有价值的信息应当被

4、研究工作者加以重视并进一步提升。2信息挖掘技术中的关键技术及系统流程在大数据时代,信息挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中提取隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。信息挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到信息挖掘这一新兴的研究领域,形成新的技术热点。通过对大数据高度自动化地分

5、析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助正确决策。大数据呈现出了数据的新价值,信息挖掘技术是大数据时代最本质特征。数据规模大,数据类型多,价值密度低,但总体的数据价值高,信息处理有速度要求。信息挖掘技术是大数据时代的灵魂和核心,信息挖掘技术涉及多种多类的知识节点,研究信息挖掘的关键技术,帮助选择最好的信息挖掘工具,最终达到决策支持的作用。大数据的挖掘常用技术分为大数据采集技术、大数据预处理技术以及大数据分析及挖掘技术。2.1信息挖掘中的关键技术2.1.1大数据采集技术数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等

6、方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术

7、。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。2.1.2大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全

8、错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。2.1.3大数据分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。