欢迎来到天天文库
浏览记录
ID:53017739
大小:336.75 KB
页数:4页
时间:2020-04-12
《大数据环境下的数据分析及应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第32卷第1期中州大学学报2015年2月V01.32No.1JOURNALOFZHONGZHOUUNIVERSrrYFeb.20l5大数据环境下的数据分析及应用研究姚瑶(中州大学信息工程学院,郑州450044)摘要:大数据蕴含着巨大的商业价值和社会价值。针对大数据的分析与应用面临的新挑战,文章重点阐述了文本分析、Web分析、网络分析及移动数据分析等数据分析技术,并从商务智能挖掘、公共安全预警等领域介绍了大数据分析与挖掘的热点应用。关键词:大数据;文本分析;Web分析;网络分析DOI:10.13783/j.enki.en41—1275/g4.2015.01.0
2、28中图分类号:文献标识码:A文章编号:1008—3715(2015)01—0120—04随着社会信息化和网络化的快速发展,数据量音频、视频等结构化、半结构化、非结构化数据等类急速增长。据统计,全球每秒发出的E—mail有290型,其中采用传统数据处理手段难以处理的非结构万封,每分钟上传到YouTube上的视频长20小时,化数据已接近数据总量的75%J。每天Twitter上发布的微博有5000万条。早在2008第三,数据处理平台并行性更高。因大数据的年,Google一天的数据处理量就有20PB,目前已经移动和传输会消耗较大的计算资源,基于SQL的关达到每天处
3、理24PB的数据量。同时,科学计算、医系数据库系统已满足不了大数据的深度分析。以疗卫生、金融、零售业等各行业也有大数据在不断产Google公司的MapReduce、Apache的Hadoop为代表生,预计到2015年全球信息总量会达到8ZB⋯,数性的非关系数据管理、存储和分析技术具有良好的据计量单位如表1所示。互联网、物联网、社会化网扩张性、容错性和大规模并行处理的特点,成为大数络的应用对数据的增长起主要作用,当前已进入了据分析的主流架构和平台。大数据(BigData)时代。表1数据计量单位表1大数据的新特征相对于传统数据,大数据不仅仅表现在巨大的数据量,还
4、具有如下几方面的新特征。第一,数据来源更加广泛。传统的数据来源于科学研究产生的数据、企业数据、互联网数据等。随着移动网络、物联网及社会网络的发展,移动设备数据、传感器数据、RFID(射频识别)数据及网络自媒体数据增长迅速,且生成形式更加灵活、多样。云计数据处理和分析技术主要有数据库技术、数据挖算、物联网、社交化媒体、地理信息系统(GIS)为大掘技术、机器学习、经济计量学、商业智能技术、数据数据提供了丰富的数据来源。因此大数据中包括的统计及数据可视化等。当前,数据分析的面向内容每个网络用户的身份、地点、时间、喜好、厌恶、社会有:基于DBMS(数据库管理系统)的
5、结构化数据的内关系等大量的信息。容,基于Web的非结构化内容,基于移动网络和传感第二,大数据的数据类型更加复杂。包括图片、器网络的数据内容。大数据分析的研究领域主要有收稿日期:2014—10—23项目基金:2015年度河南省高等学校重点科研项目(15A120014)作者简介:姚瑶(1982~),女,湖南保靖人,硕士,中州大学信息工程学院讲师,研究方向为网络信息技术。·120·文本分析、Web分析、网络分析及移动数据分析等。本分析技术体系如表2所示。2数据分析表2文本分析技术体系2.1文本分析层次应用领域信息访问:信息检索、信息浏览、信息过滤、信息报告,文本分
6、析技术主要包括文本信息抽取、文本分知识发现:数据分析、数据预测类、文本聚类、文本数据压缩、文本数据处理等。文申闻屡基本技术:文本信息抽取、文本分类、文本聚类、文本数据本分析技术起源于信息检索和计算语言学。当前,压缩、文本数据处理窒星鳌型塑垫!墨兰翌墼里:自签堡亘丝墨存在于Web页面、E—mail和社会媒体中的相应文除了上述研究方向外,文本分析还在如下几个方档,它们的内容通常都是非结构化的。信息检索、文向具有重要的研究机遇和挑战:Web在线文档作者归献表示法和查询处理是提升向量空间模型的基础。属分析、Web文档的多语种检索分析、大规模文本可布尔检索模型和概率检
7、索模型成为现代数字图书视化工作。而多媒体信息检索和移动信息检索是除馆、搜索引擎、和企业搜索管理系统的支撑技术。在了核心的多媒体和移动技术外,也需要文本分析技术计算语言学中,自然语言处理(NaturalLanguagePro—支持的另外两个领域。同大数据分析一样,文本分析cessing,NLP)统计技术用来进行词语识别、词义消也要用到MapReduce、Hadoop和云计算等服务,这些歧、词性标注、概率上下文文法等方面。另外,文档会促进文本分析研究方向的进一步发展。和查询表示、用户模型和相关反馈技术在改进查询2.2Web分析性能方面都很重要。在过去的lO年,W
8、eb分析技术一直是个活跃的20世纪90年代,在成熟的
此文档下载收益归作者所有