大数据处理技术97.pdf

大数据处理技术97.pdf

ID:52743392

大小:4.16 MB

页数:97页

时间:2020-03-30

大数据处理技术97.pdf_第1页
大数据处理技术97.pdf_第2页
大数据处理技术97.pdf_第3页
大数据处理技术97.pdf_第4页
大数据处理技术97.pdf_第5页
资源描述:

《大数据处理技术97.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机科学的挑战与方法-大数据处理技术主讲教师:怀进鹏合作教师:邓婷沃天宇孙海龙胡春明张日崇马帅李建欣李博计算机学院计算机新技术研究所2013年11月16日1内容提要大数据的分析现状数据的处理流程及处理技术数据挖掘算法图数据分析处理技术2Gartner关于业界对BigData兴趣的分析3Gartner关于BigData处理技术的分析4Gartner关于BigData处理技术的分析5内容提要大数据的分析现状数据的处理流程及处理技术数据挖掘算法图数据分析处理技术6数据的处理流程ChallengesandOpportunitieswithBigData-Acommunitywhi

2、tepaperdevelopedbyleadingresearchersacrossUSDivyakantAgrawal,UCSantaBarbaraPhilipBernstein,MicrosoftSamMadden,MITElisaBertino,PurdueUniv.YannisPapakonstantinou,UCSanDiegoSusanDavidson,Univ.ofPennsylvaniaJigneshM.Patel,Univ.ofWisconsinUmeshwarDayal,HPRaghuRamakrishnan,Yahoo!MichaelFranklin,UCBerkel

3、eyKennethRoss,ColumbiaUniv.JohannesGehrke,CornellUniv.CyrusShahabi,Univ.ofSouthernCaliforniaLauraHaas,IBMDanSuciu,Univ.ofWashingtonAlonHalevy,GoogleShivVaithyanathan,IBMJiaweiHan,UIUCJenniferWidom,StanfordUnivAlexandrosLabrinidis,Univ.ofPittsburghAresultofremoteconversationlastedabout3months(Nov.2

4、011~Feb.2012)7Challenges8大数据处理技术分析数据采集ETL工具、爬虫、传感器数据存储文件系统、关系数据库、图数据库;NoSQL(hadoop);数据分析NLP、统计、数据挖掘、机器学习、数据库数据展现数据类别类型(结构、)行业(医疗、社交)9数据采集-ETLExtract,TransformandLoad(ETL)ETL按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程。图片来源:http://igorportela.com/extract-transform-and-load-etl/10数据采集-爬虫网络

5、爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。图片来源:http://blog.csdn.net/pipi521520/article/details/559991911数据采集-传感器数据采集是指从传感器和其它待测设备等模拟和数字被测单元中自动采非电量或者电量信号,送到上位机中进行分析,处理。图片来源http://www.acurite.com/sensor-based-forecasting12

6、数据存储文件系统文件数据库又叫嵌入式数据库,将整个数据库的内容保存在单个索引文件中,以便于数据库的发布。关系数据库关系数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据图数据库图数据库的基本含义是以“图”这种数据结构存储和查询数据.NoSQL(hadoop)非关系型数据库以键值对存储(key-value),它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。13数据处理与分析数据处理:自然语言处理技术实现人与计算机之间用自然语言进行有效通

7、信的各种理论和方法数据降维技术将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示数据清理技术发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值14等数据仓库与联机分析处理1988年IBM两位研究人员(BarryDevlin和PaulMurphy)创造性地提出了一个新的术语:数据仓库(DataWarehouse)1992年比尔.恩门出版专著《Bui

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。