欢迎来到天天文库
浏览记录
ID:52738448
大小:7.33 MB
页数:26页
时间:2020-03-30
《R的大数据分析一体化应用26.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、BIG DATAR的大数据分析一体化应用RforBigData跨入大数据时代,数据尽显锋芒!目录DIRECTORY1大数据概览2数据抓取3大数据处理4文本挖掘5交互式平台展示RforBigData一切努力都是不再让数据躺着睡觉...大数据全面爆发源于人们预知未来的梦想大数据需求基础——数据急速增长大数据技术基础—Hadoop,Spark业务数据高拓展性:适应能力强高性能:跑得快容错性好:不怕宕支持异构环境:不挑剔,接口多大数据的生命力大数据的成长力---源于及时性---源于预测性R生态环境RforBigData分析向数据移动的时代到来了...目录DIRECTORY1大数据概
2、览2大数据抓取3大数据处理4大文本挖掘5交互式平台展示RforBigData大数据就在身边,你却无可奈何...?二:数据抓取-微博数据抓取微博数据2010年中国微博元年,全年的增长率达到259.5%。截至2013年12月,我国微博用户规模为2.81亿,较网民中微博使用率为45.5%。以新浪微博为例,用户月均发表的帖子超过28亿,其中22亿条微博配图,8170万张帖子都带有短视频,2150万张帖子配有歌曲。install.packages("Rweibo",repos="http://R-API接口和OAUTH2认证OAUTH2认证授权机制:Forge.R-project.org
3、",type="source")install.packages("RCurl")跳转至用RequestUserUrl生成AuthCode户授权地址install.packages("rjson")(提示登录、给予授权)install.packages("XML")install.packages("digest")请求AccessTokenRequestAccessUrlinstall.packages("PKI")生成AccessTokeninstall.packages("gmp")请求用户OpenIDRequestInfoUrlrequire("Rweibo")#创建a
4、pp生成OpenID获取用户(通过token、openid及api)资源信息RforBigData大数据就在身边,你却无可奈何...?二:数据抓取-社交网络数据抓取社交网络网络+社交的意思。通过网络这一载体把人们连接起来,从而形成具有某一特点的团体。一个社交网络的平均大小约为124人左右,以人为节点,人与人之间的关系作为边构成整个社交网络。WALKTRAP算法:>g_wt<-walktrap.community(g_iso,发展:雏形weights=E(g)$weight,steps=200,modularity=TRUE)>g_wt《链接:网络新科学》——巴拉巴西6度分隔
5、富者越富,穷者越穷,幂律分布,二八原则2012KDDCUP数据挖掘全球竞赛:Predictwhichusers(orinformationsources)oneRforBigData大数据就在身边,你却无可奈何...?二:数据抓取-网页数据抓取网页数据互联网提供越来越多的数据,无论分析表格,抑或股票数据,抑或经济经营数据,以及评论数据,通常,我们以的API方式获取网站数据,但是R提供了网页(尤其是静态网站)上抓数据的包。require(XML)静态网页数据抓取require(RCurl)Flash网页数据抓取抓取网页表格数据或者标题结构require(RCurl)pm=g
6、etURL(website,.encoding="UTF-8")require(rjson)pmweb=htmlParse(pm,encoding="UTF-8")pmtotal=getNodeSet(pmweb,"//div[@class='warp']//a")抓取网页表格数据或者标题结构Fdjson<-getURL("http://ifsfd.**")抓取网页数据文件f<-fromJSON(fdjson)fileUrl1<-“https://d39***id.csv"fd<-matrix(unlist(fdlist),ncol=4,byrow=T)download.f
7、ile(fileUrl1,destfile="D://qest-1.csv",)fdd<-data.frame(fdm,stringsAsFactors=F)RforBigData大数据就在身边,你却无可奈何...?目录DIRECTORY目录DIRECTORY1大数据概览2数据抓取3大数据处理4文本挖掘5交互式平台展示RforBigData数据量太庞大,你无法处理...?三:大数据处理-R与hadoop的融合架构HadoopManager安装、部署、配置、监控、告警和访问控制工具Mahout
此文档下载收益归作者所有