欢迎来到天天文库
浏览记录
ID:41991138
大小:59.00 KB
页数:4页
时间:2019-09-05
《开源GraphLab突破人类图计算“极限值”》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、轻松搞定TB级数据,开源GraphLab突破人类图计算〃极限值”花于2014-02-2609:05
2、5564次阅渎
3、來源CSDN
4、9条评论
5、作者毛梦琪人数据GraphLabNoSQL图数据库开源摘要:目前图数据CM用于用户分析、欺诈检测、生命科学等多个领域,图数据巨人的商业价值逐渐被发现,开源项目GraphLab有力推动了图分析技术的发展,SFrame框架的首次壳相吸引来人量目光,未来的应用还会更加广泛。图数据处理过去一肓是数据科学家的专利,随着数据应用得越来越广泛,图数据分析成为数据分析领域必不可少的部分,人们越来
6、越需要易于上手、使用简单的图数据分析工具。GraphLab是个很受大家欢迎的开源项目,GraphLab开发者们不断追求图计算的创新和发展,使其能迎合海栄数据处理的要求。SFrame的亮相显得低调而神秘,不过其功能不可小觑,它将GraphLab扩展到了表格,使其可以轻松管理TB级数据。社交媒体的图数据已经引起了许多公司注意,在生命健康科学、安全、金融服务等很多领域也存在类似的数据集。图数据的特征使其需要特殊匸具和技术,这些工具对于一般用户来说太复杂了,在过去使用这些工具一肓是数据科学家的专利。幸运的是图数据分析这个领域
7、吸引了很多热心的企业家和开发人员。这些工具已经得到很人的改进,而且变得越来越简单。我们身边有很多机器学习M用于图数据分析的示例,比如:发现有影响力的用户(PageRank)和社区、欺诈检测和推荐系统(GraphLab用户屮比较流行的协同过滤)。一个领域的工具开发出来示常常会被应用到其他领域,除了GraphLab,分布式分析述被应用到Giraph、GraphX>Faunus和Grappa,此外像Neo4j和Yarcdata这样的图数据库也带有一些分析功能。近I」一家新公司的成立人人推动了开源项目GraphLab的发展,
8、该公同由GraphLab的开发者纽•成,筹集资金为图数据集开发分析匸具。GraphLab公司也将继续使用开源GraphLab“突破图计算的极限,努力创新”。GraphLab的SFrame是一种趣味十足而低调神秘的工具,首次在StrataSantaClara被揭开而纱。它基于磁盘,并通过二维表形式将GraphLab扩展到了表格数据。通过添加SFrame,用户可以利用GraphLab+许多处理图或表屮数据的算法。更重要的是SFrame增加了GraphLab数据科学II作流的覆盖范I札它允许用户肓接使用GraphLab对T
9、B人小的数据集进行数据清洁或者创建新的功能,SFrame性能可以通过增加内核实现线性扩展。据有关人士透露GraphLab正在努力将它们的引擎与YARN集成到一起,不过SFrame测试版已经可以从HDFS屮读取数据,还可以从木地磁盘、HDFS、S3或URL屮读取数据,并保存成人类可读的.csv或更有效的木机格式。一旦SFrame被创建并保存到磁盘后,就不盂要再重复处理数据了。下面用Python代码演示如何读取一个.csv文件到SFrame,以及创建一个新的数据功能并把它保存在S3磁盘上:importgraphlabas
10、gl#Loadamillionrowsofsongdata,denotingtheyearasaninterger#andalltheothercolumnsasstringssongsf=gl.SFrame.readcsv('sonqdata.csv1.columntypehints={year1:mt})song^sf.minirows)-〜songsf.head(2)songJdtitlereleaseartistnameyear0SOQMMHC12AB0180CB8SilentNightMonsterBall
11、adsXMasFasterPussycat20031SOVFVAK12A8C1350D9TanssivaanKarkuteill^Karkkiautomaau)1995»Countthenumberofwordsineachsongtitlesongsf「titlelength1J=songsf[ltitle,J.apply(lambdax:len(x.split(*•)))song]sf•headd)songidtitlereleaseartistnameyeartitlelength0SOQMMHC12AB018
12、0CB8StentNightMonsterBalladsXMasFasterPussycat200321SOVFVAK12A8C1350D9TanssivaanKarkuteillaKarkkiaulomaattJ19952#Lookattheaverage,min,andmaxtitlelengthprintsongst(•titleleng
此文档下载收益归作者所有