欢迎来到天天文库
浏览记录
ID:20609770
大小:1.70 MB
页数:29页
时间:2018-10-14
《基于r和pentaho的全套开源bi平台的实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于R和pentaho的全套开源BI平台的实现.李舰MangoSolutionsChina目录BI和pentaho套件简介R和pentaho的集成Hadoop下的应用系统选型的建议BI系统的框架业务系统财务系统HR系统Office文件其他格式的数据数据源决策支持功能基础架构数据模型和算法运算引擎财务分析数据挖掘预测仪表盘统计图形OLAP展现动态图形业务应用平台ExtractionETL数据获取和交换平台Transformation展现层Load报表模拟管理报表数据仓库多维分析OLAP引擎Pentaho套件Pentaho架构PentahoBIServer——自由而灵活的平台Rep
2、ortDesigner——方便的报表设计工具Mondrian——强大的开源OLAP引擎SchemaWorkbench——数据仓库的设计WEKA——优秀的数据挖掘平台Pentaho套件的演示目录BI和pentaho套件简介R和pentaho的集成Hadoop下的应用系统选型的建议R包rpentaho的操作演示目录BI和pentaho套件简介R和pentaho的集成Hadoop下的应用系统选型的建议Pentaho对Hadoop的支持http://www.pentaho.com/hadoop/PentahoBusinessAnalyticsPentahoDataIntegration
3、Hadoop简史ApacheNutch2002年,Lucene的子项目。NDFS(NutchDistributedFileSystem)MapReduceMapReduce:大规模集群上的简单数据处理方式(Google)MapReduce+NDFSHadoop2006,命名为Hadoop2008,Apache顶级项目HDFS(HadoopDistributedFileSystem)Hadoop和GoogleGoogle云计算MapReduceBigTableGFSChubbyGFS-->HDFSMapReduce-->HadoopBigTable-->HBaseHadoop项
4、目结构MapReduce流程HadoopStreamingHadoop的工具,使用脚本文件当mapper或reducer$$HADOOP_HOME/bin/hadoopjar>$HADOOP_HOME/contrib/streaming/hadoop-streaming-*.jar>-input/data/airline/test.dat-output/dept-delay-month>-mappermap.R-reducerreduce.R-filemap.R-filereduce.Rhivehttp://cran.r-project.org/web/packages/
5、hive/index.htmlHadoopInteractiVE(和Hive没什么关系)R和Hadoop的接口提供了存取HDFS的函数对Hadoop进行控制直接在R中运行streamingjobsRhipehttp://www.rhipe.org/基于Hadoopstreaming可以完全在R中开发MapReduce中的Jobs工作在R环境RHadoophttps://github.com/RevolutionAnalytics/RHadoop的开源项目rmrR和Hadoop的Streaming连接器Rhdfs处理HadoopDistributedFileSystemRhbas
6、eR和Hbase的连接器展望Hama(http://wiki.apache.org/hama/)矩阵运算R函数的分布式开发K-Meanslm……目录BI和pentaho套件简介R和pentaho的集成Hadoop下的应用系统选型的建议建议和讨论
此文档下载收益归作者所有