刘诚忠明略大数据产品演进实践.pdf

刘诚忠明略大数据产品演进实践.pdf

ID:55571855

大小:2.24 MB

页数:33页

时间:2020-05-18

刘诚忠明略大数据产品演进实践.pdf_第1页
刘诚忠明略大数据产品演进实践.pdf_第2页
刘诚忠明略大数据产品演进实践.pdf_第3页
刘诚忠明略大数据产品演进实践.pdf_第4页
刘诚忠明略大数据产品演进实践.pdf_第5页
资源描述:

《刘诚忠明略大数据产品演进实践.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、从“被虐”到“落地”——明略大数据产品演进实践明略数据刘诚忠2015.4目录WHY大数据落地被虐实例如何应对案例分享我们是谁北京明略软件系统有限公司•成立仅一年,66人•大数据平台,挖掘平台,数据工厂•国美,苏宁,北京台,银联,地税,邮储银行…提供全行业的大数据整体解决方案,重点覆盖政府、金融、通信和零售四大支柱产业理想和现实期望到达大数据的核心价值在于:挖掘隐藏在大数据背后的知识目录WHY大数据落地被虐实例如何应对案例分享信心爆棚的进击•Hadoop•HBase•Spark•Storm•Impala•ML很快感受到森森的恶意丰富的数据源权力的游戏性能更要命的问题——大数据??问题

2、定义整合保护分析交互多源,异构,实时权限,集群,统一模型,效率,定制可视化,实时响应目录WHY大数据落地被虐实例如何应对案例分享明略总体思路核心产品组件数据分析挖掘数据安全DataOne&SQLOneINCRAcre全链路数据整合、存储管理、查询计算、让传统应用系统的数据实时Cell级别的数据访问权限管理处理分析的大数据作业平台整合进数据平台大数据集群DataInsightLogM全界面操作的快速建模和数据挖掘工具日志实时采集、处理和整合系统安全CharmiBoard数据整合NoahArk自由定制的跨平台数据可视化工具集中管理,监控和运维您的系统明略DataONE帮助企业实现数据治

3、理的一站式大数据工作台抽象设计,帮助业务方关注需求任务,不纠结底层技术异构数据源混合查询的SQL引擎(专利申请中),可JOIN传统数据库,NoSQL,Hadoop数据•数据管理DataOneInterface管理平台中所有文件、结构化和非结SQL接口构化数据用户界面APIs•数据整合QueryOptimizer依据分析场景,通过人机交互将异构DataOneCoreServices多引擎适配的数据打通整合MiningLamp多数据源适配SQLOne数据作业•数据作业实现不同复杂程度的数据处理和分析数据管理数据整合•人机交互全界面操作,提供大量数据作业模板DataONE系统架构明略Ac

4、re•支持Hive,Impala,MySQL多业务查询ETLLDAPWEBUI平台数据接口的统一授权管理(专利申请中)用户角色用户组操作资源•精确到cell级别的ACL/RBAC混合权限管理,超过市场同类产品权限Provider(Cloudera列权限功能开发中)RequestRequired用户用户角色权限判定角色OperatorOperatorResourceResourceQueryParseCheckAppendWhereClausAcre——系统架构明略DataInsight带有调参反馈机制的可视化数据挖掘平台,为企业数据科学家打造的建模利器•Decisi

5、onTree•LogisticRegression•SupportVectorMachine•MultinomialNaiveBayes•RegressionTree集成所有主流数据挖掘算法•LinearRegression可视化快速建立数据挖掘模型•LassoRegression•RidgeRegression大大降低数据挖掘的交互复杂度•K-Means以反欺诈和征信为代表的垂直解决方案•…DI——系统架构DI——DSL支持•DataInsight自定义了简单的脚本语言,用来处理一些较为复杂的数据变换•目前DSL支持以下功能,基本满足常见的数据转换需求。–数据过滤–GroupBy

6、–常用数学函数–类型转换函数–字符串操作–Map操作–统计函数DI——算法列表分类算法聚类算法回归算法推荐算法•SVM•K-means•LassoRegression•ItembasedCF•LogisticRegression•DBScan•RidgeRegression•UserbasedCF•NativeBayes•LinearRegression•AlternatingLeast•DecisionTree•GradientBoostedSquares•RandomForestRegression•RegressionTree特征变换自然语言处理频繁模式数理统计•PCA•LD

7、A•FPGrowth•CorrelationAnalysis•Word2Vec•BIDE•DistributionStatistics基于Spark的并行化算法新一代BIOLAPCUBE?新一代BI•一站式的意义——DATAGRAVITY•要考虑到复杂分析可能——OLMP•分布式的痛永远在单点——最大限度去中心化新一代BIDATASTAXStratiohttp://velvia.github.io/presentations/cassandra-spark-olap-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。