欢迎来到天天文库
浏览记录
ID:37300008
大小:846.05 KB
页数:11页
时间:2019-05-21
《明略数据DataInsight白皮书》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、DataInsight:企业级的大数据挖掘平台产品白皮书明略数据2015/10/1A.北京市昌平区中东路398号中煤建设大厦1号楼4层邮政编码:102218F4,1#,ZhongmeiConstructionGroupPlaza,ZhongdongRoad,ChangpingDistrict,BeijingT.010-8423389F.010-56842040H.www.mininglamp.com明略DataInsight是一款企业级的大数据挖掘平台产品。明略DataInsight应用先进的大数据技术,帮助企业实现在海量数据上的数据挖掘
2、,获取隐藏在大数据下的知识,为企业创造新的业务价值。明略DataInsight专注于企业大数据挖掘的全过程。通过提供一体化、并行化的高效数据挖掘工具和模型应用平台,帮助企业提高大数据挖掘落地速度,降低大数据挖掘落地成本。一体化大数据挖掘应用平台明略DataInsight提供高效的建模工具帮助企业在大数据上进行数据挖掘,同时提供模型应用系统帮助企业整合从模型开发到模型上线的大数据挖掘落地的全过程,真正使得大数据挖掘能在企业轻松落地。图1跨行业数据挖掘标准流程1999年的《跨行业数据挖掘标准流程》定义了数据挖掘的6个步骤。但是,传统的数据挖A
3、.北京市昌平区中东路398号中煤建设大厦1号楼4层邮政编码:102218F4,1#,ZhongmeiConstructionGroupPlaza,ZhongdongRoad,ChangpingDistrict,BeijingT.010-8423389F.010-56842040H.www.mininglamp.com掘软件往往只涉及6个步骤中的前5个步骤,即只关心模型如何建立,模型建立完成后,如何部署、应用该模型,则很少有软件涉及。但是,从企业数据挖掘实践来看,建立模型只是企业数据挖掘工作的一小部分,后续还有大量的模型部署、更新、维护的工
4、作。目前这些工作缺乏良好的系统来进行管理,导致数据挖掘落地时间长、效率低。明略DataInsight从企业业务落地出发,帮助企业有效的管理大数据挖掘的各个阶段,不单单为企业提供了高效的建模工具,同时也提供模型应用管理系统帮助企业管理已经建立好的模型,降低了模型部署、更新等维护的成本。明略DataInsight是基于大数据平台的产品,这就意味着明略DataInsight的实验环境和生产环境融为一体。在实验环境中建立的模型可以很方便的在生产环境中应用,降低了模型的部署和迁移成本。并行化大数据挖掘运行平台大数据时代的特点是数据量规模巨大,传统的
5、单机算法已经无法满足大数据时代的需要,我们需要使用并行算法来处理和计算大数据。明略DataInsight是一款基于ApacheSpark架构的真正意义上的大数据挖掘平台,其通过Spark提供的高性能内存迭代计算引擎在多个节点上并行挖掘,解决了单机节点无法挖掘海量数据的问题,同时提高了挖掘速度。图2DataInsight并行架构A.北京市昌平区中东路398号中煤建设大厦1号楼4层邮政编码:102218F4,1#,ZhongmeiConstructionGroupPlaza,ZhongdongRoad,ChangpingDistrict,Be
6、ijingT.010-8423389F.010-56842040H.www.mininglamp.com明略DataInsight自主研发了大量并行运行在Spark之上的数据挖掘算法。这些算法覆盖了数据挖掘工作中最常用的算法种类。用户可以非常方便的在明略DataInsight中使用这些算法来创建模型。在大数据挖掘实践中,使用并行化的数据挖掘算法只是整个挖掘工作中的一部分,更多的工作集中在数据预处理方面。在大数据环境下,单机处理海量数据显然是不现实的。明略DataInsight提供了多种数据预处理的并行化算法,帮助用户高效的对数据进行处理。
7、明略DataInsight是完全基于Hadoop和Spark的并行化的平台,其计算能力受限于整个大数据平台的整体计算能力。当大数据平台的节点得到扩展时,明略DataInsight的计算能力也随之扩展。高效的大数据挖掘落地平台明略DataInsight专注于提高企业大数据挖掘的效率。在大数据挖掘实践中,往往70%-80%的时间和精力耗费在数据探索和数据处理上面。因此,提高数据探索和数据处理的效率会大大加速整个大数据挖掘的落地速度。明略DataInsight提供了交互式可视化的数据探索工具。明略DataInsight帮助用户实时对数据数据进行
8、探索,来指引其寻找更好的解决方法。同时,明略DataInsight提供了大量的图表形式供用户更加直观的感受数据,寻找数据中的规律。在数据处理方面,明略DataInsight除了提供大量的并行化
此文档下载收益归作者所有