数据挖掘平台建设方案

数据挖掘平台建设方案

ID:83510385

大小:210.50 KB

页数:7页

时间:2023-07-07

上传者:万里一叶飘
数据挖掘平台建设方案_第1页
数据挖掘平台建设方案_第2页
数据挖掘平台建设方案_第3页
数据挖掘平台建设方案_第4页
数据挖掘平台建设方案_第5页
数据挖掘平台建设方案_第6页
数据挖掘平台建设方案_第7页
资源描述:

《数据挖掘平台建设方案》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

数据挖掘平台建设方案1.1.1.1平台简介DataSense数据挖掘系统主要提供实现大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供上层应用选择,具有高处理性能和高可靠性,可不间断接受任务。1.1.1.2平台设计数据挖掘架构图

1DataSense数据挖掘系统采用了数据立方大数据库作为对系统海量数据的底层存储平台,提供了高效的ETL工具,能够对海量数据进行高效快速的清洗。前端WEB部分方便用户管理和使用系统,对于数据挖掘的结果提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于业务系统对数据和模型的观察和调用。DataSense数据挖掘核心模块系统架构:DataSense核心模块图Ø分布式数据挖掘引擎管理本机上同时运行的多个计算任务,协调资源分配。Ø分布式挖掘运行时独立的数据挖掘程序,负责对切分好的最小单元任务进行处理。ØDataSense分布式数据挖掘管理引擎提供对数据挖掘应用的API

2,同时负责对整个数据挖掘任务的调度管理。Ø分布式数据挖掘算法库提供对数据挖掘常用的基本挖掘算法,同时用户可以自己任意添加新的挖掘算法。1.1.1.1主要功能DataSense数据挖掘系统实现了大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供用户选用。共计包含了27个数据挖掘算法。Ø平台界面DataSense分布式数据挖掘平台提供对集群机器的负载监控,磁盘监控等基本管理功能。用户可以快速方便的监控整个集群的运行状态。Ø数据导入负责对数据的导入,支持数据库,文件系统两种数据抽取方式。将数据抽取保存到数据立方。

3Ø数据管理可以查询不同表的数据信息,可以导出原始数据文件。Ø任务管理由于算法的输入规模的不同,部分数据挖掘业务可能运行时间过长,系统提供了挖掘任务的查看、管理功能。Ø用户管理大数据挖掘平台提供了多用户使用,系统管理员可以通过用户信息管理功能实现对系统多用户的管理。Ø系统配置提供系统平台自身的参数信息管理Ø可视化查询介绍系统提供了对于已有数据的可视化查询,用户可以自定义查询逻辑,系统会在后台自动提交查询任务。目前查询支持了标准SQL60%的查询功能。Ø分类算法

4分类算法目前提供了对于数据集的学习、分类的功能。同时用户还可以保存数据训练模型以便决策者或者第三方系统能够在线获取模型,并基于模型进行企业经营行为的决策或计算。分类结束后系统会通过可视化的方式展示系统训练分类后的结果。Ø聚类算法聚类分是对未知事物的分类,系统提供了对结构化数据的聚类,用户可以选择不同纬度的聚类。上图为聚类设计页面,用户可以选择数据源,聚类属性,聚类本身的相关属性等信息。聚类完成后,系统通过可视化的查询,目前提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于用户对数据和模型的观察和理解。1.1.1.1平台优势特性(1)灵活的高性能硬件配置  DeepRack深度学习一体机包含24U

5半高机柜,很多可配置4台4U高性能服务器;每台服务器CPU选用英特尔E5-2600系列至强处理器;每台服务器很多可插入4块英伟达GPU卡;可选配NVIDIATITANX,GeForceGTX1080、K80等各档次英伟达GPU卡,以满足不同深度学习应用的需求。DeepRack深度学习一体机为用户提供很大每秒176万亿次的单精度计算能力,满配时相当于160台服务器的计算能力,使您的深度学习产品在计算效率上具有非凡竞争力;另外,充分考虑了7*24小时大规模运算的需要,一体机内部采用专业的散热、能耗设计。(2)集成知名的深度学习软件系统  DeepRack深度学习一体机预装CentOS操作系统,集成了两套位于行业前沿开源工具软件——Google的TensorFlow以及伯克利大学的Caffe,以帮助学习诸如图像识别、语音识别和语言翻译等任务。(3)提供基础训练数据  DeepRack深度学习一体机提供了MNIST、CIFAR-10、ImageNet等图像数据集,以满足实验与模型塑造过程中的训练数据需求。(4)即买即用,周到服务  DeepRack深度学习一体机预装CentOS操作系统,安装配置了TensorFlow、Caffe

6等主流深度学习开源工具软件,并免费提供大量的可训练数据,用户根据操作手册,可快速搭建属于自己的深度学习应用。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
最近更新
更多
大家都在看
近期热门
关闭