欢迎来到天天文库
浏览记录
ID:9947129
大小:226.00 KB
页数:5页
时间:2018-05-16
《knime白皮书(中文版)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、技术报告(Knime:TheKonstanzInformationMiner)摘要---knime是一个能用来很简单的虚拟装配和交互执行数据管道的标准的环境Knime被设计成为一个教学,研究以及合作的平台,在这里你可以很容易的集成新的算法,数据操纵或者是可视化的方法比如一个新的模块或是节点。在这本白皮书我们将介绍有关设计方面的基础构架以及怎样将新节点插入的简单过程。第一概述在过去的几年里,人们对标准的数据分析环境的迫切需求已经达到前所未有的程度。为了充分利用大量不同种类的数据分析方法,这样一个环境是必须的—--能够简单而直观的使用,允许对分析进行快速和交互式的变
2、换,用户可以可视化的搜索结果。为了应付这些挑战,数据流水线操作环境是再合适不过一种模型。它允许用户通过标准的组建模块可视化地组装和修改数据分析流,同时提供一种直观,图示的方法来记载操作日记。Knime就能提供这样的一个环境。图1展示的是一个例子的数据分析流截图在中间,一个数据流正从三个源节点读入同时在多处进行处理,也跟分析流相平行,包括预处理,建模,以及可视化节点。在这种类繁多的节点中,你可以选择数据源,数据处理步骤,模型搭建算法,可视化技术甚至是输入输出模型工具,然后将它拖到工作区,可以让它和其他节点连接起来。让所有操作实现图形交互的能力创建了检索你手中的数据
3、集功能强大的环境Knime是用Java编写的而他的图形作业编辑区是一个类似Eclipse插件程序的工具。扩充是很容易的,通过打开API和数据抽象框架,把正确定义的新节点快速加入就可以了。在这本白皮书里我们会描述一些有关Knime内核的细节。更多信息你可以登陆网站查询。第二部分构架Knime的构架在设计之初就有三个主要的原则:•可视化,交互式构架:数据流应该通过简单的拖放各种处理单元来组合。标准的应用程序能被设计通过单个的数据管道。•模块化:处理单元和数据容器不应该相互依靠,以便分布式计算和不同算法的独立开发的实现更简单。数据类型被封装,也就是说没有数据类型被重定
4、义,新的数据类型能够伴随着明。类型描述传递器和比较器被很容易的添加。新的数据类型和已经存在的数据类型被同时声•易扩展性:它应该能很容易的添加新的处理节点或者是窗体,同时通过简单的插入和演示方法来对他们进行分布而不需通过复杂的安装/卸载步骤。为了达到这个目的,管道节点由数据分析处理组成,通过边来连接各节点传输数据或者是模型。每一个节点处理到达的数据或者模型然后把处理的结果传递到输出端口。图2处理结构图示处理的类型从简单的数据操作(如数据清洗,数据合并)到复杂的数据统计学功能(如平均数的计算,标准误差,用线性回归实现交互式的数据模型计算操作/聚类/决策树/神经网络)
5、。另外,大部分模型节点允许交互式的检索处理结果。下面我们将简单的描述有关数据节点和数据作业管理核心内容,以及怎么样实现可视化交互式对话。A.数据结构节点之间所有的数据流都被打包成一个叫数据目录的类,它把元信息和数据容器类型以及真实的数据联系起来。这种数据能够被反复的存取,比如数组。每一行包含一个特殊的标志位(或者是关键字)和具体的一串保存着真实数据的元数据避免通过行号或者索引号来获取入口的原因是可预测性,这就需要能够处理大量的数据同时也因此不需要保存每一行来获得快速,随机的访问。图3主要的基础数据结构UML图示B.节点节点是Knime中最主要的处理单元和经常用来
6、在工作区组装一个可视化的节点,节点包类的功能性和利用用户定义的节点模型执行,如果合适的话可能是一个数据对话框,一个或者多个数据窗体例子如果用户由设定的需求对话框和窗体才会生效。下面图示展示了最常见的模型—视图—控制板样板。例外,为了实现输入输出,每一个节点都有有输入输出端口,它们能用来传输数据或是模型。图4结构的UML图示C.工作流程管理Knime的工作流程连接各节点的必需或者是正式的曲线图,一个有向循环图。作业流程管理器允许插入新的节点,同时也允许在两个节点之间添加有向边。同时它也能保存节点的状态轨迹(如配置,执行),如果需要也能够用以返回一组可执行节点。这样
7、的环境构架能够自由的将工作量分给几个并行的线程,在未来甚至可以是分布式集中服务器。正是因为有了这基础的图形结构,工作流程管理器才能够满足所有节点按用户在实际需求中的希望的路径执行的需要。D.可视化和交互式的便捷每一个节点都有一系列实物与之相对应。第三部分库Knime能够提供种类繁多的饿节点,在这些节点当中有的用于各种数据输入输出,处理,转换,也有用于数据挖掘,机器学习以及可视化组件。数据输入输出:一般的文件阅读器,ARFF和Hitlist文件阅读器,数据库连接器,CSV,HitlistandARFF写入器数据操作:数据行列过滤,数据分割和取样,随机拖放或是排列,
8、数据连接与合并。数据转换
此文档下载收益归作者所有