欢迎来到天天文库
浏览记录
ID:43923270
大小:2.10 MB
页数:51页
时间:2019-10-16
《第2章 数据采集集成与预处理技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘技术与应用陈燕教授第2章数据采集集成与预处理技术大连海事大学本章提纲数据采集的对象2.1数据集成技术与方法2.2数据预处理技术与方法2.3基于样本数据划分的通用数据挖掘模型系统2.4中间件技术2.5小结2.62.1数据采集的对象1.时序数据随着计算机技术和大容量存储技术的发展以及多种数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量数据。被保存的数据绝大部分都是呈现时间序列类型的数据。所谓时间序列类型数据就是按照时间先后顺序排列各个观测记录的数据集。2.1数据采集的对象时间序列在社会生活的各个领域都广泛的存在,如金融证券
2、市场中每天的股票价格变化;商业零售行业中某项商品每天的销售额;气象预报研究中某一地区的每天气温与气压的读数;以及在生物医学中某一症状病人在每个时刻的心跳变化等等。不仅如此,时间序列也是反映事物运动、发展、变化的一种最常见的图形化描述方式。2.1数据采集的对象2.Web数据Web挖掘与传统的数据挖掘相比有许多独特之处:Web挖掘的对象是大量异质分布的Web文档。Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。由于Web文档本身是半结构化或无结构的且缺乏机器可理解的语义,
3、而传统数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于Web挖掘。即使可用也需要建立在对Web文档进行预处理的基础之上。2.1数据采集的对象2.Web数据Web挖掘可分为三类:Web内容挖掘:是从文档内容或其描述中抽取知识的过程。Web结构挖掘:是从WWW的组织结构和链接关系中推导知识的过程。用户访问模式挖掘。2.1数据采集的对象3.多媒体数据多媒体数据挖掘(MultimediaDataMining,MDM)是目前国际上数据库、多媒体技术和信息决策领域最前沿的研究方向之一,是数据挖掘的
4、一个新兴且富有挑战性的领域。2.1数据采集的对象多媒体数据挖掘系统的原型结构如下图所示2.1数据采集的对象多媒体数据挖掘系统的三个主要阶段:数据准备多媒体数据知识挖掘知识表示与解释2.1数据采集的对象4.空间数据空间数据挖掘(SpatialDataMining,SDM)是指从空间数据库中提取出用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其他的一些隐含在数据库中的普遍的数据特征。2.1数据采集的对象从空间数据库中能够挖掘到的知识类型主要有如下几种:一般几何知识空间分布规律空间关联规则空间分类(聚类)规则空间特征规则空间区分规则空间演
5、变规则面向对象的知识2.2数据集成技术与方法数据集成是将多个数据源中的数据(如数据库、数据立方体或一般文件)结合起来存放到一个一致的数据存储(如数据仓库)中的一种技术和过程。2.2数据集成技术与方法集成的信息系统要解决的问题,反映到数据及程序方面,具体要求为:数据能有多种方式被录入,且易被获取;数据面向所有程序被使用、处理、存贮与更新;所有软件可以被入网的个人计算机调用运行并能协调工作;用户与系统之间的交互界面直观;数据集成机制贯穿于系统,且这些机制实现尽可能是无缝的。2.2数据集成技术与方法2.2.13G与MIS的集成模式2.2.2异构数据
6、集成的设计与实现2.2.13G与MIS的集成模式目前,越来越多的运输企业都看到了信息系统对提升管理效率和运输效率的作用,并建立了多种信息系统,如GPS、GIS和管理信息系统(ManagementInformationSystem,MIS),但由于各类系统有各自的管理和运行模式,其信息交换能力非常薄弱,更谈不上与相关企业实现信息的共享,因此,交通运输业的发展越来越依赖于包括各种管理和基于网络通讯在内的一个可交换和共享的集成管理信息系统。2.2.13G与MIS的集成模式GPS/GIS与MIS的集成模式如下图所示:2.2.13G与MIS的集成模式G
7、PS/GIS技术与MIS管理技术的集成主要体现在:实现了配送作业的可视化管理,对于配送调度决策具有重大意义;通信技术与运输管理技术的有效集成,实现了运输管理的动态调度和指挥;GPS技术和GSM的集成技术与运输管理技术的有效集成,实现了移动目标的实时监控。通过这种集成模式,系统实现了GPS/GIS监控系统与MIS系统的嵌入式集成,使得系统非常容易进行数据共享。2.2.2异构数据集成的设计与实现通过一个实例,说明如何利用异构数据整合平台实现数据的集成与交换过程。2.2.2异构数据集成的设计与实现首先,确定源数据和目标数据,下图为数据整合初始界面。
8、2.2.2异构数据集成的设计与实现在“原属性”和“目标属性”框中分别输入源数据与目标数据中要进行替换或整合的字段名,如果确认进行无条件替换,可以选中“无条件替换”单
此文档下载收益归作者所有