复杂数据类型的挖掘

复杂数据类型的挖掘

ID:37747365

大小:252.60 KB

页数:42页

时间:2019-05-30

复杂数据类型的挖掘_第1页
复杂数据类型的挖掘_第2页
复杂数据类型的挖掘_第3页
复杂数据类型的挖掘_第4页
复杂数据类型的挖掘_第5页
资源描述:

《复杂数据类型的挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Chapter10: 复杂数据类型的挖掘广东商学院信息学院胡建军数据仓库与数据挖掘1/93CourseOutline复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘2/72CourseOutline复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘3/72数据挖掘的对象简单数据关系数据库、事务数据库、数据仓库复杂类型数据复杂对象、空间数据、多媒体数据、时间序列数据、文本数据、Web数据等挖掘技术:基本挖掘技术的扩展针对复杂数据类型的新

2、技术实施知识挖掘的方法4/72复杂数据对象的多维分析和描述性挖掘商品化数据仓库和OLAP工具用于多维分析的局限:维———非数字数据度量———聚集值复杂数据对象的概化及其概化数据的应用复杂数据的组织及存储方法类、类/子类对象:对象标识、属性、方法5/72复杂结构数据的概化复杂结构数据:集合、元组、列表、树、记录等及其组合;概化方法:保持原结构不变,概化其属性把原结构扁平化,概化扁平化的结构用高层概念或聚集汇总低沉结构返回原结构的类型或概貌6/72集合值集合值一般概化方法:将集合中的每个值概化为其对应的更高级别的概念导出集合的一般特征(元素个数、区间、平均值、最

3、大值等)示例:业余爱好{网球,曲棍球,国际象棋,小提琴,任天堂游戏}概化:{体育,音乐,电子游戏}{体育(3),音乐(1),电子游戏(1)}7/72列表值/序列值列表值/序列值类似于集合值属性的概化,要求保持元素的次序。一般概化方法:将列表中的每个值概化为对应的高层概念导出列表的一般特征(长度、元素类型、平均值、最大值等)8/72空间和多媒体数据的概化聚集和近似计算空间数据例:土地规划多媒体数据图像:尺寸、颜色、形状、纹理、方位等音乐:音调、节拍、乐器等文本:摘要、关键词等9/72对象的概化对象标识符沿类/子类层次结构概化继承特性数据概化对直接数据与继承数据

4、同等对待方法方法本身不能概化,但是可以对方法导出的数据进行概化10/72CourseOutline复杂数据对象的多维分析和描述性挖掘空间数据库挖掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘11/72空间数据库挖掘空间数据库及其一般特点存储了大量与空间有关的数据包含拓扑/距离信息复杂的、多维的索引结构访问通过空间数据的方法,通常需要空间推理、地理计算、空间知识表示技术空间数据挖掘:要综合数据挖掘与空间数据库技术12/72空间数据库挖掘传统空间数据分析(统计方法)的不足统计方法通常假设空间分布的数据间是统计上独立的,但现实是空间对象间是相互

5、关联的;大部分统计模型只有具有相当丰富领域知识和统计方面经验的统计专家才用得起来;统计方法不适用符号值,或不完整或非确定的数据,对大规模数据库其计算代价也十分昂贵。空间数据挖掘将对传统的空间分析方法加以扩展,重点解决其高效性,可伸缩性,与数据库系统的紧密结合,改进与用户的交互,以及新的知识的发现。13/72空间关联分析空间关联规则形如:AB[s%,c%]其中A和B空间和非空间谓词的集合,s%表示规则的支持度,c%表示规则的的可信度。例:Is_a(X,”school”)∧close_to(X,“sports_center”)⇒close_to(X,“park

6、”)[0.5%,80%]此规则表明80%靠近体育中心的学校同时也靠近公园,并且有0。5%的数据符合这一规则。14/72空间聚类方法空间数据聚类是要在一个较大的多维数据集中根据距离的计算找出簇,或稠密区域。15/72空间分类和空间趋势分析空间分类指分析空间对象导出与一定空间特征有关的分类模式,如郊区,高速公路,河流的邻接。空间趋势分析处理的是另一类问题:根据某空间维找出变化趋势。例如,当离城市中心越来越远时,我们要分析经济形势的变化趋势,或离海洋越来越远时,气候与植物的变化趋势。16/72CourseOutline复杂数据对象的多维分析和描述性挖掘空间数据库挖

7、掘多媒体数据库挖掘时序数据和序列数据的挖掘文本数据库挖掘Web挖掘17/72多媒体数据库挖掘多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据,图象数据,视频数据,序列数据,以及超文本数据,包含文本,文本标记(textmarkup),和链接(linkage)。多媒体数据的相似搜索主要考虑两种多媒体标引和检索系统:(1)基于描述的检索系统,主要是在图象描述之上建立标引和执行对象检索,如关键字,标题,尺寸,创建时间等;(2)基于内容的检索系统,它支持基于图象内容的检索,如颜色构成,质地,形状,对象,和小波变换等。多媒体数据的分类和预测分析多媒体数据中的

8、关联规则挖掘18/72CourseOutline复杂

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。