欢迎来到天天文库
浏览记录
ID:22335370
大小:60.50 KB
页数:8页
时间:2018-10-28
《数据挖掘与数据仓库a》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、——————————————密————————————封————————————线——————————————学号姓名班年级专业系别西南大学课程考核命题单西南大学荣昌校区 信息管理系《数据挖掘与数据仓库》课程试题【A】卷2012~2013学年第1学期期中 考查考试时间1周考试方式其他考核学生类别本科人数120适用专业或科类信息管理与信息系统、计算机科学与技术年级2010级题号一二三四五六七八九十合计得分签名阅卷须知:阅卷用红色墨水笔书写,得分用阿拉伯数字写在每小题题号前,用正分表示,不得分则在题号前写0;大题得分登录在对应的分数
2、框内;统一命题的课程应集体阅卷,流水作业;阅卷后要进行复核,发现漏评、漏记或总分统计错误应及时更正;对评定分数或统分记录进行修改时,修改人必须签名。 特别提醒:学生必须遵守课程考核纪律,违规者将受到严肃处理。一、题目(100分)1、CURE算法的应用研究以《CURE算法的应用研究》为题目写一篇论文,要求写一篇聚类算法的具体的应用方面论文论文内容主要包括:题目、摘要、引言、算法基本原理、算法的发展近况以及算法的具体应用实例。最好能提出自己的改进思想。二、要求如下:1、每个同学根据对CURE算法的理解和自己的兴趣,该聚类算法在实际生
3、产中的具体应用来写1篇论文;2、尽量考虑对算法本身进行适当的改进;3、每个同学必须提交一份打印的纸质论文;4、抄袭者以0分记。算法设计第7页共8页——————————————密————————————封————————————线——————————————学号姓名班年级专业系别西南大学课程考核命题单《CURE算法的应用研究》摘要:本文介绍了CURE算法的基本原理与算法思想的形成过程,并针对CURE算法在大型数据库中选区代表点中存在的问题提出了改进方法。针对大型数据库,CURE采用随机取样和划分两种方法的组合:一个随机样本首先被划
4、分,每个划分都被部分聚类。这样,代表点是来自一组随机抽取的样本集,而且它的最初数目也是人为确定的,这是需要改进的地方。引言:随着计算机技术和信息技术的发展,信息的增长速度呈现指数上升,已远远超出了人们分析它们并从中提取有用信息的能力。虽然数据库系统可以高效地实现数据的录入、查询、简单统计等功能,但却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,也就是说使用传统分析方法远远不能满足现实的需求。面对海量数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。人们迫切需要一种去粗存精、去伪存真的技术,迫切
5、需要一种能够对数据进行深层次加工的自动化技术。能够从海量的数据中提取知识和信息的数据挖掘技术应运而生。CURE算法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。算法基本原理CURE算法:利用代表点聚类CURE算法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或代表一个簇,而是选择数据空间中固定数目的具有代表性的点。簇的代表点产生方式:首先选择簇中分散的对象,然后根据一个特定的分数或收缩因子向簇中心“收缩”或移动它们。在算法每一步,有最近距离的代
6、表点对(每个点来自不同簇)的两个簇合并。CURE算法的核心步骤:(1) 从源数据对象中抽取一个随机样本S;(2) 将样本S分割为一组划分;(3) 对每个划分局部地聚类;(4) 通过随机取样剔除孤立点。如果一个簇增长得太慢,就去调它;(5) 对局部得簇进行聚类。落在每个新形成得簇中的代表点根据用户定义的一个收缩因子a;收缩或向簇中心移动;(6) 用相应的簇标签来标记数据。算法设计第7页共8页——————————————密————————————封————————————线——————————————学号姓名班年级专业系别西南大学课
7、程考核命题单优点:CURE的复杂度是O(n),对孤立点的处理更加健壮,可识别非球形和大小变化较大的簇;对大型数据库也有良好的伸缩性;支持复杂形状和不同大小的聚类;敏感度低。缺点:不能处理分类属性CURE聚类算法的实现任务背景聚类(clustering)就是将数据对象分组成为多个类或簇(cluster),在同一簇中的对象之间具有较高的相似度,而不同的簇中对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域,包括数据挖掘,统计学,生物学,以及机器学习。作为统计学的一个分支,聚类分析已
8、经被广泛的研究了许多年,主要集中在基于距离的聚类分析。基于k-means(k-平均值),k-medoids(k-中心点)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中,例如S-Plus,SPSS,以及SAS。CURE(ClusteringUs
此文档下载收益归作者所有