欢迎来到天天文库
浏览记录
ID:46889878
大小:78.00 KB
页数:8页
时间:2019-11-28
《聚类分析翻译》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、西安科技大学题冃院、系(部)专业及班级姓名指导教师毕业设计(论文)文献翻译聚类分析计算机科学与技术学院计算机科学与技术1002李倩杨君锐介绍如今,很多行业都对数据进行收集,而且,聚类分析也被应用到很多数据上用来发现数据的某些知识或者特性。聚类分析是一门普通的统计学数据分析技术,被应用到很多领域,包括数据挖掘技术,图形识别和图像分析。一种聚类是将一个对象的数据集分割成为子集,所以在每个子集内的对象被认为是相似的,在不同子集的对象被认为是不相似的。这种相似或不相似的定义以及如何被衡量,取决于特定的应用程序。聚类分析可以根据它的应用口标分类为:(1)减少一定价值的函数(比如:数据对象到它们各自群集代
2、表点距离的总和(2)确定模型参数最优可能的取值(比如:高斯混合的方式)(3)识別高密度链接区域(比如:对象的高密度人口区域)(4)将类似的数据对象连接在一起(比如:连接一个图像上有相似颜色的像素分布)我们的研究分为第一个和最后一个类别。无论类别,数据在很多聚类应用中包含着内在的值的不确定性。这些数据被称作不确定数据。很多的因素造就了这些不确定性,比如无规律的数据生成和收集进程,测量误差,和数据老化。口前有大量的数据分析研究,只有以少部分从事数据不确定性研究。在这篇论文中,我们将研究如何在聚类分析中利用这些不确定性数据。我们也将在研究屮提出方法来解决聚类效率和准确性问题。1・1不确定数据和模型在
3、需要和现实世界交互的应用程序中,比如定位服务技术,传感器监测,和图像服务,数据不确定性是一个固有属性。特别地,从测量工具或者远距离来源收集的数据常常是不精确的,由于测量工具的谋差,取样的差异,过时的数据來源,或者其他的错误。比如,在移动对象的环境中,让数据库在所有的憐间追踪所有对象的准确位置是不叮能的,每个对象的位置与不确定性之间的更新有关。近期的作品也提出通过削弱用户位置的精确度來保护位置隐私。所有这类在值上有不确定性的数据被称作不确定性数据。不确定性的不同來源必须被认为是为了产生准确的数据查询和分析结果。近期,很多不确定性数据的研究集中在数据库中不确定性数据的管理,比如,不确定性数据在数据
4、库中的表示和带不确定性的数据杳询,然而,很少有研究从事关于不确定性数据挖掘问题。甚至更少有研究在聚类分析领域。这篇论文的目的是研究聚类不确定性数据的各种问题。一些不确定性数据具有多维的不确定性,比如上文中提到的在移动对象环境中陈III的位置数据,特别地,一个数据对象在空间中并不是一个简单的点,而是由概率密度函数定义的不确定区域建模。概率密度函数说明了对象在空间中的每个可能位置的概率密度。概率密度函数一般有能力建立任何不确定性模型,包括均匀分布或者高斯分布。因此,带有不确定性过时位置数据的移动对象可以用这种方法來建模。这种对象的概率密度函数可以由它的最新报告位置、地理信息和它的特性构造。对于带有
5、测量误差的数据,可以通过概率密度函数建模。错误叮以通过采取相同数据的多元测量解决,也可以在数据分析中利用这些错谋。利用多元测量的一种方法是重新定义度量标准,这种测量标准过去习惯用一种测量尺度,到所有的测量结果。比如说,为了计算两个不确定性对象之间的相似度,我们可能会计算这两个对象Z间所有可能的测量结果的平均相似度值。这个平均值给出了预期相似度作为这两个不确定性对象Z间的相似度。一些应用程序可能会需耍数据值的比较值來检验一些条件(比如,高出了某一阈值。)在这些应用程序中,每一个测量结果在比较中都可能作为数据值被单独的來使用。这些比较的大多数校验结果(比如,满足不满足条件)将会被作为整体结杲。这一
6、作业常常通过定义给定概率值的概率量度來完成。在这篇论文中,在不确定性数据的聚类问题上,我们既考虑到数据模型,还有概率密度函数和多重测量结果。我们还耍指出,一些不确定性数据可以通过值的间隔來建模。不同距离的测量,比如曼哈顿距离测量和闵叮夫斯基距离测量,经常被扩展到处理时间间隔局。由丁数据具有测量谋羌,它们可能会通过内核函数來建模。1・2最小价值函数的聚类分析聚类分析的一个目标是将数据对象分割成集群,以便减小价值函数(比如:数据对象到它们各自群集代表点距离的总和K-means算法是聚类应用的一种常见算法。简单来说,传统的聚类算法并没有解决数据值的不确定性这样的问题。然而数据的不确定性在一些现实的应
7、用程序中是本身固有的,由于这样一些因素,比如,比如无规律的数据生成和收集进程,测量误差,和数据老化。在这片论文中,我们将研究带有位置不确定性的空间对彖的聚类问题。在我们的模型屮,一个对象的位置通过空间概率密度函数表示。我们的目标是研究在改编传统的不确定性数据聚类的K-means算法中的计算问题,并且设计出高效的算法来解决这一问题。作为一个积极的例子,让我们一起来讨论移动设备的聚类问题。在很多无线网
此文档下载收益归作者所有