聚类分析 翻译

聚类分析 翻译

ID:20357041

大小:51.40 KB

页数:8页

时间:2018-10-10

聚类分析 翻译_第1页
聚类分析 翻译_第2页
聚类分析 翻译_第3页
聚类分析 翻译_第4页
聚类分析 翻译_第5页
资源描述:

《聚类分析 翻译》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、西安科技大学毕业设计(论文)文献翻译题目聚类分析院、系(部)计算机科学与技术学院专业及班级计算机科学与技术1002姓名李倩指导教师杨君锐日期8介绍如今,很多行业都对数据进行收集,而且,聚类分析也被应用到很多数据上用来发现数据的某些知识或者特性。聚类分析是一门普通的统计学数据分析技术,被应用到很多领域,包括数据挖掘技术,图形识别和图像分析。一种聚类是将一个对象的数据集分割成为子集,所以在每个子集内的对象被认为是相似的,在不同子集的对象被认为是不相似的。这种相似或不相似的定义以及如何被衡量,取决于特定的应用程

2、序。聚类分析可以根据它的应用目标分类为:(1)减少一定价值的函数(比如:数据对象到它们各自群集代表点距离的总和。)(2)确定模型参数最优可能的取值(比如:高斯混合的方式)(3)识别高密度链接区域(比如:对象的高密度人口区域)(4)将类似的数据对象连接在一起(比如:连接一个图像上有相似颜色的像素分布)我们的研究分为第一个和最后一个类别。无论类别,数据在很多聚类应用中包含着内在的值的不确定性。这些数据被称作不确定数据。很多的因素造就了这些不确定性,比如无规律的数据生成和收集进程,测量误差,和数据老化。目前有大

3、量的数据分析研究,只有以少部分从事数据不确定性研究。在这篇论文中,我们将研究如何在聚类分析中利用这些不确定性数据。我们也将在研究中提出方法来解决聚类效率和准确性问题。1.1不确定数据和模型在需要和现实世界交互的应用程序中,比如定位服务技术,传感器监测,和图像服务,数据不确定性是一个固有属性。特别地,从测量工具或者远距离来源收集的数据常常是不精确的,由于测量工具的误差,取样的差异,过时的数据来源,或者其他的错误。比如,在移动对象的环境中,让数据库在所有的瞬间追踪所有对象的准确位置是不可能的,每个对象的位置与

4、不确定性之间的更新有关。近期的作品也提出通过削弱用户位置的精确度来保护位置隐私。所有这类在值上有不确定性的数据被称作不确定性数据。不确定性的不同来源必须被认为是为了产生准确的数据查询和分析结果。近期,很多不确定性数据的研究集中在数据库中不确定性数据的管理,比如,不确定性数据在数据库中的表示和带不确定性的数据查询,然而,很少有研究从事关于不确定性数据挖掘问题。甚至更少有研究在聚类分析领域。这篇论文的目的是研究聚类不确定性数据的各种问题。8一些不确定性数据具有多维的不确定性,比如上文中提到的在移动对象环境中陈

5、旧的位置数据,特别地,一个数据对象在空间中并不是一个简单的点,而是由概率密度函数定义的不确定区域建模。概率密度函数说明了对象在空间中的每个可能位置的概率密度。概率密度函数一般有能力建立任何不确定性模型,包括均匀分布或者高斯分布。因此,带有不确定性过时位置数据的移动对象可以用这种方法来建模。这种对象的概率密度函数可以由它的最新报告位置、地理信息和它的特性构造。对于带有测量误差的数据,可以通过概率密度函数建模。错误可以通过采取相同数据的多元测量解决,也可以在数据分析中利用这些错误。利用多元测量的一种方法是重新

6、定义度量标准,这种测量标准过去习惯用一种测量尺度,到所有的测量结果。比如说,为了计算两个不确定性对象之间的相似度,我们可能会计算这两个对象之间所有可能的测量结果的平均相似度值。这个平均值给出了预期相似度作为这两个不确定性对象之间的相似度。一些应用程序可能会需要数据值的比较值来检验一些条件(比如,高出了某一阈值。)在这些应用程序中,每一个测量结果在比较中都可能作为数据值被单独的来使用。这些比较的大多数校验结果(比如,满足不满足条件)将会被作为整体结果。这一作业常常通过定义给定概率值的概率量度来完成。在这篇论

7、文中,在不确定性数据的聚类问题上,我们既考虑到数据模型,还有概率密度函数和多重测量结果。我们还要指出,一些不确定性数据可以通过值的间隔来建模。不同距离的测量,比如曼哈顿距离测量和闵可夫斯基距离测量,经常被扩展到处理时间间隔局。由于数据具有测量误差,它们可能会通过内核函数来建模。1.2最小价值函数的聚类分析聚类分析的一个目标是将数据对象分割成集群,以便减小价值函数(比如:数据对象到它们各自群集代表点距离的总和。)。K-means算法是聚类应用的一种常见算法。简单来说,传统的聚类算法并没有解决数据值的不确定性

8、这样的问题。然而数据的不确定性在一些现实的应用程序中是本身固有的,由于这样一些因素,比如,比如无规律的数据生成和收集进程,测量误差,和数据老化。在这片论文中,我们将研究带有位置不确定性的空间对象的聚类问题。在我们的模型中,一个对象的位置通过空间概率密度函数表示。我们的目标是研究在改编传统的不确定性数据聚类的K-means算法中的计算问题,并且设计出高效的算法来解决这一问题。8作为一个积极的例子,让我们一起来讨论移动设备的聚类问

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。