200804135095+贝成建+翻译

200804135095+贝成建+翻译

ID:37862255

大小:247.50 KB

页数:17页

时间:2019-06-01

200804135095+贝成建+翻译_第1页
200804135095+贝成建+翻译_第2页
200804135095+贝成建+翻译_第3页
200804135095+贝成建+翻译_第4页
200804135095+贝成建+翻译_第5页
资源描述:

《200804135095+贝成建+翻译》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、武汉科技大学本科毕业论文外文翻译本科毕业论文外文翻译外文译文题目(中文):从多角度分析聚类算法学院:信息科学与工程学院专业:电子信息工程学号:200804135095学生姓名:贝成建指导教师:陈新国日期:二○一二年六月17武汉科技大学本科毕业论文外文翻译AnalyzingPopularClusteringAlgorithmsfromDifferentViewpointsáQIANWei-ning,ZHOUAo-yingReceivedSeptember3,2001;acceptedFebruary25,2002从多角度分析现有聚类算法钱卫宁,周傲英(复旦大学计

2、算机科学系,上海200433)(复旦大学智能信息处理开放实验室,上海200433)17武汉科技大学本科毕业论文外文翻译摘要聚类数据挖掘社区研究广泛。它是用来设置成集群,使分区数据群集内的数据是相似的,集群间的数据是不一样的。使用不同的聚类方法相似的定义和技术。从三个不同的流行的聚类算法进行了分析观点:(1)集群的标准,(2)集群表示(3)算法框架。此外,一些新的内置的算法,混合或推广其他一些算法进行了介绍。由于分析是从几个观点进行的,它可以覆盖,并区分大部分现有算法。这是自我调整的研究的基础上算法和聚类基准。关键词:数据挖掘;聚类算法聚类是一个重要的数据挖掘技

3、术用于数据分割和图案信息。聚类技术被广泛应用于财务数据分类,空间数据处理,卫星应用照片分析,和医疗数字自动检测等。聚类的问题是分区设置成数据段(称为簇),使集群内的数据是相似,集群间的数据是不一样的。它可以是形式化为如下:定义1。由于数据集V{V1,V2,...,VN},其中六(I=1,2,...,N)被称为数据点。的过程划分为{C1,C2,...,CK},CiÍV(I=1,2,...,K)V和∪我=1ķCI=V时,基于数据点之间的相似性被称为聚类,CI(I=1,2,...,K)被称为集群。该定义不定义数据点之间的相似性。事实上,不同的方法,使用不同的标准。聚

4、类也被称为无监督学习的过程,因为没有有关数据的先验知识设置。因此,聚类分析,通常作为其他知识发现操作的预处理。质量聚类结果是重要的知识发现的整个过程。作为其他数据挖掘操作,高性能和可扩展性是其他两个旁边的精度要求。因此,一个良好的聚类算法应符合下列要求:独立预先了解;只需要易于设置参数,准确,快速,具有良好的可扩展性大量的研究工作已经完成建设的聚类算法。每个使用新的技术,以改善某些特征的数据处理能力。然而,不同的算法,使用不同的标准上面提到的。由于没有基准聚类方法,它是很难比较这些算法使用一个共同的测量。然而,详细的比较是必要的。这是因为:(1)应分析的优点和

5、缺点,这样可以改善现有的算法开发。(2)用户应该能够选择正确的算法,为特定的数据集,使优化结果和性能可以得到。17武汉科技大学本科毕业论文外文翻译(3)详细比较的基础上为建立一个集群基准。在本文中,我们从不同方面分析了现有的几个流行的算法。它是不同的,其他一些调查工作[1〜3]中,我们从不同的角度比较这些算法的普遍,而其他尝试归纳一些方法,以一定的框架,如在文献,[1,2],它只能覆盖有限算法,或刚引进的聚类算法逐个教程[3],所以没有算法之间的比较进行了分析。由于不同的算法,使用不同的标准和技术,这些调查只能覆盖部分算法。此外,一些算法不能区分,因为他们使用

6、了同样的技术,使他们属于同一类别,在一定的框架。本文的其余部分安排如下:第1至3分析从三个聚类算法不同的观点,即聚类准则,算法框架和集群的代表性。第4节介绍了一些方法,这是其他算法的混合物或概括。第5节介绍研究专注于集群的自动检测。最后,第6节是结论言论。应该注意,从每个角度来看,虽然我们尝试,我们可以划分为许多算法,有人至今下落不明。和某些算法可能落入同一类别。然而,当我们观察这些从所有这些观点的算法,可以区分不同的算法。这是我们工作的动力。1标准聚类分析的基础是相似的定义。通常情况下,相似的定义包含两个部分:(1)数据点之间的相似性;(2)数据点集之间的相

7、似性。不是所有的集群方法需要他们两个。有些算法只使用一个。可分为三类:基于距离,基于密度和联动为基础的聚类准则。基于距离和基于密度的聚类通常适用于欧氏空间中的数据,而连锁为主聚类可以应用于任意度量空间中的数据。1.1基于距离的聚类基于距离的聚类的基本思想是,一个集群是相互靠近的数据点。距离两个数据点之间的欧氏空间中很容易定义。广泛使用的距离定义包括欧几里得距离,曼哈顿距离。基于距离的聚类的优点是距离为便于计算和理解。和基于距离的聚类算法通常需要的参数,K,这是最后的集群用户希望或最小距离来区分两个集群。然而,他们的缺点也是明显的,他们是对噪声敏感的。虽然有些技

8、术他们中的一些介绍,他们导致其他严重的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。