欢迎来到天天文库
浏览记录
ID:31982542
大小:2.55 MB
页数:50页
时间:2019-01-30
《基于划分的聚类算法.研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、大连理工大学硕士学位论文1绪论1.1研究背景及意义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(I①D)ll】、数据分析、数据融合(DataFusion)以及决策支持等。随着网络上Web页面的激增,以及文本数据库对各种形式文本统一管理和存储,仅仅依靠手工来对这些文本资源进行处理是不可能的。人们迫切需要有计算机自动地对这些大规模的文本集合进行有效
2、的处理和分析,包括分类、聚类、自动摘要等等。聚类分析【l】是数据挖掘的一项重要功能。聚类(Clustering)就是将物理或抽象的集合分组成为由相似的对象组成的多个类的过程,使得每一类内的数据尽可能相似而不同组内的数据尽可能不NE21。在许多应用中可以把一个簇中的数据对象当作一个整体来对待。聚类是人类一项最基本的认识活动。通过适当聚类,事物才便于研究,事物的内部规律才可能为人类所掌握。从技术角度讲,聚类的主要目的是将数据空间中的数据点划分到若干个类中,其中将距离相近的数据点划分到相同的类中,而将距离较远的数
3、据点划分到不同的类中。它是在无监督的情况下根据一定的相似性或距离计算函数自动的将数据集分成若干类。因此,在很多应用中,聚类分析作为一种数据预处理过程,是进一步分析和处理数据的基础。作为数据挖掘的功能,聚类分析可以作为一个获得数据分布情况、观察每个类的特征和对特定类迸一步分析的独立工具。通过聚类,能够识别密集和稀疏的区域,发现全局的分布模式,以及数据属性之间的相互关系等。随着Intemet以及各种文本管理系统中可用文本的不断增多,将文本几个余弦分割成若干类别,为诸多面向文本的智能系统提供了支持。虽然聚类分析也
4、可以起到分类的作用,但是它和大多数分类方法不同;大多数分类方法都是演绎的,即人们事先确定某种事物分类的准则或各类的标准,分类的过程就是比较分类的要素与各类别标准,然后将各要素划归于各类别中。确定事物分类准则或各类别的标准或多或少带有主观的色彩。在某些分类问题中,几乎没有相关数据的先验信息(如统计模型)可用,而且用户又要求尽可能少地对数据的可能性进行假设。而聚类分析将若干无标记的数据点聚合成有意义的簇的过程是由数据驱动12】的,因此特别适合用于挖掘有上述条件限制的数据点之间的内在关系。聚类分析是归纳的,不需要
5、事先确定基于划分的聚类算法研究与应用分类的准则,不知道它们的分类,甚至连分成几类也不知道。它通过一些计算来把对象进行合理的分离,使得同一类的对象比较接近,不同类的对象相差较多,这是无指导的学习。它既可以作为一个单独的工具以发现数据库中数据分布的一些深入信息,也可以作为其它数据挖掘分析算法的一个预处理步骤。本文算法的应用背景为实验室给大连市公安局做的大连市公安局网上作战系统一刑事审讯决策支持子系统项目。大连市公安局刑事审讯决策支持系统为大连市公安局提供的一套系统。该系统的一个需求模块是对案例事件进行管理,对同
6、类犯罪的案例进行汇总,并对新加入的分到相应的类别中,同时还要求方便工作人员查看某类犯罪类别的重要特征。由于公安局的刑事案例是以纯文本的形式存在的,是不在网上公布的内部文本数据库信息,所以针对此类需求,我们需要实现一种基于划分的聚类算法,对其中的违法犯罪数据库库经行数据挖掘,对犯罪的人员进行聚类,对犯罪人员的各种状态进行聚类,挖掘出犯罪类型的详细特征,方便工作人员的查看。1.2国内外研究现状1989年8月在美国底特律召开的第11届人工智能联合会议的专题讨论会上首次出现KDD(KnowledgeDiscover
7、yinDatabases)这个概念。随后在1991年、1993年和1994年都举行过KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题【3】。到了1995年,在美国计算机年会(AssociationforComputingMachinery)上,提出了数据挖掘的概念。同年在加拿大召开了第一届知识发现和数据挖掘国际学术会议。IEEE的KnowledgeandDataEngineering会刊率先在1993年出版了KDD技术专刊,并行计算、计算
8、机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。近年来有关KDD的国际研讨会已经召开了多次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有30多家软件公司展示了数据挖掘软件产品,不少软件已经在北美和欧洲的国家得到应用。IB
此文档下载收益归作者所有