聚类技术的若干问题研究

聚类技术的若干问题研究

ID:34112980

大小:4.71 MB

页数:73页

时间:2019-03-03

聚类技术的若干问题研究_第1页
聚类技术的若干问题研究_第2页
聚类技术的若干问题研究_第3页
聚类技术的若干问题研究_第4页
聚类技术的若干问题研究_第5页
资源描述:

《聚类技术的若干问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、聚类技术的若干问题研究专业名称:计算机应用技术申请人:刘亚琼指导教师:袁鼎荣教授论文答辩委员会主席:委员:聚类技术的若干问题研究洲IIIIIIIIIIJIIIIII[IIIIIIY2584864研究生姓名:刘亚琼导师姓名:袁鼎荣教授专业:计算机应用技术研究方向:数据挖掘年级:201l级摘要聚类分析源于数学和统计学,应用于计算机科学、生物学和经济学等领域,它是数据挖掘技术中的经典方法,旨在针对数据对象的特点,基于某种相似性度量标准将数据对象聚集到相应的簇中。该方法首先针对待分类数据的特点进行透彻的分析,并构造相似

2、性度量准则,然后基于相似度设计相应的聚类算法,从而实现分类的目的。虽然聚类分析方法在文本分类、Web页面分类、Web用户分类及空间数据分析等问题中已取得了成功的应用,但不同的应用环境下,各种方法的效果也各不相同。因此本文拟深入讨论聚类分析方法在多数据库分类及文本分类上的应用。大型企业,尤其是跨国公司,随着信息技术的进步、自身规模的发展和分支机构的扩充,积累了越来越多的事务数据库,学术界称之为多数据库。多数据库不仅包含的数据库数目众多,其中各数据库所积累的数据量也非常庞大,传统的单一数据库挖掘技术已无法满足多数据

3、库挖掘的需要。事实证明先对多数据库分类再按类挖掘模式的方法是目前最有效的挖掘策略,因此多数据库分类己成为聚类分析所需解决的新的技术问题。本文针对多数据库中数据对象的特点,基于当前的研究基础,构造了新的优秀度衡量标准,并设计了相应的聚类算法。文本是广为使用的信息载体,文本信息处理是一种涵盖了统计学、机器学习、模式识别及数据挖掘等技术的多学科综合研究领域。由于文本数量的庞大,最有效的挖掘方法是先对文本进行分类,然后以类为单位挖掘模式,因此,文本分类已成为文本信息处理中的一项重要课题。文本是词的集合,在某种程度上,文

4、本中的词等同于事务数据库中的事务项,因此文本数据对象与多数据库数据对象有着内在的关联,多数据库分类中所建立的聚类策略可以映射到文本分类问题上。研究过程中,首先详细了解了聚类分析方法的技术基础,深入研究了多数据库和文本挖掘的理论知识;然后根据多数据库数据对象的特征,构造了新的聚类优秀度评价标准,并将这一标准类推到文本分类中;最后分别针对多数据库和文本对象设计了相应的聚类算法,并用实验证明了算法的有效性。主要研究内容如下:(1)在现有多数据库聚类算法的基础上,提出了改进方法。虽然多数据库聚类算法已取得一定的成果,但

5、目前的方法仍可能在选择最优聚类的过程中错过真正的最优结果。对于这种情况,我们在现有算法的基础上提出了一种改进方法,旨在得到完全的候选聚类集合,并在人工数据集上进行了实验,结果表明该算法能得到更优秀的聚类,但是算法的时间复杂度相对较高,适用于精度要求较高的分类环境。(2)设计了一种基于PAntSC‘算法的多数据库聚类方法PAntSC*算法己被应用在文本分类中,但需要事先提供目标类别的个数,本文在PAntSC*算法基础上进行了改进,并应用于多数据库分类问题上。聚类过程中,我们首先根据各数据库的轮廓系数建立数据库聚类

6、序列£,然后基于改进的PAntSC*算法将数据库依次聚集到相应的类别中,最后根据结果评价标准确定最优聚类。该方法避免了Huffman算法需要事先指定类别数量的局限性,应用性能较强。(3)提出了一种基于Huffman树思想的文本聚类算法文本是句子的集合,句子由“词”构成,事务数据库是记录的集合,记录由事务项构成,因此文本分类和多数据库分类中的数据对象间存在着内在的关联。我们利用在多数据库分类中所积累的技术方法,针对文本数据的特性,构造了新的文本相似性度量准则,提出了基于Huffman树思想的文本聚类算法,并根据优

7、秀度评价标准筛选出最优的聚类结果。针对我们所提出的方法,在中文分类语料库上进行了实验,虽然得到的结果并不是最理想的,但证明了该文本聚类算法的可行性。本文针对聚类分析方法在多数据库和文本分类上的应用展开了研究,提出了三种聚类算法,并通过实验验证了算法的可行性。本课题所探讨的问题理论上夯实了聚类技术基础,应用上为多数据库分类和文本分类提出了新的聚类方法。关键词:数据挖掘:聚类分析:多数据库聚类;文本聚类:PAntSC+:Huffman树AnalysisCandidate:LiuMajor:ComputerAppli

8、cationoftheClusteringTechnologyYaqiongSupervisor:Prof.YuanDingrongTechnologyReasearchArea:DataMiningGrade:201AbstractClusteringtechnique,acombinationofmathematicsandstatistics,isappliedinthefiel

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。