基于相似度的文本聚类算法研究及应用

基于相似度的文本聚类算法研究及应用

ID:39402574

大小:770.00 KB

页数:68页

时间:2019-07-02

基于相似度的文本聚类算法研究及应用_第1页
基于相似度的文本聚类算法研究及应用_第2页
基于相似度的文本聚类算法研究及应用_第3页
基于相似度的文本聚类算法研究及应用_第4页
基于相似度的文本聚类算法研究及应用_第5页
资源描述:

《基于相似度的文本聚类算法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、江苏大学硕士学位论文基于相似度的文本聚类算法研究及应用姓名:马素琴申请学位级别:硕士专业:计算机应用技术指导教师:施化吉20100601江苏大学硕士研究生学位论文摘要文本聚类是文本挖掘的一项重要技术,可广泛应用于文本挖掘与信息检索等方面,在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。但是,传统的文本聚类算法忽略了文本中单词之间的语义相关性,存在聚类结果不稳定等问题。论文主要针对以上问题对文本聚类进行研究。论文先论述了文本挖掘的相关知识,分析了文本聚类的必要性及国内外研究现状,并介绍了传统的文本聚类算法,

2、并对其进行比较和分析。重点对文本表示方法及DBSCAN算法做了深入研究,对相关算法进行改进,并在此基础上设计一个文本聚类系统。本文主要工作如下:(1)介绍常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。(2)提出一种基于语义列表的文本聚类算法,该算法利用语义相似度计算文本的相似度,获得文本的语义相关性,采用语义列表中的同义词近义词指针降低单词的冗余度,降低了文本数据的维度,最后采用基于划分聚类算法对文本聚类。实验表明此算法提高了聚类结果的正确性。(3)对聚类算法DBSCAN进行改进,提出一

3、种阈值优化的文本密度聚类算法。该算法首先使用k近邻距离对对象进行排序,并通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化闽值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果的影响,提高了聚类精确度和时间效率。文章采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。(4)在理论研究的基础上,将本文提出的文本聚类算法应用于文本数据集中,设计一种文本聚类系统,该系统提供了预处理模块、语义列表模块、聚类算法模块、结果评估模块,分析系统各个模块的主要功能及其应用,结果表明该系统具有良好的可扩

4、展性、灵活性。关键词:文本挖掘;文本聚类:文本表示;语义列表;相似度计算;聚簇表示;DBSCAN算法;TDCAOTV算法;分位数江苏大学硕士研究生学位论文ABSTRACTTextClusteringisallimportantbranchofTextMining,whichhasgetmoredepthresearchbecauseofitsuniqueknowledgediscoveryfunctions.Today,therearelotsofefficienttextclusteringalgorithmswhichhavebee

5、nwidelyusedintheautomaticdocumentfinishing,theorganizationofsearchresultsanddigitallibraryservices.However,withexpansionofdocumentsets,traditionaltextclusteringalgorithmencounteredanumberofinsurmountabledifficulties.Forinstance,algorithmignoresthesemanticcorrelationbetwe

6、enwords,theinstabilityofresult.Thesepapersmainlyfortheaboveproblemsdosomeresearchontextclustering.Inthefirstplace,thispaperdiscussessomeknowledgeoftextmining,andanalyzesthenecessityoftextclusteringandtheresearchactualityoftextclusteringathomeandabroad.Thenthetraditionalt

7、extclusteringalgorithmsareintroduced,andwhicharecomparedandanalyzed.ItputsmoreemphasesonthedeepstudyofdocumentrepresentationandDBSCANalgorithmandmakestheimprovementtowardsrelatedalgorithms,meanwhiledesignsatextclusteringsystembasedontheprevioustheories.Theworksinthispape

8、risasfollows:(1)Introducedtothetraditionaltextclusteringalgorithms,andtheywerecomparedandanalyzedfromth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。