欢迎来到天天文库
浏览记录
ID:34467319
大小:429.50 KB
页数:3页
时间:2019-03-06
《基于向量空间模型文本聚类算法地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、天津大学硕士学位论文基于向量空间模型的文本聚类算法研究姓名:尉景辉申请学位级别:硕士专业:计算机应用技术指导教师:何丕廉20060101中文摘要Intemet作为一个开放的、分布式的信息平台,近年来得到了飞速的发展,其信息总量也出现了爆炸性增长。面对这些海量信息,人们很难迅速、有效地从中得到自己真正所需。为此,为了更好的组织和管理这此信息,文本分类和聚类的研究就显得越来越重要了。本文对基于向量空间模型的文本聚类技术进行了研究和探讨,主要内容有:向量空间模型,文本聚类算法、聚类结果评价等。向量空间模型是进行大规模文本处理最简便、高效的模型之
2、一。本文对向量空间模型中的基本原理进行了研究,包括:文本表示,文本预处理、特征项的选取、权重计算、文本相似度的度量及特征选择等。并对向量空间模型的优缺点做了深入的分析。本文研究和分析了现有的几种常用的聚类算法:K-Means、凝聚层次法和DBSCAN。对于它们的性质和特点进行了详细分析。而且论述了文本聚类的结果评价方法。然后,针对K.Means算法的缺点,结合局部搜索算法,本文提出了一个基于局部搜索的K.Means算法LSKM,对它的性质进行了深入的分析,从理论上说明了它的有效性及特点。为了验证我们算法的有效性,在随后的实验中,以几个不同
3、的标准测试集为基础,对LSKM和K-Means算法进行了对比实验,证明了我们的理论分析。对于实验中出现一些问题,本文也从理论和进一步的实验中做出了分析说明。关键词:文本聚类向量空间模型K-Means算法局部搜索LSKM天津大学硕士学位论文致谢致谢本论文的工作是在我的导师何丕廉教授的悉心指导下完成的,导师严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此向导师表示衷心的感谢,感谢您在学习、工作和生活上给予我的无微不至的关心和帮助。孙越恒博士悉心指导我完成了实验室的科研工作,在整个毕业设计期间他都给予了我很大的指导和帮助,这其中
4、包括算法设计、系统开发、论文撰写等,在此向孙越恒博士表示衷心的谢意。感谢天津大学电子信息学院的老师们在学习、生活上给予我的关心和帮助。感谢316、318实验室的王中、戴维迪、陈治纲、程岚岚、赵青等同学都给予我大力支持,我为能在这样团结友爱的团队里工作而感到自豪。感谢我的父母及全家人多年来在生活、工作和学业上给予的无微不至的关怀和支持,感谢他们为我所付出的一切。感谢在百忙之中阅读评审本文的专家学者。谨向所有关心和帮助过我的人致以衷心的谢意。
此文档下载收益归作者所有