基于文本降维和蚁群算法的文本聚类研究

基于文本降维和蚁群算法的文本聚类研究

ID:35065799

大小:5.19 MB

页数:66页

时间:2019-03-17

基于文本降维和蚁群算法的文本聚类研究_第1页
基于文本降维和蚁群算法的文本聚类研究_第2页
基于文本降维和蚁群算法的文本聚类研究_第3页
基于文本降维和蚁群算法的文本聚类研究_第4页
基于文本降维和蚁群算法的文本聚类研究_第5页
资源描述:

《基于文本降维和蚁群算法的文本聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、?"‘?'-.'.、:^:V.-.?.‘,'?,勺,‘?.产‘'。,.'.‘,,--V-':片:.密级:硕±学位论文基于文本降维和蚁群算法的文本聚类研究ResearchontextclusteringbasedonTextdimensionreductionandAntcolonyalorithmg::':..立:'w_如,‘:v咕^学号E13201028門,.:丰--rV.;心;;J;^

2、/.姓名张海涛>a-'/I学位类别工学硕±.,巾*'■.;■':r学科专业\,V计>算机应用技术工程1荆心W巧个(観)I坪指导教师周爱武’完成时间2016年3月:答辩委员会sL.一‘‘I(主八i.r席签名)辛;,',.■r.I..、-V...,I■■.■<.‘■!--,.■.■:<;、?,-?!-;.IU?;**-'.:

3、...,.,;..?.■■..,■独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加m示注和致谢的地方外,论文中不包含其他人已逐发表或撰写过的研究成果,也不包含为获得安徽大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。之学位论文作者签名:故铺礙签字日期:办占年r月日7学位论文版权使用授权书、本学位论文作者完全了解安徽大学有关保留使

4、用学位论义的规定,有权保留并向国。家有关部口或机构送交论文拘复印件和磁盘,允许论文被查阅和借闽本人按权安徽大学可W将学位论文的全部或部分内容编入有关数据库进行检索I可巧采巧彰印、缩印或扫描等复制手段巧荐、汇编学位论文。(保密的学位论文在解密房适用本授权书>学位论文僻签名:漱诲碱导师签名:[^度看久签字日期:年r月么曰签字曰期:年曰妙/备占^7安徽大学硕±学位论文巧要摘要文本聚类技术作为文本挖掘中的一个技术分支,发挥着越来越重要的作用。文本聚类技术能够将相似的文本进行归类,

5、方便了各个领域的人员从海量的文本信息中挖掘潜在的、有价值的信息。本文采用复旦大学中文文本语料库进行文本聚类研究,根据文本的相似度并结合相应的聚类算法将相似的文本聚集成簇。因为中文文本自身的结构特点,在文本聚类之前需要对文本进行相应的文本预处理,即对文本进行分词并去除无用的停用词ICTCLAS)对文本分词并使用哈工大停。本文使用中科院分词系统(用词表过滤停用词。接着为了得到能够有效表示文本内容的特征词,进行特征词的选择。最后考虑到计算机不能直接处理非结构或者半结构的信息,本文采用向--量空

6、间模型(VSM)来表示文本、词频逆文档频率(TFIDF)值来表示每个特征词的权重值。通过分析文本处理的整个过程发现,如果直接将预处理后的关键词直接组成向量空间模型,那么该模型就会存在着维度过离和数据元素稀疏问题。为了解决一其问题,本文i首先分两步对特征词进行筛选,第步使用卡方检验的方法对特征二词初步提取,得到特征词集合,第步对特征词集合进行基于语义的层次聚类,合并恃征词集合中同义或者相近的词一。接着,计算过滤后特征词集合中每个词-的TFIDF值并生成向量空间模型。然而,此时生成模型仍然具有着

7、高维度和元素稀疏的缺陷,,本文采用奇异值分解的方法找到向量空间模型的隐含语义空间,实现向量空间模型的降维并减少了噪声点的干扰。通过W上方法的处理,保持了原有模型的特性,有效的降低了矩阵的维度,提高文本聚类的效率。文本降维处理后,接下来就是选择合适的文本聚类算法。目前存在较多的文本聚类算法,根据聚类实现方法的不同大致可分为基于划分、层次、密度、模型聚类方法。传统的文本聚类算法存在需预先确定簇数、无自组织等不足。所W本文采用了可W实现自组织的蚁群文本聚类算法作为最终的文本聚类算法。,基本算法

8、中也存在着诸多的不足通过分析基本的蚁群文本聚类算法可知,比如迭代的次数过多、妈蚁在二维平面中移动过于随机等等,这些因素影响了算法的收敛速度和文本聚类效果。本文在基本算法的基础上,采用了几种改进的措I安徽大学硕±学位论文基于文本降维和蚁群算法的文本聚类研究施,它们分别是修改算法终止条件使算法的结束不在简单的依赖

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。