文本聚类中特征选择方法研究

文本聚类中特征选择方法研究

ID:35082944

大小:1.21 MB

页数:46页

时间:2019-03-17

文本聚类中特征选择方法研究_第1页
文本聚类中特征选择方法研究_第2页
文本聚类中特征选择方法研究_第3页
文本聚类中特征选择方法研究_第4页
文本聚类中特征选择方法研究_第5页
资源描述:

《文本聚类中特征选择方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP312密级UDC学校代码10500硕硕士士学学位位论论文文(全日制专业学位)题目:文本聚类中特征选择方法研究英文题目:StudyonFeatureSelectionMethodofTextClustering学位申请人姓名:华珍申请学位学科专业:计算机技术指导教师姓名:熊才权二○一六年五月分类号TP312密级UDC学校代码10500硕硕士士学学位位论论文文题目文本聚类中特征选择方法研究英文题目StudyonFeatureSelectionMethoodofTextClustering研究生姓名(签名)指导教师姓名(签名)职称申请学位学科名称学科

2、代码论文答辩日期学位授予日期学院负责人(签名)评阅人姓名评阅人姓名年月日学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅

3、和借阅。本人授权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。学位论文作者签名:指导教师签名:日期:年月日日期:年月日摘要随着互联网的快速发展和广泛普及,网络上的信息资源日益丰富和庞大,想要合理地有效地管理这些海量繁杂的信息变得越来越困难。大部分数据信息被存储在电子媒体上,其中有许多数据都是以非结构化的文本形式存在的,这在数据分析和处理方面增加了难度,因此人们很难从中挖掘出有价值的资源。文本聚类技术作为一种重要的技术在数据挖掘领域中能够实现这一目标。文本聚类技术通过对大量的非结

4、构化的文本数据信息进行组织,使其转换为少数有意义的簇,方便用户发现其中有价值的信息。因此,文本聚类技术成为了热点研究。本文对此所做的研究工作具体如下:(1)对文本聚类中的相关的技术做了系统性的介绍,并详细地阐述了几种用于文本聚类中的无监督的特征选择方法,以及各自的优点和缺点;然后,深入研究了文档频数(DF)算法和单词贡献度(TC)算法,对它们各自的优点和缺点进行了深入剖析;最后,本文考虑特征词的语义信息对文本的重要性,引入了词性权值因子和词长权值因子对文档频数算法做出改进,并结合了TC算法完成了特征选择的步骤,提出了基于DF和TC的联合特征选择方法;(2

5、)简单地阐述了几类常见的文本聚类算法,并深入研究了K-means聚类算法,分析了它的优点和缺点。K-means是一种简单、高效的聚类算法,但其对于初始聚类中心有着极大的依赖性,当初始聚类中心选择不当时,最终得到的聚类结果可能是局部最优解,而非全局最优解。为此,本文结合了“距离优化法”和“密度法”选取更优的初始聚类中心以提高K-means的文本聚类效果,并提出了改进的K-means方法;(3)设计了一个由文本预处理模块、文本表示模块、聚类分析模块等基本功能模块组成的中文文本聚类系统实验平台,通过实验将本文提出的改进方法与其原方法进行比较,并利用查准率、查全

6、率、F1值等性能评价指标来评价实验结果。根据实验比较得出,本文的改进方法的聚类效果更优。关键词:文本聚类,特征选择方法,聚类算法IAbstractWiththerapiddevelopmentandpopularizationofInternet,networkinformationresourceshavebecomeincreasinglyrichandvast,whichmakesitverydifficulttomanagetheseinformationeffectively.Mostofthedataarestoredonelectronic

7、medias,manyofwhichareunstructuredtexts,whichincreasesthedifficultyindataanalysisandprocessing,makingitdifficultforpeopletodigoutvaluableresource.Textclusteringasanimportanttechnologyofdataminingfield,canachievethisgoal.Itcanorganizelargevolumesofunstructureddataintoasmallnumberof

8、meaningfulclusters,whichfacilitateusersf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。