中文文本关键词提取和文本聚类中聚类中心点选取算法研究

中文文本关键词提取和文本聚类中聚类中心点选取算法研究

ID:35039268

大小:3.95 MB

页数:66页

时间:2019-03-16

中文文本关键词提取和文本聚类中聚类中心点选取算法研究_第1页
中文文本关键词提取和文本聚类中聚类中心点选取算法研究_第2页
中文文本关键词提取和文本聚类中聚类中心点选取算法研究_第3页
中文文本关键词提取和文本聚类中聚类中心点选取算法研究_第4页
中文文本关键词提取和文本聚类中聚类中心点选取算法研究_第5页
资源描述:

《中文文本关键词提取和文本聚类中聚类中心点选取算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP391.1密级公开UDC004.4编号10299S1308056硕士学位论文中文文本关键词提取和文本聚类中聚类中心点选取算法研究ResearchonKeywordExtractionAlgorithmforChineseTextsandClusterCenterPointSelectionAlgorithminTextClustering指导教师陈伟鹤作者姓名刘云申请学位级别硕士专业名称软件工程论文提交日期2016.4.24论文答辩日期2016.6.4学位授予单位和日期江苏大学2016年6月答

2、辩委员会主席薛安荣评阅人______________独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:年月日学位论文版权使用授权书江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(

3、光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生院办理。本学位论文属于不保密□。学位论文作者签名:指导教师签名:年月日年月日江苏大学硕士学位论文摘要现今文本处

4、理领域研究的热点是如何方便用户快速准确的搜索到所需要的文本信息。文本聚类可以提高信息搜索效率,是文本检索的有效手段。关键词提取和聚类中心点选取是文本聚类研究中的关键问题。常见的关键词提取算法可分为三类,基于语义的算法、基于机器学习的算法和基于统计模型的算法。基于语义的算法提高了关键词提取的准确率,但是依赖于背景知识库、词典等,无法提取出不包含于知识库的词或词组。基于机器学习的算法提高了关键词提取的准确率,但是训练样本、构建模型花费时间长。基于统计模型的算法原理简单,不需要训练样本,也不依赖于知识库。常见

5、的聚类中心的选取方式有三种,随机选取初始聚类中心点、人为指定聚类中心点和根据待聚类点之间的相似度选取聚类中心点。随机选取的初始聚类中心点中可能包含“孤立点”,聚类结果局部最优。人为指定聚类中心点会因为每个人对文本集的了解程度不同而带有主观性,不适用于文本集数量很大的情况。根据待聚类点之间的相似度选取聚类中心点,可以使得选取的聚类中心点分布于各个类中并且尽量接近类中心点,但是计算聚类中心所需时间较长。针对上述问题,本文做了如下研究:(1)本文提出了基于词或词组长度和频数的关键词提取算法,算法首先提取出中文

6、文本中出现频数较大的词或者词组,然后根据提取出的词或者词组的长度和在文本中出现的频数筛选出该文本的关键词。与现有的算法相比,本文提出的算法不依赖于背景知识库、词典等,可以提取出文本中的音译词和网络新词,无需通过对训练样本的训练获得统计参数,构建模型。实验显示本文提出的关键词提取算法,关键词提取的准确率较高,提取出的关键词可以反映出该文本的主题。(2)本文提出了基于文本之间相似度的聚类中心点选取算法,算法首先根据给定的文本集以及文本集中各个文本对应的关键词序列,构建向量空间模型,接着计算各个文本与其他文本

7、之间的相似度,最后依据各个文本与其他文本之间的相似度筛选出聚类中心点。与现有的算法相比,本文算法选取的聚类中心点与较多的文本之间存在相似性且相似度值较大,同时相互之间的相似度较小。I中文文本关键词提取和文本聚类中聚类中心点选取算法研究实验显示本文提出的聚类中心点选取算法选取的聚类中心点分布于各个类中并且与类中心点接近。关键词:中文文本处理,文本聚类,关键词提取,音译词,网络新词,聚类中心点,向量空间模型II江苏大学硕士学位论文ABSTRACTNowadays,howtosearchtheneededte

8、xtinformationquicklyandaccuratelyisoneofthemostresearchhotpotsinthetext-processingarea.Textclusteringcanimprovetheefficiencyofinformationsearchandisaneffectivemethodfortextretrieval.Keywordextractionandclustercenterpointse

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。