textrank关键词提取算法与som文本聚类模型的优化研究

textrank关键词提取算法与som文本聚类模型的优化研究

ID:35170201

大小:6.34 MB

页数:65页

时间:2019-03-20

textrank关键词提取算法与som文本聚类模型的优化研究_第1页
textrank关键词提取算法与som文本聚类模型的优化研究_第2页
textrank关键词提取算法与som文本聚类模型的优化研究_第3页
textrank关键词提取算法与som文本聚类模型的优化研究_第4页
textrank关键词提取算法与som文本聚类模型的优化研究_第5页
资源描述:

《textrank关键词提取算法与som文本聚类模型的优化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、'.''‘产-.‘'.'..,/^/....''\■..■■■人';::V'...-...;?...-..'■::.,.;.?....巧古学位化文TextRank关键词提取算法与SOM文本.*.I聚类模型的优化研究-V二’V■^,;..,,V?、,■'一,'1^。V冲护节.一.‘.',>-.、,V.rV,.3\、|V'‘[',.叫....去.巧:,心;托,■

2、?、’户;■''.占、':‘■■‘''I■..、.':?..rt.:^:;;'■.■'■--、V-t陈万振爲席乂榮—,二〇六年六月..,..;"V6.'.'.、...?-.—.丫I:;如.占V,‘:t.,-'.'1-.'-f■’X.VV.?.N..分类号TP391密级公开UDC硕:t学位论文TextRank关键词提取算法与SOM文本聚类模型的优化

3、研究陈万振学科专业计貸祈应用巧乂指导教师苏一丹教授论文答辩日期2016年5月18号学位授予日期2016年6月30日答辩委员会主席陈友初教授级高级工程师广西大学学位论文原创性和使用授权声明本人声明所呈交的论文,是本人在导师的指导下独立进行研究所取得的研究成果。除已特别加标注和致谢的地方外,论文不包含任何其他个人或集体已经发表或撰写的研究成果,也不包含本人或他人为获得广西大一学或其它单位的学位而使用过的材料。与我同工作的同事对本论文的研巧工作所做的贡献均已在论文中作了明确

4、说明。本人在导师指导下所完成的学位论文及相关的职务作品,知识产权归属广西大学。本人授权广西大学拥有学位论文的部分使用权,即:学校有权保存并向国家有关部鬥或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅,可W将学位论文的全部或部分内容编入有关数据库进行检索和传播,可W采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文属于:□保密,在年解密后适用授权。;-.f■^^〇1不保密。""(请在W上相应方框内打V)论文作者签名:日期:J1指导教师签名:^日期

5、作者联系电话:电子邮箱:TextRank关键词提取算法与SOM文本聚类模型的优化硏究摘要互联网信息技术快速发展,为满足人们对浩翰网络文本信息的检索需。求,文本聚类逐渐成为人们研巧的焦点在文本聚类过程中,关键词提取与聚类算法分析起着至关重要的作用。为改善的文本聚类效果,本文从这两个方面展开研巧:1.提出改进的TextRank关键词提取算法预处理文本。将基于滑动窗格的词互信息作为边权重加入到TextRank算法的图模型中,优化了TextRank算法中候选词评分分配问题-。在此基础

6、上,将候选词的顶点权重单文档词频TFTermFreuenc加入到TextRank算法的权值迭代计算公式,用词频(qy)""一调整词的跳转概率,定程度上解决了等概率跳转问题。实验结果表明:所提算法的准确率、召回率化及F1值均有提升,算法的迭代计算效率提升20%;所提取关键词更能代表文本特征,有助于改善后续的文本聚类效果。2.将贝叶斯正则化理论引入SOM文本聚类训练算法,在SOM权值调整公式中引入反映网络权值复杂性的惩罚项,避免权值调整过程中出现过度拟合;利用贝叶斯推理获取权值调整公式中的最优

7、超参数,使迭代训练一致过程中网络权值和输入样本的概率分布趋于更,达到提升SOM文本聚类结果的目的。在UCI和文本数据集上的实验结果表明;与传统的SOM算法相比.5,所提算法的聚类凝聚度平均提升了1倍,聚类的准确率亦有提高,聚类效果较好。关键词:文本聚类;TextRank算法;自组织映射叶斯正则化;贝IRESEARCHONTHEOPTIMIZATIONOFTEXTRANKKEYWORDEXTRACTIONALGORITHMANDSOMTEXTCLUSTERING

8、MODELABSTRACTWiththeraiddevelomentofinternetinformation化chnolotextppgy,’clusterinhasraduallbecomethefocusofeolesresearchinorder化meetggypp化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。