基于lda模型与聚类的网络新闻热点话题发现研究

基于lda模型与聚类的网络新闻热点话题发现研究

ID:35181368

大小:3.55 MB

页数:63页

时间:2019-03-21

基于lda模型与聚类的网络新闻热点话题发现研究_第1页
基于lda模型与聚类的网络新闻热点话题发现研究_第2页
基于lda模型与聚类的网络新闻热点话题发现研究_第3页
基于lda模型与聚类的网络新闻热点话题发现研究_第4页
基于lda模型与聚类的网络新闻热点话题发现研究_第5页
资源描述:

《基于lda模型与聚类的网络新闻热点话题发现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、!I1.j分类号密级UDC硕±学位论文基于LDA模型与聚类的网络新闻热点话题发现研究:作者姓名巧晓霞-:壁科、去#:^计算机技术''""言T;:,,—‘211004:212013085..学接号___t'>?'.-“?+ti■白描ifTT;如1古AI?.:刘巧剑指导教师漁與^’‘.:d*,一晦二^*.:20164.—年月j心完成日期^y^*<i.in^aiaHMg7>:lMMiii?N山'-^i、_

2、^^.,,一ii以IHBHKClassifiedIndex:UDC:XihuaUniversityMasterDegreeDissertationResearchonNetworkNewsHotTopicDetectionbasedonLDAModelandClusteringCandidate:WanXiaoxiaMajor:ComputerTechnologyStudentID:212013085211004Supervisor:AssociateProf.LiuKejianApril,2016西华大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导

3、师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,化不包含其他己申请学位或其他用途使用过的成果一同工作的同志对本研究所做的贡献。与我均己在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。ifj/学位论文作者签名:渗指导教师签名《爱疋刮曰!:曰期期瓜备:。户多心西华大学学位论文版权使用授极书本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校攻读学位期间论文工作的知巧产权属于西华大学,同意学校保留并向国家有关部口

4、或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西^^1义将本论文的全部或部分内容编入有关数据库进行栓索1华大学可,可义采、缩印或扫描等复巧手段保存和汇编本学位论文用影印。(保密的论文在解密后遵守此规定)学位论文作者签名指导教师签名:曰期:知作若曰期:摘要随着互联网技术的飞速发展,各大新闻门户网站应运而生,并成为了新闻媒体发布新闻和人们获取信息的主要渠道。但由于网络新闻的复杂性、冗余性、更新和传播的快速性等,都给人们快速、准确地获取自己所需的关键信息带来了困难,也不利于网络舆情的监控。因此网络新闻热点发现已成为当下研究的热点。本文对传统话题检测方法进

5、行了研究,针对VSM模型在语义挖掘方面和LDA模型在预处理方法方面的不足,结合变色龙聚类算法在话题发现上的应用,提出了基于时间窗口的热点话题发现方法PLDA-CHC-SP。本文的主要工作包括:1)针对LDA建模时传统的数据预处理方法的不足,提出了一种用TF-IDF值对文本词语进行权重过滤的改进预处理的LDA建模方法——PLDA(PromotedLatentDirichletAllocation),对于提高热点话题发现的速度和准确率有一定帮助。2)传统的聚类算法大部分是基于VSM模型进行文档建模,而本文充分利用LDA模型的优点以及变色龙层次聚类对于话题发现准确度较高的优点,将改进预

6、处理后的LDA与变色龙层次聚类算法相结合,提出了一种新的每日话题发现方法PLDA-CHC(PromotedLatentDirichletAllocationwithChameleonHierarchicalClustering),以提高每日话题发现的准确率;并提出了一种新的话题热度计算方法对每日话题进行热度量化。3)对于PLDA-CHC的每日话题发现结果,使用了Single-Pass增量聚类算法用于时间区间更大的话题发现。最后通过对热点话题热度的分析,绘制了话题热度发展趋势图。实验结果表明,本文提出的热点话题发现方法能够提高热点话题发现的准确性,具有一定的实用价值。关键词:新闻热

7、点;LDA模型;变色龙;话题热度;Single-Pass;发展趋势IAbstractWiththerapiddevelopmentofInternettechnology,themajornewsportalwebsiteshaveemerged,andbecomethemainchannelfornewsmediaandpeopletoobtaininformation.However,it’sdifficultforpeopletoaccessthekeyinformatio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。