基于LDA主题模型的文档文摘研究.pdf

基于LDA主题模型的文档文摘研究.pdf

ID:50116148

大小:2.44 MB

页数:66页

时间:2020-03-05

基于LDA主题模型的文档文摘研究.pdf_第1页
基于LDA主题模型的文档文摘研究.pdf_第2页
基于LDA主题模型的文档文摘研究.pdf_第3页
基于LDA主题模型的文档文摘研究.pdf_第4页
基于LDA主题模型的文档文摘研究.pdf_第5页
资源描述:

《基于LDA主题模型的文档文摘研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于LDA主题模型的文档文摘研究边晋强2015年1月中图分类号:TP391UDC分类号:004.93基于LDA主题模型的文档文摘研究作者姓名边晋强学院名称自动化学院指导教师姜增如副教授答辩委员会主席戴亚平教授申请学位工学硕士学科专业控制科学与工程学位授予单位北京理工大学论文答辩日期2015年1月ResearchonDocumentSummarizationBasedonLDAModelCandidateName:BianJinqiangSchoolorDepartment:AutomationFacultyMentor:P

2、rof.ZengruJiangChair,ThesisCommittee:Prof.YapingDaiDegreeApplied:MasterofEngineerMajor:ControlScienceandEngineeringDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发

3、表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:摘要随着互联网信息查询的应用,用户从海量网页中快速了解网页链接的概要、提高搜索效率的需求越来越迫切。本文的主要工作是对网络下载的文本篇章设计与实现动态文档文摘。论文首先分析了国内外自动文摘的生成方法,针对基于向量空间模型(VectorSpaceModel,VSM)算法与基于LexRank算法的文摘系统中存在的优缺点进行了讨论

4、,提出了一种基于狄立克雷分配(LatentDirichletAllocation,LDA)模型自动文摘的改进方法。工作主要包括以下三个方面:1)分析了LDA主题模型应用在文档自动文摘的方法,提出了基于LDA主题模型的一种新的句子排序算法。为了能够找到反应文档主题信息的句子,该方法把句子的主题分布和主题重要度之间的相似度作为句子的重要度,再根据句子的重要度选择句子并组成文摘。2)分析了基于概率统计的句子压缩算法与基于句法规则的压缩算法的优缺点,根据句法规则与句法成分重要度相结合,将信息密度低的修饰成分删除掉,在保证原句重要语

5、义信息不丢失的前提下,提高句子的压缩比,提出了一种成分重要度的句法压缩模型。3)编程实现了自动文摘管理系统平台。通过在DUC2006(标准数据测试集)系统中做测试,生成文摘的准确率、召回率等指标均得到提升。证明本文提出的句子排序算法与成分重要度的句法压缩模型能够有效地提高了自动文摘系统的性能。关键词:LDA主题模型;句子排序;成分重要度;句子压缩;自动文摘IAbstractWiththeexplosionofthewebinformation,ithasbecomemoreurgenttoobtaintherequired

6、informationefficiently.Theaimofthispaperistodesignandrealizeanautomaticsummarizationforthedocumentsdownloadedfromwebpages.Inthispaper,itfirstintroducestheconceptionofthesummarization,thecurrentmethodsandconstituentparts.Thenaccordingtotheadvantagesanddisadvantages

7、oftheautomaticsummarizationbasedonVSM(VectorSpaceModel)ortheLexRankalgorithm,thispaperproposesanewmethodofbasedonLDA(LatentDirichletAllocation)Model.1)AccordingtotheanalysisoftheautomaticsummarizationbasedonLDAModel,inthepaper,basedonLDAModel,anewmethodofsentence-

8、rankingisproposed.Inordertofindthesentenceswhichcancoverymoretopiccontent,themethodcompulatesthesentence-importancebythesimilaritybetweenthesentences-to

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。