欢迎来到天天文库
浏览记录
ID:8268247
大小:3.11 MB
页数:130页
时间:2018-03-15
《基于文档主题结构的关键词抽取 方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于文档主题结构的关键词抽取方法研究(申请清华大学工学博士学位论文)培养单位:计算机科学与技术系学科:计算机科学与技术研究生:刘知远指导教师:孙茂松教授二○一一年三月ResearchonKeywordExtractionUsingDocumentTopicalStructureDissertationSubmittedtoTsinghuaUniversityinpartialfulfillmentoftherequirementforthedegreeofDoctorofEngineeringbyLiuZhiyuan(ComputerScienceandT
2、echnology)DissertationSupervisor:ProfessorSunMaosongMarch,2011关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容;(3)根据《中华人民共和国学位条例暂行实施办法》,向国
3、家图书馆报送可以公开的学位论文。本人保证遵守上述规定。(((保保保密密密的的的论论论文文文在在在解解解密密密后后后应应应遵遵遵守守守此此此规规规定定定)))作者签名:导师签名:日期:日期:摘要摘要关键词是快速获取文档主题的重要方式,在信息检索和自然语言处理等领域均有重要应用。传统的方法仅依靠词汇的统计信息进行推荐,没有考虑文档主题结构对关键词抽取的影响。本文主要研究考虑文档主题结构的关键词抽取方法。本文针对文档主题结构在关键词抽取中的重要作用,从四个方面提出考虑文档主题结构的关键词抽取方法:基于文档内部信息构建主题的关键词抽取,基于隐含主题模型构建主题的
4、关键词抽取,综合利用隐含主题模型和文档结构的关键词抽取,以及基于文档与关键词主题一致性的关键词抽取。论文工作包括:基基基于于于文文文档档档内内内部部部信信信息息息,,,利利利用用用文文文档档档的的的词词词聚聚聚类类类算算算法法法构构构建建建文文文档档档主主主题题题,,,进进进行行行关关关键键键词词词抽抽抽取取取。。。该方法仅依靠文档内部信息,通过度量文档中词与词之间的相似度,利用聚类的方法构建文档主题,并根据不同主题在文档中的重要性,进行关键词抽取。实验证明,该方法能够在一定程度上发现文档主要话题,并抽取出与文档主题相关的关键词,提高了关键词对文档主题的
5、覆盖度。基基基于于于文文文档档档外外外部部部信信信息息息,,,利利利用用用隐隐隐含含含主主主题题题模模模型型型构构构建建建文文文档档档主主主题题题,,,进进进行行行关关关键键键词词词抽抽抽取取取。。。针对基于文档内部信息通过聚类算法进行关键词抽取受限于文档提供信息不足的缺点,提出利用机器学习算法中广泛使用的隐含主题模型构建文档主题,进行关键词抽取。并针对隐含主题模型训练速度较慢的瓶颈,提出了一种高效的并行隐含主题模型。实验证明,该方法能够更好地构建文档主题,并有效抽取关键词。综综综合合合利利利用用用隐隐隐含含含主主主题题题模模模型型型和和和文文文档档档结
6、结结构构构信信信息息息,,,进进进行行行关关关键键键词词词抽抽抽取取取。。。针对隐含主题模型无法考虑文档结构信息的缺点,提出综合利用隐含主题模型和文档结构信息的方法――基于主题的随机游走模型――进行关键词抽取。该方法一方面能够通过隐含主题模型构建文档主题,同时能够通过文档图的随机游走模型考虑文档结构为关键词抽取提供信息,实验证明,该方法能够综合隐含主题模型和文档结构信息进行关键词抽取的优势,有效抽取关键词。基基基于于于文文文档档档与与与关关关键键键词词词主主主题题题一一一致致致性性性的的的前前前提提提,,,提提提出出出基基基于于于机机机器器器翻翻翻译译译
7、模模模型型型的的的关关关键键键词词词抽抽抽取取取方方方法法法。。。针对文档和关键词之间存在较大词汇差异的问题,基于文档和关键词主题一致性的前提,提出利用机器翻译中的词对齐模型计算文档中的词到关键词的翻译概率,然后进行关键词抽取。实验证明该方法能够有效的建立文档词汇与关键词之间的语义联系,能够有效推荐关键词。关键词:语言网络;自然语言处理;关键词抽取;文档主题IAbstractAbstractKeywordsareanimportantwaytocatchthemainideaofadocumentforhumanbeings.Automatickeywo
8、rdextractionplaysanimportantroleininform
此文档下载收益归作者所有