基于深度学习与主题模型的问句相似度计算

基于深度学习与主题模型的问句相似度计算

ID:35067118

大小:2.50 MB

页数:63页

时间:2019-03-17

基于深度学习与主题模型的问句相似度计算_第1页
基于深度学习与主题模型的问句相似度计算_第2页
基于深度学习与主题模型的问句相似度计算_第3页
基于深度学习与主题模型的问句相似度计算_第4页
基于深度学习与主题模型的问句相似度计算_第5页
资源描述:

《基于深度学习与主题模型的问句相似度计算》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于深度学习与主题模型的问句相似度计算周强2016年1月中图分类号:TP309.2UDC分类号:004.62基于深度学习与主题模型的问句相似度计算作者姓名周强学院名称计算机学院指导教师黄河燕教授答辩委员会主席廖乐健教授申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2016年1月QuestionsimilaritycomputationbasedondeeplearningandtopicmodelCandidateName:QiangZhouSchoolorDepartment:ComputerScienceandTe

2、chnologyFacultyMentor:Prof.HeyanHuangChair,ThesisCommittee:Prof.LejianLiaoDegreeApplied:MasterofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:Jan,2016研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中

3、不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要近年来,随着互联网的高速发展,互联网上的数据正在爆炸式地增加,传统的搜索引擎已经很难满足用户多方面的需求,自动问答系统应运而生,成为了一种新的更为有效的信息获取方式。问句相似度计算作为其中关键的技术,受到了广泛的关注。本文在“大数据”背景下,研究了如何高效计算问句相似度的问题,针对问句的特点,提出了使用向

4、量表示句子,进而通过计算向量间距离来度量相似度的方法。论文的主要工作和创新点包括:(1)分析了现有方法的不足之处,研究了神经网络语言模型和主题模型,并分析了它们在语义表示方面各自的优点;(2)为了更好地表示句子的语义,提出了两个基于深度学习与主题模型的主题句子向量模型,并给出了模型的训练算法。其中,第二个模型对第一个模型进行了改进,去除了“词袋”假设。这两个模型结合了句子向量模型所提供的局部上下文词语共现信息和主题模型所提供的全局词语共现信息;(3)为验证所提模型的有效性,在IMDB电影评论数据上,进行了句子分类实验,对比了所提模型与已有先进模型。

5、实验结果表明,融入了主题信息的句子向量模型,超越了传统的句子向量模型,能够更好地表示句子的语义;(4)设计实现了基于句子向量的问句相似度计算方法,在大量真实的Yahoo!Answers数据上,基于前面提出的两个主题句子向量模型,并通过部分标注的数据进行了验证对比实验。实验结果表明,该方法能够在大规模的问答数据上有效地计算问句相似度。关键词:问句相似度;深度学习;主题模型;句子向量I北京理工大学硕士学位论文AbstractInrecentyears,withtherapiddevelopmentoftheInternet,dataintheInter

6、netisgrowingexplosively.Traditionalsearchenginecouldhardlyfulfillusers’variousdemands.Then,automaticquestionansweringsystemcomesintobeing,andbecomesanewmoreeffectivewayforinformationretrieval.Questionsimilaritycomputation,asakeytechnology,hasreceivedwidespreadattention.Underth

7、ebackgroundof"bigdata",westudytheproblemofhowtocomputequestionsimilarityefficiently.Accordingtofeaturesofquestion,weusevectortorepresentsentenceandthencomputedistancebetweenvectorstomeasuretheirsimilarity.Themainworkandinnovationpointsofthispaperinclude:(1)Weanalyzethedrawback

8、sofexistingmethods,studyontheneuralnetworklanguagemodelandtop

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。