欢迎来到天天文库
浏览记录
ID:35067118
大小:2.50 MB
页数:63页
时间:2019-03-17
《基于深度学习与主题模型的问句相似度计算》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于深度学习与主题模型的问句相似度计算周强2016年1月中图分类号:TP309.2UDC分类号:004.62基于深度学习与主题模型的问句相似度计算作者姓名周强学院名称计算机学院指导教师黄河燕教授答辩委员会主席廖乐健教授申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2016年1月QuestionsimilaritycomputationbasedondeeplearningandtopicmodelCandidateName:QiangZhouSchoolorDepartment:ComputerScienceandTe
2、chnologyFacultyMentor:Prof.HeyanHuangChair,ThesisCommittee:Prof.LejianLiaoDegreeApplied:MasterofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:Jan,2016研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中
3、不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要近年来,随着互联网的高速发展,互联网上的数据正在爆炸式地增加,传统的搜索引擎已经很难满足用户多方面的需求,自动问答系统应运而生,成为了一种新的更为有效的信息获取方式。问句相似度计算作为其中关键的技术,受到了广泛的关注。本文在“大数据”背景下,研究了如何高效计算问句相似度的问题,针对问句的特点,提出了使用向
4、量表示句子,进而通过计算向量间距离来度量相似度的方法。论文的主要工作和创新点包括:(1)分析了现有方法的不足之处,研究了神经网络语言模型和主题模型,并分析了它们在语义表示方面各自的优点;(2)为了更好地表示句子的语义,提出了两个基于深度学习与主题模型的主题句子向量模型,并给出了模型的训练算法。其中,第二个模型对第一个模型进行了改进,去除了“词袋”假设。这两个模型结合了句子向量模型所提供的局部上下文词语共现信息和主题模型所提供的全局词语共现信息;(3)为验证所提模型的有效性,在IMDB电影评论数据上,进行了句子分类实验,对比了所提模型与已有先进模型。
5、实验结果表明,融入了主题信息的句子向量模型,超越了传统的句子向量模型,能够更好地表示句子的语义;(4)设计实现了基于句子向量的问句相似度计算方法,在大量真实的Yahoo!Answers数据上,基于前面提出的两个主题句子向量模型,并通过部分标注的数据进行了验证对比实验。实验结果表明,该方法能够在大规模的问答数据上有效地计算问句相似度。关键词:问句相似度;深度学习;主题模型;句子向量I北京理工大学硕士学位论文AbstractInrecentyears,withtherapiddevelopmentoftheInternet,dataintheInter
6、netisgrowingexplosively.Traditionalsearchenginecouldhardlyfulfillusers’variousdemands.Then,automaticquestionansweringsystemcomesintobeing,andbecomesanewmoreeffectivewayforinformationretrieval.Questionsimilaritycomputation,asakeytechnology,hasreceivedwidespreadattention.Underth
7、ebackgroundof"bigdata",westudytheproblemofhowtocomputequestionsimilarityefficiently.Accordingtofeaturesofquestion,weusevectortorepresentsentenceandthencomputedistancebetweenvectorstomeasuretheirsimilarity.Themainworkandinnovationpointsofthispaperinclude:(1)Weanalyzethedrawback
8、sofexistingmethods,studyontheneuralnetworklanguagemodelandtop
此文档下载收益归作者所有