欢迎来到天天文库
浏览记录
ID:35099658
大小:1.52 MB
页数:78页
时间:2019-03-17
《基于深度学习的检索模型.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于深度学习的检索模型RETRIEVALMODELBASEDONDEEPLEARNING张越哈尔滨工业大学2018年6月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文基于深度学习的检索模型硕士研究生:张越导师:杨沐昀副教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C:618.37DissertationfortheMasterDegreei
2、nEngineeringRETRIEVALMODELBASEDONDEEPLEARNINGCandidate:YueZhangSupervisor:AssociateofProf.MuyunYangAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-In
3、stitution:HarbinInstituteofTechnology哈尔滨工业大学硕士学位论文摘要目前我们正处在人工神经网络发展的高潮期,最近五年来,深度学习在图像识别、语音处理、机器翻译三个领域取得了巨大的成功。信息检索作为与自然语言处理高度相关的领域,也受到了这轮技术浪潮的影响。目前,SIGIR中涉及神经网络的论文正迅速增多,神经网络已经成了当前信息检索领域研究的前沿热点。目前的深度检索模型可以分为两大类:注重表示学习的模型和注重匹配学习的模型。其中注重匹配的模型是近年来研究的重点。其利用相似度矩阵来刻画查询与文档间的匹配关系,具
4、有训练数据要求小、在长文本上性能好等优点。本文以匹配学习的代表模型DRMM为基础,围绕基于深度学习的检索模型这一主题,研究了如何构造相似度矩阵、如何从相似度矩阵中提取相关信息、如何基于相关信息为文档排序三大问题。本文比较了了基于大规模语料预训练的词向量和基于同领域语料库预训练的词向量对模型性能的影响。本文尝试通过对余弦相似度进行非线性变换来改进现有的度量方法。本文还尝试通过二次型或是MLP替代余弦相似度从而获得更好的相似度度量。本文对比了由传统的伪相关反馈技术预测的扩展查询词与由词向量计算出的扩展查询词间的区别。本文通过加权的方法将伪反馈技
5、术与现有模型相结合并以此研究了查询词扩展技术对模型性能的影响。本文对比了基于分布统计的相似度建模、基于卷积神经网络的相似度建模、基于篇章建模的相似度建模间的差异。本文研究了不同核函数对基于分布统计的模型带来的影响。本文通过卷积操作将短语级别的匹配信息融入了相似度矩阵之中。本文接着对比了基于卷积神经网络的模型在单独使用池化层和联合使用卷积层与池化层前后的性能区别。本文探索了如何传统有效的局部篇章信息融入现有模型中。本文将文档拆成固定长度的篇章并在篇章内捕捉相似度信号,然后利用循环神经网络将篇章的相似度信号整合为文档分数。本文阐述了现有模型训练
6、过程中存在的过拟合问题并尝试通过正则化手段-I-哈尔滨工业大学硕士学位论文和模型参数调整来解决这个问题。本文验证了多种相似度信号融合方法在本模型上的表现。本文尝试了通过加权将查询级别特征转化为文档特征并最终整合为文档得分。本文还尝试了如何使用全连接网络和LSTM来整合不同查询词的特征表示。本文探索了如何将多种相似度建模技术组合起来以达到更好的性能。具体的,本文尝试用分布统计方法替代卷积神经网络中的池化层。本文还尝试使用分布统计方法代替篇章建模中的池化方法。关键词:深度学习;检索模型;伪相关反馈;篇章检索-II-哈尔滨工业大学硕士学位论文Ab
7、stractAtpresent,weareattheclimaxofdeeplearninganddevelopment.Deeplearninghasachievedgreatsuccessinimagerecognition,speechprocessing,andmachinetranslation.Informationretrievalasaresearchfieldwhichishighlyrelatedtonaturallanguageprocessingisalsoaffectedbythiswaveoftechnology
8、improvement.Atpresent,thenumberofpapersrelatedtoneuralnetworksinSIGIRisincreasingrapidly.
此文档下载收益归作者所有