欢迎来到天天文库
浏览记录
ID:50116673
大小:2.58 MB
页数:69页
时间:2020-03-05
《基于深度学习的短文本语义相似度计算.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于深度学习的短文本语义相似度计算陈晓阳2015年1月中图分类号:TQ028.1UDC分类号:540基于深度学习的短文本语义相似度计算作者姓名陈晓阳学院名称计算机学院指导教师张华平副研究员答辩委员会主席李侃教授申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2015年1月DeepLearningforShortTextSemanticSimilarityMeasuresCandidateName:XiaoyangChenSchoolorDepartment:ComputerScienceandTechnologyFacultyMentor:A
2、ssociateProf.HuapingZhangChair,ThesisCommittee:Prof.KanLiDegreeApplied:MasterofScienceMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:Jan,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大
3、学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要随着社交网络的普及以及智能交互应用的广泛使用,短文本在在互联网中已非常普遍。因此,作为短文本信息处理的基础技术,短文本语义相似度计算有十分广阔的前景以及研究价值。本文对短文本的特点进行分析,提出基于深度学习和依存句法特征的短文本语义向量化模型。并且在此基础上,结合短文本的多种特征表示,提出多特征融合的短文本语义相似度计算模型。本文首先对依存句法分析的原理以及优化方法进行研究,使高精度的依存
4、句法分析算法在效率上适应于处理互联网中大规模的短文本数据。在此基础上,本文提出使用Yamada算法的结构化依存句法分析模型。并且测试了不同转移集合、特征集合以及词性集合对于依存句法分析效果的影响。此模型在精度上接近于目前转移依存句法分析的最好结果,并且在所有精度85%以上的依存句法模型中,达到了最快的分析速度。在依存句法的基础上,本文提出基于深度学习以及依存句法特征的短文本语义向量化模型。此模型通过将语义向量作为上下文特征加入基于神经网络的短文本结构预测中,使用反向传播迭代得到语义向量表示。这种向量表示能够有效利用短文本中的词义信息、句法信息以及语义信息。最终,结合TF
5、-IDF模型、依存句法特征、主题模型以及短文本语义向量化模型,本文提出基于多特征融合的短文本语义相似度计算方法。为验证提出算法的有效性,本文在新闻标题、淘宝商品、百度知道以及新浪微博四个领域中随机抽取短文本样本进行标注。并且在此标注集上进行短文本语义相似度计算实验。实验结果表明,本文提出的算法相比于现有方法具有更高的准确率,并且验证了依存句法特征在短文本语义相似度计算中具有重要影响。关键词:依存句法分析、语义相似度、深度学习、神经网络I北京理工大学硕士学位论文AbstractWiththegrowthofsocialnetworkandhuman-computerint
6、eractiontechnology,short-textiswidelyusedintheInternet.Asthebasictechnologyforshort-textprocessing,short-textsemanticsimilaritymeasureshasabroadprospects.Inthispaper,weanal4ysisthefeaturesofshort-text.Thenweholdtheoptionthattomeasurethesemanticsimilarityofshort-texts,thesyntacticinformat
7、ionandthewordembeddingshouldbeconsidered.So,inthispaper,weproposeashort-textvectorizationmodelthatcombinesnotonlythedependencyfeaturebutalsowordembedding.And,fromthis,weproposeashort-textsemanticsimilaritymeasuresmodelwithmultiplefeatures.Firstly,westudyonthetheoryandopti
此文档下载收益归作者所有