欢迎来到天天文库
浏览记录
ID:35050735
大小:3.55 MB
页数:69页
时间:2019-03-17
《句子语义相似度计算方法研究及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文论文题目:句子语义相似度计算方法研究及其应用作者姓名李俊指导教师陈国定教授学科专业控制工程培养类别全日制专业学位硕士所在学院信息工程学院提交日期2016年10月18日渐江工业大学学位论文原创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的研巧成果。除义中已经加卽标注引用的内容外,本论文不包含其他个人或集体己经发表或撰写过的研究成果,也不當为获得浙江工业大学或其它教育机构的学位证书而使用过的材料,均己在文中。对本文的研巧作出重要贡献的个人和集体明确方式标明。本人承担本声明的法律责任。:日期-/曰作者签名
2、;7矣年片月学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部口或机构送交论文的复印件和电子版。本,允许论文被查阅和借阅人授权浙江工业大学可臥将本学位论义的全部或部分内容编入有关数据库进巧检索。,可臥采用影印、缩印或扫描等复制手段保存和汇编本学位论文本学位论文属于一密□。1、保,在年解密后适用本段权书2、保密□,在H年解密后适用本授权书。3、不保密囚^""(请在[^上相应方框内打V)作者签名:日期巧年作月/日导师签名;日期办知/蝴日/浙江工业大学硕士学位论文句子语义相似度计算方
3、法研究及其应用作者姓名:李俊指导教师:陈国定教授浙江工业大学信息工程学院2016年10月DissertationSubmittedtoZhejiangUniversityofTechnologyfortheDegreeofMasterResearchontheCalculationMethodforSemanticSimilarityofSentenceandItsApplicationCandidate:LiJunAdvisor:Prof.ChenGuodingCollegeofInformationEngineeringZhejiangUniversityofTechnol
4、ogyOctober2016浙江工业大学硕士学位论文句子语义相似度计算方法研究及其应用摘要随着信息科技的飞速进步和互联网技术的日益普及,Web新闻、网络博文、微信公众号文章等已经成为人们获取信息或关注时政的主要途径之一,但为吸引读者或网站流量,“标题党”新闻屡禁不绝,人为过滤该类新闻变得力不从心。因此,人们对计算机“标题党”新闻鉴别技术的需求变得非常急迫。“标题党”新闻鉴别技术的核心内容是句子相似度计算,本文就此问题展开研究,主要研究内容为句子语义相似度计算方法及主题句提取算法。本文研究的对象是汉语句子,汉语与其他比如英语自然语言有着自身很多的特点及研究难点,主要有句子分词准确
5、率不高,词汇量大,语义复杂,语境对句子语义影响大,基本语法单位难以确定等。针对以上问题,查阅文献后选取了Word2Vec算法作为数据模型训练算法,该算法很好的解决了以上大部分的难点,它有良好的学习能力且训练高效,能够很好的刻画出汉语词汇的语义且能关联上下文区分不同真实含义。另外,在根据文章研究分析得出主题句有重复频率高,分布广度大等特性。在此基础上利用句子语义相似度计算算法及主题句特性优化主题句提取算法,研究工作主要包括以下几个方面:(1)查阅句子相似度相关文献基础上,总结分析了句子相似度的基本概念,新闻数据采集和预处理方法;研究了现有的多种句子相似度计算方法及主题句提取算法,
6、并分析了各种算法的优劣势。(2)深入研究了Word2Vec模型训练算法,为提高模型效果,提出了在模型二次训练的思路并进行实验,得到了较好的结果。对大量新闻进行主题句特性进行总结分析,根据特性优化了主题句提取算法。(3)利用主题句提取算法模型进行“标题党”新闻鉴别,用200篇文章作为新闻实例数据进行实验。实验结果表明,本文对句子语义相似度计算方法及主题句提取算法的优化都有较好的性能提升。I浙江工业大学硕士学位论文(4)将基于语义的句子相似度计算方法及主题句提取算法运用到实际场景中,对算法进行了系统应用,通过WebSocket协议实现客户端与服务端数据双向通信,用户可自行训练模型或
7、采用默认模型进行“标题党”新闻鉴别,体现其实际应用价值。最后对全文进行了总结,对进一步的相关研究给出意见展望。关键词:语义相似度,Word2Vec算法,主题句提取,标题党新闻II浙江工业大学硕士学位论文RESEARCHONTHECALCULATIONMETHODFORSEMANTICSIMILARITYOFSENTENCEANDITSAPPLICATIONABSTRACTNowadays,withtherapidprogressofinformationtechnologyandthegro
此文档下载收益归作者所有