欢迎来到天天文库
浏览记录
ID:35094873
大小:4.58 MB
页数:64页
时间:2019-03-17
《结合汉明距离及语义的文本相似度量方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文题目:结合汉明距离及语义的文本相似度量方法研究研究生鲍乾专业计算机应用技术指导教师胡维华教授完成日期2016年3月杭州电子科技大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈巧的学位论文,是本人么巧帅的指导下,独立进行研究工作所取得的成果。除文中己经注明引用的内容外,本论义不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做化垂要贡献的个人和集体,均已在文中明确巧式标明。-中谱学位论文与资料若有不义之处,本人承扣切W关山化。‘论文作者猎名:鬥期;午H学位论文使用授
2、权说明,即本人完全了解杭州巧子科技大学关于保留和使用学位论文的规化:硏究生在校攻读学化期间论文工作的知识产权单位属杭州电了科技大学。本人保证毕业离校后,发表论文或使用论文工作成果巧署名单位仍然为杭州化子科技乂学,学校有权保留送交论文的复印件,允许查阅和惜阅论文;学校可^处公布论义的全部或部分内容,可tu允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后迹守此规巧)。;论文作者签名:扳私鬥期年f月/曰指导教师签名:杭州电子科技大学硕士学位论文结合汉明距离及语义的文本相似度量方法研究研究生:鲍乾指
3、导教师:胡维华教授2016年3月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMastertheResearchaboutTextSimilarityMeasuringthroughHamming-distanceandSemanticsCandidate:BaoQianSupervisor:Prof.HuweihuaMarch,2016杭州电子科技大学硕士学位论文摘要当今人类越来越重的网络依赖性令网络数据的规模呈现出爆炸性增长的趋势,文字作为重要载体,其相关的文本信
4、息处理技术得到越来越多的关注。文本相似度量作为该技术的关键部分,其准确率直接影响文本信息处理的结果。目前文本相似度量方法的主流之一是利用向量空间模型(VSM)中向量关系来反应文本之间的相似程度,其概念简单、可计算性强。但该方法涉及到高维稀疏矩阵的处理,计算复杂度高,另外,它忽略语义信息对文本的影响。另有一种基于语义的相似度算法可克服此缺点。但需要特定领域的知识库支持,其建立过程的繁杂性,使此类算法理论多过实践。借鉴此二类算法,本文提出一种新方法(HSim)。该方法结合第一类方法中空间模型的优势,以及第二类方法中语义信息的优势,最后利用汉明距离
5、来计算文本相似度,从而避开了对高维稀疏矩阵的直接处理。该方法一方面利用汉明距离克服第一类方法中高维稀疏矩阵低计算效率的缺点;另一方面,VSM模型与汉明距离的结合,使HSim直接利用语义词典作为参照,克服了第二类方法中特定领域知识库建立过程繁杂的缺点。实验利用训练语料以F度量与其他文本相似度量方法进行聚类比较。实验结果表明HSim方法较其他方法性能更为优越的同时,也存在一些适用性的不足。针对这些不足,本文针对算法步骤中的两次映射以及最后计算的输入集进行优化改进,并进行新的实验,实验结果表明改进的方法在适用性上有很大的提高。关键字:文本相似度、向
6、量空间模型、语义、汉明距离、映射I杭州电子科技大学硕士学位论文ABSTRACTNowadays,humanity’sincreasingdependenceonnetworkmakesnetworkdatascaledemonstrateatrendofexplosivegrowth.Thetextisanimportantcarrier,thusitsrelevanttextinformationprocessingtechnologyhasreceivedmoreandmoreattention.Asakeypartofthetechno
7、logy,text-similaritymeasure’saccuracydirectlyaffectstheresultsoftextinformationprocessing.Currently,oneofthemainmethodsoftext-similaritymeasureistousetherelationshipbetweenthevectorsinvectorspacemodel(VSM)toreflectthedegreeofsimilaritybetweentexts.Theconceptissimpleandithas
8、astrongcomputability.However,thismethodinvolvestheprocessingofhigh-dimensionalspar
此文档下载收益归作者所有