基于复杂网络的关键词提取研究

基于复杂网络的关键词提取研究

ID:34626882

大小:6.05 MB

页数:64页

时间:2019-03-08

基于复杂网络的关键词提取研究_第1页
基于复杂网络的关键词提取研究_第2页
基于复杂网络的关键词提取研究_第3页
基于复杂网络的关键词提取研究_第4页
基于复杂网络的关键词提取研究_第5页
资源描述:

《基于复杂网络的关键词提取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人签名:怨睦_日期2蝉朝f四关于论文使

2、用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本人签名:恤导师签名:日期型型幽幽日期蚴腿摘要在信息爆炸时代,信息量呈几何级数增长。面对海量文本,如何快速掌握某篇文章的

3、主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。关键词作为文章主题和作者思想的体现能够有效解决该问题。然而,网络上的绝大部分文章并未提供关键词,如果对这些文本采取人工标引的方法进行关键词标注,不仅费时费力、效率低下,而且主观随意性比较大。因此,关键词自动提取的研究具有重要的现实意义。传统的关键词提取算法只注重文档的表层统计特性(如词频、词语位置、词语长度等),忽略文档的语义信息和结构信息,导致关键词语义和结构信息的缺失。而现有基于词语网络的关键词提取算法,虽然在一定程度上利用了文档的结

4、构信息,但语义信息的利用依然不足,并且网络的构造过程过分依赖于分词的粒度。针对上述问题,本文对基于复杂网络的关键词提取进行了研究。首先针对传统词语网络构造过程中过分依赖分词粒度的不足,提出一种邻近名词合并的算法,在ICTCLAS初步分词的基础上利用提出的邻近词合并算法识别出名词短语,并将短语添加到分词词典中,然后对待处理文档重新进行分词;其次针对传统词语网络语义缺失的问题,在文本复杂网络的构建过程中利用知网对网络节点进行语义标注,为词语网络加入语义信息,然后利用改进的语义相似度计算方法计算节点间的相

5、似度,合并相似节点;再次,在节点重要度计算过程中,提出一种综合考虑网络节点介数和节点加权中心度的综合权值公式。最后,根据提出的算法流程,设计并实现了一个基于复杂网络的关键词提取的原型系统,并对本文提出的各种算法进行了对比实验,结果表明本文提出的关键词提取方法获得了更好的抽取效果。关键词:关键词提取文本复杂网络语义相似度邻近词合并AbstractIntheeraofinformationexplosion,theamountofinformationisgrowingexponentially.Int

6、hefaceofsuchvastamountoftext,howtoquicklymasterthesubjectofthearticleandgrasptheauthor’Sthoughthasbecomethekeyissuestosavereader'stimeandtoimprovereadingspeed.Keywordsastheembodimentofthethemeandtheauthorthoughtcanbeaneffectivesolutiontotheproblem.Howe

7、vermostoftheonlinearticlesdidnotprovidekeywords.Inaddition,manualannotationofbigamountoftextcontentisnotonlytime-consuming,inefficient,butalsoarbitrary.Therefore,thestudyonthekeywordautomaticextractionhasimportantpracticalsignificance.Traditionalkeywor

8、dextractionalgorithmfocusesonlyonthestatisticalpropertiesofthesurfaceofthedocuments(suchaswordfrequency,wordposition,wordlength,etc.),andignoresthesemanticinformationandstructureinformation,whichresultinthelackofsemanticandstructuralinf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。