基于主题的acm论文库的社区发现及其可视化分析

基于主题的acm论文库的社区发现及其可视化分析

ID:35059729

大小:2.07 MB

页数:71页

时间:2019-03-17

基于主题的acm论文库的社区发现及其可视化分析_第1页
基于主题的acm论文库的社区发现及其可视化分析_第2页
基于主题的acm论文库的社区发现及其可视化分析_第3页
基于主题的acm论文库的社区发现及其可视化分析_第4页
基于主题的acm论文库的社区发现及其可视化分析_第5页
资源描述:

《基于主题的acm论文库的社区发现及其可视化分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10385分类号:研究生学号:1300204045密级:基于主题的ACM论文库的社区发现及其可视化分析CommunityMiningBasedontheThemeoftheACMPaperLibraryandVisualizationAnalysis作者姓名:彭丽针指导教师:吴扬扬实践导师:专业学位类别/领域:工程硕士/计算机技术研究方向:数据挖掘所在学院:计算机科学与技术论文提交日期:二零一六年六月三日摘要随着科研水平的提高,科研产出也随之迅速增长,文献作为科研的产出形式之一,其增长速度呈现“指数增长规律”。而科学的发展规律表明知识具有继承性和累积性,

2、文献作为一种知识,其通过引用文献和被引文献间的互相引用关系来呈现知识的产生和传播过程。随着著作数量的不断增多,这种相互引用的关系便组成了一种庞大的网络,即引文的网络。引文组成的网络类似一个知识组成的网络,其中蕴含着大量有用的信息。为了便于人们在这知识的沼泽中搜索相关的文献,大量的检索工具应用而生。然而,大部分检索工具采用的是基于文本和查询相似度的检索算法。其返回的文献集中可能包含多个不同的研究方向,或者某些与主题相关但不包含查询词或包含查询词比较少的重要文献可能无法被找到或者排在比较靠后的位置。对于初踏入某个研究领域的学者来说,不利于其快速查询到相关文献,快速了解

3、该领域的发展历程及研究现状。引文组成的网络和web链接组成的网络存在很多的类似的地方,在该网络中实现web社区发现算法,从中挖掘文献的社区,即对某一领域感兴趣的、彼此链接比较频繁的文献集。有助于改善上述的情况。本文的主要研究工作是设计并实现一个给定科研主题的ACM论文库的社区发现算法,并对挖掘出的文献社区进行分析。本文设计的算法以给定主题的HITS算法为框架,结合引文网络自身的特点和HITS算法的主题的漂移问题,从两个方面进行改进:(1)在HITS算法中,如果根集中的页面和主题相关度不是很高或主题比较宽泛,那么在扩展根集到基集的过程中,容易带入大量的不相关页面。因

4、此,通过查询词的拓展技术,提高返回的根集的效果;(2)在HITS算法中,其单纯考虑页面间的链接关系,没有将页面内容考虑进来,同时对存在链接关系的边不加区分地同等对待,也是造成主题漂移现象的原因之一。因此,本文通过计算文献间的语义相似度来构建引用语义关系矩阵,减少其在迭代计算过程中发生主题漂移现象。此外,在构造引文内容相似的网络的矩阵时,对文献之间的相似程度的算法做进一步研究。以词语的语义相似度为基础的文献相似度的方法,设计一个I通过维基百科社区挖掘的词条语义的相似度方法,本方法不考虑单词页面文本内容,而是利用维基百科庞大的带有类别标签的单词页面网信息,将算法HIT

5、S应用到该页面网,获取单词页面的社区。在获取社区的基础上,从三个方面来考虑两个单词间的内容上的相似度:(1)单词页面语义关系;(2)单词页面社区语义关系;(3)单词页面社区所属类别的语义关系。实验结果表明该算法具有可行性且略优于目前的一些经典算法,更接近人工判断结果。对文献社区的分析包括绘制社区图、分析高质量文献、分析主要投稿的期刊、依据时间分析该领域的整体发展历程。测验结果显示,本文的算法能按照用户的查询的需求,返回相关的文献社区,帮助用户快速了解某个研究领域的发展历程、分析某个领域中的高质量文献、及其发表的时间段和主要期刊,让用户更好更全面地了解课题动态,更好

6、地把握该课题未来的发展方向。关键词:引文网络文献社区HITS算法维基百科语义相似度IIAbstractTheoutputofscientificresearchgrowsrapidlywiththeimprovementofresearchlevel.Literature,asoneoftheoutputformofscientificresearch,itsgrowthratecorrespondstothe"exponentialgrowthlaw".Andthelawofscientificdevelopmentshowsthattheknowledgeis

7、inheritedandcumulative.Literatureasonekindofknowledgepresentsthegenerationanddisseminationofknowledgethroughthecitingrelationshipbetweentheliteratureandthecitedliterature.Astheliteraturenumberincreaserapidly,thiskindofcitationrelationshipbecomesalarge-scalecomplexnetwork,whichwasnamed

8、Citat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。