基于共引的科技文献聚类算法的研究与应用

基于共引的科技文献聚类算法的研究与应用

ID:34713338

大小:3.40 MB

页数:66页

时间:2019-03-09

基于共引的科技文献聚类算法的研究与应用_第1页
基于共引的科技文献聚类算法的研究与应用_第2页
基于共引的科技文献聚类算法的研究与应用_第3页
基于共引的科技文献聚类算法的研究与应用_第4页
基于共引的科技文献聚类算法的研究与应用_第5页
资源描述:

《基于共引的科技文献聚类算法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文论文题目:基于共引的科技文献聚类算法的研究与应用作者姓名王秋秋指导教师刘端阳副教授学科专业计算机技术培养类别全日制专业学位硕士所在学院计算机科学与技术学院提交日期2017年5月17日万方数据浙江工业大学硕士学位论文基于共引的科技文献聚类算法的研究与应用作者姓名:王秋秋指导教师:刘端阳浙江工业大学计算机科学与技术学院2017年5月万方数据DissertationSubmittedtoZhejiangUniversityofTechnologyfortheDegreeofMasterResearchandapp

2、licationofclusteringalgorithmbasedonreferenceco-citationCandidate:WangQiuqiuAdvisor:LiuDuanyangCollegeofComputerScienceandTechnologyZhejiangUniversityofTechnologyMay2017万方数据浙江工业大学学位论文原创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体已经

3、发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密□,在一年

4、解密后适用本授权书。2、保密□,在二年解密后适用本授权书。3、保密□,在三年解密后适用本授权书。4、不保密□。(请在以上相应方框内打“√”)作者签名:日期:年月日导师签名:日期:年月日万方数据浙江工业大学硕士学位论文基于共引的科技文献聚类算法的研究与应用摘要近年来,各类科技文献著作在数量上呈现迅猛增长的态势,如何在大量文献中找到重要的目标文献、挖掘文献潜在的价值是一个难题,因此数据挖掘相关技术在科技文献领域的研究和应用成为了重要的研究方向。共引关系即文献间共同被引用的关系,体现了科技文献内容上的相关性及知识的传递,共引

5、与传统文本聚类算法相结合对科技文献进行研究,将有助于提高聚类准确性,帮助科研工作者提高文献检索效率。本文将对文献共引原理做全面、深入地研究,对文献进行共引分析得到共引度矩阵。在做文本预处理过程中,结合共引度对文献的特征项提取和文献相似度计算方法进行改进,最后用K-Means与谱聚类两种聚类算法对处理后的文献做聚类分析,实验验证改进后的算法一定程度上提高了聚类准确性,能够帮助用户更有效的检索和筛选文献。主要工作如下:1、在选取文献特征项时,从文献的标题、摘要与关键词中提取基本特征词,结合共引信息对特征词的重要性评分上进行

6、加权,选取得分最高的词项作为最终的特性项;在计算文献间的相似度时,基于向量夹角余弦相似度计算方法上引入共引度的加权,将改进后的相似度运用到聚类算法中。2、使用K-Means聚类算法与基于N-Cut分割准则的谱聚类算法做聚类计算,进行多组实验对原算法与改进后的算法对比分析,选取由准确率与召回率构成的F-Measure值作为评价指标来证明改进后算法的可靠性。3、基于VisualStudio2012平台开发一款科技文献推荐系统软件,使用改进后的算法,实现文献检索与管理、引文分析、聚类分析,以及文献推荐等功能。最后,总结了全文

7、所做的研究内容,分析目前存在的局限点,并展望了后续进一步的研究。关键词:共引分析,K-Means,谱聚类,推荐系统i万方数据浙江工业大学硕士学位论文RESEARCHANDAPPLICATIONOFCLUSTERINGALGORITHMBASEDONREFERENCECO-CITATIONABSTRACTRecently,allkindsofliteratureworksshowedarapidgrowthtrendinnumber,howtofindtheimportantpapersisabigproblem,sot

8、heresearchandapplicationofdataminingtechnologyinthefieldofscienceandtechnologyliteraturehasbecomeanimportantdirectionofresearch.co-citationreflectstherelationshipbetw

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。