学术论文同名作者消歧问题研究

学术论文同名作者消歧问题研究

ID:35185489

大小:7.75 MB

页数:77页

时间:2019-03-21

学术论文同名作者消歧问题研究_第1页
学术论文同名作者消歧问题研究_第2页
学术论文同名作者消歧问题研究_第3页
学术论文同名作者消歧问题研究_第4页
学术论文同名作者消歧问题研究_第5页
资源描述:

《学术论文同名作者消歧问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级分类号UDC论文编号敞化少一f硕±学位论文论文题目:学术论文同名作者消歧问题研究研究生:邱爽导师:胡捷专业:计算机应用技术研究方向:数据挖掘、信息抽取2016年4月分类号:学校代号:10512学号:2013111104000673湖北大学硕±学位论文学术论文同名作者消歧问题研究指哥教师姓名、职称:作者姓名:邱爽胡捷副教授申请学位类别:X学硕:t巧科专业名称:计算机应用技术、研究方向:数拋挖掘信息抽取:*2{?论文提交日期:2016年4

2、月25日论文答辩日期巧曰:年月日学位授予单位:湖北大学学位授予日期答辩委员会主席;THERESE乂RCHON乂C乂DEMICPAPERAUTHORN乂MED巧乂MBIGUATIONAThesisSubmitedfbrtheDegreeofMasterCandidate;QiuShuangSupervisor;AssociateProf.HuJieHubeiUniversityWuhanChina,学位论文使用授权书本论文作者完全了解学校关于保存、使用学位论文的替理办法

3、及親定,邸学校有校保舊并向国家有关部口或仇构送交论文的复印件巧电子版化许论文被蠢阐巧借紹。本人完全同泉《,中国傅±""学位论文全文数据库出版章程》、《中国化秀硕±学位论文全文数擢库出版窜涯>切下简称窜程(,见www.cnki.net愚泉将本人的学位论文提交中国学术期刊),(光盘版)电子杂志社狂《中国博±学位论文全文数据库》、《中国优秀硕±学位论文全文数据库》中全文发表巧从电子、巧络及其他数字媒体形式公开出版同煮编入CNKI国知识资源总库>在《中国博硕±学位论文评价数据库,并《中,>中使用和在互联网上传播同泉按"窜程’规定窜受相关巧益

4、(爾作者直接与杂志社联系,嵌系人:,-*:01062巧18176279317662701179通讯地址栗老师;电话、、;北京清华大学邮局8448:、邮编0084信箱梁编中屯;10一H份大学学位评定委贸会办公室本授巧书签署式,交湖北。学位论文作者签名:导师签名:44^^^?<年5月曰年月曰兴/*^17湖北大学硏究生学位论文作者信息论文题目学术论文同名作者消歧问题研究姓名邱巧学号2013111104000673答辩日期20化年5月20日论文级别巧±°硕丈g院计巧机与信息工程专业计第化远用

5、技术験系电话作者已mailI作者通信地化:(含邮编)备注:注论文巧需保密保密缀别是:本解密时间是年月。保密学位论文枉解密盾适,,_(___用于本援权书)学术论女同名作者消歧问题研究摘要当今社会的学术研究活动越来越依赖于WDBLP为代表的学术搜索引擎。然而大部分学术搜索引擎并不能很好地解决同名作者歧义导致的按作者名捜索学术论文结果有误的问题。本文在形式化定义学术论文同名作者消歧问题后,在对传统消歧方法的研究基础上提出了基于高置信度特征属性的分层聚类方法一,并进步提出基于语义的作者相关话题模型来进行同名

6、作者消歧工作。具体的研究内容如下:一第,进行数据集的构建和数据预处理。为测试传统方法的优劣和适用范围,同时为更进一步的研究工作提供数据基础,本文总结了同名作者消歧问题中的数据集特点,并构建覆盖大部分特点的测试数据集。在数据预处理环节,通过研究不同语言体系国家的命名规则,采用构建同名歧义组的方法解决了同名作者歧义问题中的同义问题。第二,提出基于高置信度特征属性的分层聚类方法。本文针对不同的特征属性单独采取不同的算法进行消歧工作,并得出不同特征属性的置信度排名。W此为基础,基于高置信度特征属性的分层聚类方法使用高置信度的特征属性一。该

7、方法方面根据特征属一性选择不同的相似度函数一,另方面聚类过程采取启发式规则每次运行合并多个类簇。与传统的层次聚类算法相比,该方法获得的平均准确率提高了约10.7%,召回率提高了约2.9%,同时具有更高的执行效率。第H一,进步提出基于语义的作者相关话题模型。针对传统基于语义的消歧方法不能有效考虑学术论文话题分布的问题,本文首先训练测试数据集并构建话题树,然后通过话题模型将论文映射在对应的话题上,并生成对应的话题树,最后根据不同论文的话题在话题树上的分布计算其相似度进而聚类。实验表明该方法能够有效挖掘学术论文的语义信息并融入话题分

8、布的因素,因而在同名作者消歧工作上能够获得较好的表现

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。