基于多层次聚类的同名区分算法分析与应用

基于多层次聚类的同名区分算法分析与应用

ID:32146581

大小:4.61 MB

页数:52页

时间:2019-01-31

基于多层次聚类的同名区分算法分析与应用_第1页
基于多层次聚类的同名区分算法分析与应用_第2页
基于多层次聚类的同名区分算法分析与应用_第3页
基于多层次聚类的同名区分算法分析与应用_第4页
基于多层次聚类的同名区分算法分析与应用_第5页
资源描述:

《基于多层次聚类的同名区分算法分析与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学硕士学位论文1绪论1.1问题背景随着计算机和互联网技术的发展,数据的载体由之前的纸质转换计算机所使用的存储介质,如软盘、光盘、硬盘。越来越多的数据出现并存储在网络上,并且涌现出了许多相关的在线系统,如搜索引擎、社交平台、门户网站、电子档案馆、电子图书馆等。这些系统所存储的海量数据为人们检索、获取、利用这些数据提供了便利。面对海量的数据,如何快速检索到用户预先期望得到的数据成了人们日益关心的问题。用户在检索与人相关的数据时往往以人名作为关键词进行检索。有统计显示,在目前主要搜索引擎Ooogle和Yahoo上,人名的搜索量占

2、到总搜索量的30%左右【1J。在搜索过程中,用户希望通过搜索人名获得预期的数据,而结果往往不尽如人意。大量的重名现象是这种问题的主要原因。重名相关问题主要有以下几方面原因:(1)不同人有相同的名字。这类的问题大量存在,中文姓名中由于命名习惯、人口数量和常用汉字数量等因素很容易出现重名。而英文姓名因为名称比较固定,重复概率更高。文献f2】中的统计记录显示:中文姓名最多的是“张伟”共有290607人,其次是“王伟”,人数是281568。(2)姓名简写带来的重名现象。这个原因引起的重名现象在英文中非常常见,例如:英文姓名CharlesPe

3、terSmith和CasparPhilipSmith的英文简写同为C.P.Smith。同时中文姓名转为英文后的简写也容易出现类似问题,例如:刘亚和刘云在英文中常常简写为YLiu。这种保留姓的全拼,名的首字母的缩写在医学类论文中较为常见。(3)个人信息变动。例如某位学者在上学期间发表论文的通信地址是西安交通大学,工作后发表论文的通信地址是西北工业大学,这很容易在检索的时候被误认为不是同一位学者。(4)检索系统设计的问题。比如在数据集DBLP中检索英文名字YuLiu会出现YuLiu、LiuYu、Liu.Yu,YunLiu等。在某些搜索引

4、擎中检索“张三”会返回混杂有“张三丰”和“张三”的结果。重名现象对数据的收集和整理带来了严重的影响。这些影响可能会降低系统检索的性能,甚至提供给用户错误的结果。不准确基础数据带来的影响在后续相关的算法处理中会呈现出放大效果。比如在DBLP数据集中我们发现名为“YuChen”的作者主页包含了其他三个同名不同作者的数据。在比较著名的数据引擎中例如:citeseerx、谷歌的googlescholar、微软的academicsearch,都能发现了许多类似的错误。基于多层次聚类的同名区分算法研究与应用普通用户在使用中可以通过肉眼观察,同时

5、再结合自己掌握的相关知识来对重名进行判断。然而有些情况是无法用人工的方式来对重名做出判断,例如:拥有海量数据的学术资源管理系统,学术评价系统,电子档案馆系统等。目前同名区分相关研究正在日益受到研究者的关注,主要有以下几方面原因:(1)随着网络技术的发展和云计算的日益普及,人们对在线系统的依赖性越来越高,系统中的重名问题日益突出。(2)系统在运行过程中会积累大量的数据。随着数据的增长重名问题发生的概率也随之提高,在某些大型系统中已经成为一个不可避免的问题。(3)重名问题给后期数据处理带来严重的影响。目前海量信息处理已经是计算机行业研究

6、和应用的热点。重名问题会降低处理这类数据的算法性能甚至导致错误的结果。例如在文件检索、专家发现、知识关联、文献计量等研究领域,重名是数据预处理阶段必须要考虑的问题。1.2问题定义同名区分问题是对同名现象进行处理的问题。随着系统中数据规模的增长,重名问题日益凸显出来,而学术资源管理系统中的同名显得尤为突出。本文主要致力于研究针对学术资源管理系统中的高实用性同名区分算法。同名区分问题根据实际应用中遇到的问题不同又分不同的类型,总结为以下几种类型:(1)重名合并问题。系统中有大量的基于外部采集的个人数据生成的包含研究者姓名、研究方向、工作

7、单位、发表论文等信息的个人页面,这些数据采集自多种渠道,很容易出现同名重复的问题。比如:学者个人页面会包含作者的个人和学术相关信息,同时在一些学者发表的文章中也会列出作者的相关信息。这些信息都是准确的,但是因为信息来源不同,会在平台中重复记录。这就需要我们根据这些页面中的现有的数据对出现重名的并且确实为同一个人的页面进行合并。问题可以用以下形式描述,对于人名口,、哆,已知其分别对应文献集合Po,={B,P:,见,..“£,={Pi,P2"P3’,...},并且口1和口2名字相同,判断文献集合e和£是否是同一个真实作者的文献集合。(2

8、)新文献资源归属确定问题。目前很多在线系统都是基于Web2.0理念创建的。在这种趋势下一些学术资源平台加强了与学者用户的交互:此外为了丰富网站内容和用户体验,平台会自动更新和添加相关学术资源;这些都导致平台会有大量的新数据加入。再对新

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。