基于两阶段聚类的人名消歧算法分析

基于两阶段聚类的人名消歧算法分析

ID:32184906

大小:4.76 MB

页数:54页

时间:2019-02-01

基于两阶段聚类的人名消歧算法分析_第1页
基于两阶段聚类的人名消歧算法分析_第2页
基于两阶段聚类的人名消歧算法分析_第3页
基于两阶段聚类的人名消歧算法分析_第4页
基于两阶段聚类的人名消歧算法分析_第5页
资源描述:

《基于两阶段聚类的人名消歧算法分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据乐北犬字硕士学位论文第1章引言1.1研究背景及意义第1章引言在信息化的时代,互联网成为一个承载海量数据的摇篮,每时每刻都有无数的数据加入到互联网中。根据Netcraft调查的结果,全球网站数量于2009年突破1亿,并且以每三个月1000万的速度增长。面对如此庞大的信息量,要从中找到特定数据成为一种挑战,搜索引擎应时而生。据统计,目前搜索引擎是互联网上使用率最高的服务之一。搜索引擎之所以能够成为比较受欢迎的一种互联网服务,是因为它能够使用户快速的从浩瀚的互联网信息海洋中找到自己想要的信息。然而,由于互联网信息的爆炸性增长,导致搜索引擎返回的查询结果是海量的,而且结果中存在大量

2、不符合用户意图的信息或垃圾冗余信息,这使得搜索服务质量严重下降。‘人名检索是搜索引擎检索中最常见的检索任务之一,在搜索引擎检索中占据着重要地位:11%到17%的查询中包含人名,4%的W曲查询是单个人名。然而,人名重复率又是非常高的:.根据美国人口调查局(USCensusBureau)统计,大约100000000个人共同拥有90000个不同的名字【l】。·●当用户想要查询一个人名时,往往想要找到一个特定的人物信息。当前搜索引擎的设计是基于查询词进行检索,把所有的查询同样视为关键词,而忽略了查询种类或内涵。同时,搜索引擎为了保证能够覆盖到所有的重名者,往往会返回所有包含所查询名字的网页

3、。要想找到包含目标人物的信息,用户需要通过添加特征来改善查询,或者通过浏览的方式在包含众多重名者的结果列表中进行搜索。由此可见,从目前的搜索引擎中识别一个特定人物是耗费时间且浪费人力的。通过一定的方法识别不同重名者的任务叫做人名消歧。如果可以将搜索引擎返回的结果按照不同人物进行分类,人们就可以更快速的找到目标人物信息,这对提高用户体验和检索性能都有帮助。因此,有必要找到一种快速、准确的人名消歧方法。在许多不同的领域,名字歧义已经引起了严重的问题,例如人名搜索,数据整合,链接分析和知识库。另外,不断增长的问答系统,信息抽取系统越来越依赖于多源数据,名字歧义则会导致结果错误,或者产生很

4、差的结果。因此,对人名消歧的研究是多学科发展和应用的需要,具有深远的理论意义和广泛的应用价值。在理论方面,人名消歧涉及到机器学习、数据挖掘、自然语言处理和信息检索(文.】.万方数据东北大学硕士学位论文第1章引言本聚类,信息抽取,词义消歧)等多个学科的理论和方法,因此本文的研究不仅对建立实用的人名消歧系统的理论和方法起到促进作用,而且对于相关学科理论的完善和发展也将产生积极的推进作用。在应用方面,其研究成果将为搜索服务提供重要的支持,不仅可以提高搜索引擎的性能,而且可以改善用户体验。1.2国内外研究现状人名消歧是通过相似度度量来决定一个名字的两种出现情形是否代表一个人物,它是实体消歧

5、的一种,近年来已经成为一个研究热点【11。本节主要介绍国内外对人名消歧的研究现状。研究者们组织召开了专门的人名检索(WrebPersonSearch,WePS)研讨会。组织者将人名消歧任务划分为两个子任务,即属性抽取和聚类【2】。一种可行的方案是从搜索引擎返回的结果中抽取人物属性信息,按照不同的人物进行聚类,聚类的结果为每一个特定人物的相关网页属于一类。从搜索的角度看,这个任务是具有挑战的,这是因为:首先,聚类的数目是未知的;其次,人名歧义的程度并不服从标准分布;另外,Web网页格式多样且有噪声,从网页中抽取能够用来区分人物的属性信息非常困难【3】。早期的人名消歧方法主要是使用基于

6、词袋(BagofWords,BOW)的聚类方法,即将文档表示成特征向量来测量相似度。Bagga和Baldwin使用向量空间模型来计算两个名字观察者之间的相似度,文档由特征向量表示,特征向量中的特征是从上下文中抽取得到的【4J。这种方法是基于特征共现率来进行人名聚类的,这就导致仅仅能够将上下文特征相似的网页聚成一类。基于Bagga和Baldwin的方法,Niu等提出了一种使用信息抽取和特征共现相结合的方法,其中信息抽取主要是抽取一些人物传记特征【5】。然而,这种方法仅仅在小的数据集上进行了测试,很难将其应用到搜索引擎中。类似的,Mann和Yarowsky使用一种基于人物传记数据抽取的

7、聚类方法,并在较小的人工数据上进行了测试【6】。Bollegala等提出了一种抽取关键词计算文档之间相似度的方法【7】。但是,他们的研究目标仅仅是关键词的抽取。总的来说,基于BOW的方法有很大的局限性,例如,忽略了命名实体间的关系,人物之间的社会关系,概念之间的关联关系,以及关键词组之间的同义性关系。因此,基于BOW的相似度不能真正的反应名字出现的相似度。Wan等提出了一种叫做WebHawk的重建人名检索结果系统【8】。他们的设计仅适用于频繁出现的查询,所使用的算法针

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。