中文人名搜索引擎关键技术的研究

中文人名搜索引擎关键技术的研究

ID:34195929

大小:1.14 MB

页数:42页

时间:2019-03-04

中文人名搜索引擎关键技术的研究_第1页
中文人名搜索引擎关键技术的研究_第2页
中文人名搜索引擎关键技术的研究_第3页
中文人名搜索引擎关键技术的研究_第4页
中文人名搜索引擎关键技术的研究_第5页
资源描述:

《中文人名搜索引擎关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ClassifiedIndex:CODE:10075U.D.C:NO:20091319ADissertationfortheDegreeofM.EngineeringResearchonKeyTechniquesofChineseNameSearchEngineCandidate:CaoWenxueSupervisor:Prof.LiXinfuAcademicDegreeApplied:MasterofEngineeringSpecialty:ComputerSoftwareandTheoryUniversity:HebeiUniversityDateofOral

2、Examination:May,2012摘要摘要人名歧义是由于现实中同一姓名可能被多个实体人物共同使用而带来的一种身份不确定现象。中文人名搜索是互联网用户日常需求之一。随着Internet的发展,Web页面中因人物同名而带来阅读理解困难的问题越来突出,尤其给搜索引擎带来了不利影响。目前流行的通用搜索引擎对歧义人名仅通过关键字匹配、Web页面热度排序,输出长而无序的列表。真正有价值的信息仅为海量Web数据中的“冰山一角”,同时有“名人”网页淹没“非名人”网页的现象,给用户查找其所需要的人物信息带来了极大不便。本文针对中文人名搜索这一问题进行研究,主要工作如下:首先在

3、对垂直搜索引擎技术的研究基础之上,结合中文人名搜索的特点,设计出中文人名搜索引擎体系结构。其中,Web人名主题爬虫采用基于模板和基于网页DOM树分析两种方法,分别从百度人物百科采集人物信息建立人物资料库和互联网采集包含歧义人名的Web页面,构建人物知识库和待消歧Web页面库。在Web人名消歧方面,本文给出了一种基于百度百科的无监督自动人名消歧方法。采用百度人物百科的海量数据作为基础人物资料库,通过解析其丰富的人物信息和语义关系,提炼出人物背景知识、人物特征语境、人物群体信息3大特征并进行线性融合,选取最大值所对应的实体人物作为歧义人名所指人物,作为Web页面索引建

4、立依据。最后,本文建立实验原型并进行了Web中文人名消歧实验,取得了较好的消歧效果,验证了该方法的有效性。关键词搜索引擎中文人名搜索百度百科人名消歧IAbstractAbstractThephenomenonofpersonnameambiguityiswidespreadonwebpagesinthatonenamemaybeusedbydifferentpeople.ChinesenamessearchisoneofthedailyneedsofInternetusers.WiththedevelopmentoftheInternet,Webpagesbeca

5、useofcharacterwiththesamename,increasinglyprominentreadingcomprehensiondifficultieshadanegativeimpact,especiallytosearchengines.Thepopulargeneralsearchenginesambiguousnamesbykeywordsonlymatch,outputlongunorderedlist.Thetrulyvaluableinformationisonlythetipoftheiceberg"inthemassiveWebda

6、ta.Thepagesof"celebrity"submerged"non-celebrity"phenomenon,broughtagreatdealofinconvenienceforuserstofindthecharacterinformationtheyneed.Tosolvetheproblem,wedevotetheresearchontheChinesenamessearch.Themaintasksofthispaperareasfollows:Inthefirst,westudyonthebasisoftheverticalsearchengi

7、netechnology,combinedwiththecharacteristicsofChinesenamessearch,designedtheChinesenamesofthesearchenginearchitecture,itsmainpartisthewebnamesthemecrawlerdesignandwebChinesenamedisambiguation.Webnamesthemecrawlerisusingtemplate-basedandweb-basedDOMtreeanalysismethods,respectively,fromt

8、heBai

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。