基于hadoop的海量专利文献跨语言并行检索系统设计与实现

基于hadoop的海量专利文献跨语言并行检索系统设计与实现

ID:35177819

大小:2.52 MB

页数:59页

时间:2019-03-20

基于hadoop的海量专利文献跨语言并行检索系统设计与实现_第1页
基于hadoop的海量专利文献跨语言并行检索系统设计与实现_第2页
基于hadoop的海量专利文献跨语言并行检索系统设计与实现_第3页
基于hadoop的海量专利文献跨语言并行检索系统设计与实现_第4页
基于hadoop的海量专利文献跨语言并行检索系统设计与实现_第5页
资源描述:

《基于hadoop的海量专利文献跨语言并行检索系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop的海量专利文献跨语言并行检索系统设计与实现沈鑫2016年1月中图分类号:TP391UDC分类号:004.62基于Hadoop的海量专利文献跨语言并行检索系统设计与实现作者姓名沈鑫学院名称计算机学院指导教师黄河燕教授答辩委员会主席廖乐健教授申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2016年1月DesignandImplementationofCross-languageParallelRetrievalSystemBasedonHadoopforpatentCa

2、ndidateName:XinShenSchoolorDepartment:ComputerScience&TechnologyFacultyMentor:Prof.HeyanHuangChair,ThesisCommittee:Prof.LejianLiaoDegreeApplied:MasterofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January

3、,2016研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要专利数据中包含着大量的技术信息,对科学技术的发展起着重要作用。通过对专利数据的检索,人们可以获取大量有用的信息

4、。然而不同国家的专利文献是用不同语言书写保存的,这对人们检索外文专利造成了一定的困难。同时随着时间的增长,专利数据呈现井喷式增长,如何处理海量的专利文献也是目前专利检索系统需要解决的问题之一。针对上述问题,本文主要研究基于Hadoop的跨语言并行检索系统,主要工作和特点如下:1.详细分析了跨语言检索中基于双语词典的查询语句翻译技术,提出了基于隐含主题模型消歧的方法,通过对语料隐含主题的学习,得到每个单词的主题分布,在查询语句翻译阶段,根据单词的主题分布选择合适的翻译组合,与传统的词共现方法相比,该方法能充分利用

5、语料的主题信息。实验结果表明该方法能有效解决查询语句翻译中的歧义问题。2.分析使用Hadoop架构实现并行检索的可行性,并根据专利文献数据的特点,设计出针对海量专利文献的分布式存储方法,用非关系型数据库HBase存储专利属性,文档向量等结构化信息,专利正文则以文本的形式直接存放到HDFS中,并使用MapRedue编程模型实现专利的并行检索功能,实验结果表明在本文设计使用的实验环境中检索效率能提升4倍以上。3.基于上述的研究成果,设计并实现一个针对海量专利数据的跨语言并行检索系统。该系统除了实现跨语言检索和并行检

6、索功能外,还针对跨语言检索环境实现了查询语句翻译纠错,相关反馈,查看专利译文等功能,能使用户更快地获取所需信息。关键词:跨语言检索、并行检索、主题模型、HadoopI北京理工大学硕士学位论文AbstractPatentdatacontainsalotoftechnicalinformation。Itplaysanimportantroleindevelopmentofscienceandtechnology.Peoplecangetalotofusefulinformationthroughsearchingp

7、atentdata.However,differentcountriesusedifferentlanguagestowriteandsavepatentdata.Thiscausedsomedifficultiestopeopleretrieveforeignpatents.Atpresent,patentdataincreaserapidly.Howtodealwithhugeamountsofpatentdocumentsisaproblemthatpatentretrievalsystemneedsto

8、solve.Consideringtheabovetwoproblems,thispaperdesignedandimplementedacross-languageparallelretrievalsystembasedonHadoopforhugepatent.Themainworkincludes:1.Thispaperdetailedanalysisofquerytransla

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。