基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf

基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf

ID:50115964

大小:3.10 MB

页数:73页

时间:2020-03-05

基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf_第1页
基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf_第2页
基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf_第3页
基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf_第4页
基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf_第5页
资源描述:

《基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现张迪2015年1月中图分类号:TP391UDC分类号:004.62基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现作者姓名张迪学院名称计算机学院指导教师黄河燕教授答辩委员会主席李侃教授申请学位工学硕士学科专业软件工程学位授予单位北京理工大学论文答辩日期2015年1月DesignandImplementationonlarge-scalepatentliteraturestranslationandcross-languageretrievalsystembasedonHadoop

2、CandidateName:DiZhangSchoolorDepartment:ComputerScienceFacultyMentor:Prof.HeyanHuangChair,ThesisCommittee:Prof.KanLiDegreeApplied:MasterofEngineeringMajor:SoftwareEngineeringDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研

3、究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要在科学技术的发展中,专利数据起着非常重要的作用,很多的研究发明都出现在专利文献中。然而随着大数据时代的到来,专利数据呈现出快速增长的趋势,且专利数据种类繁多,语言复杂,迫使专利数据的处理结构作出改变以适应专利数据的高速发展。因此,研究更

4、加高效的翻译方法和检索方式对专利数据的发展具有非常重要的研究意义和实用价值。本文旨在研究通过分布式的处理框架Hadoop来存储和翻译专利数据的技术,并在此基础上研究实现针对专利数据的多功能检索方式。主要研究工作如下:1)提出一种基于HDFS的三层动态可扩展的专利数据存储结构,最底层为存储在HDFS上的专利数据的不同类型建立数据管理,以避免数据冲突;中间层通过MapReduce程序将专利目录信息进行解析存储在HTable表;最上层是利用Lucene对专利目录建立的索引。从而实现大规模专利数据的存储和快速检索。2)针对专利数据大量小文件的特征,提出一种基

5、于MapReduce的合并分片的优化方法,减少因系统消耗所占的时间,从而提高专利文本翻译的效率,实验结果显示此种方法可以提升20%的翻译效率。3)设计实现了针对专利数据的跨语检索、高级检索以及IPC分类检索等多功能的专利数据检索方式。提出基于词共现的候选翻译词排序消歧方法,较好地解决了跨语检索中的一词多义问题。关键词:Hadoop,专利数据翻译,小文件,跨语检索I北京理工大学硕士学位论文AbstractPatentdataplaysaveryimportantroleinthedevelopmentofcomputerscienceandtechno

6、logy,manyresearchinventioncanbefoundinthepatentliterature.However,withthearrivaloftheeraofbigdata,patentdatatendtoshowarapidgrowthtrend,andithasawiderangeoftypesandalsoitiswrittenincomplexlanguages,whichneedstobewell-designedstructureforpatentdatainordertoadapttotherapiddevelop

7、ment.Therefore,researchonefficienttranslationandretrievalmethodforthedevelopmentofpatenthasveryimportantresearchsignificanceandpracticalvalue.Thispaperaimstostudythestorageandtranslationtechnologyforthepatentdatabythedistributedstructure-Hadoop,andonthebasistoachieveavarietyofr

8、etrievalmethods.Themainresearchworkareasfollows:1)Putf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。