欢迎来到天天文库
浏览记录
ID:50115964
大小:3.10 MB
页数:73页
时间:2020-03-05
《基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现张迪2015年1月中图分类号:TP391UDC分类号:004.62基于Hadoop的大规模专利数据翻译与跨语检索系统设计与实现作者姓名张迪学院名称计算机学院指导教师黄河燕教授答辩委员会主席李侃教授申请学位工学硕士学科专业软件工程学位授予单位北京理工大学论文答辩日期2015年1月DesignandImplementationonlarge-scalepatentliteraturestranslationandcross-languageretrievalsystembasedonHadoop
2、CandidateName:DiZhangSchoolorDepartment:ComputerScienceFacultyMentor:Prof.HeyanHuangChair,ThesisCommittee:Prof.KanLiDegreeApplied:MasterofEngineeringMajor:SoftwareEngineeringDegreeby:BeijingInstituteofTechnologyTheDateofDefence:January,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研
3、究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要在科学技术的发展中,专利数据起着非常重要的作用,很多的研究发明都出现在专利文献中。然而随着大数据时代的到来,专利数据呈现出快速增长的趋势,且专利数据种类繁多,语言复杂,迫使专利数据的处理结构作出改变以适应专利数据的高速发展。因此,研究更
4、加高效的翻译方法和检索方式对专利数据的发展具有非常重要的研究意义和实用价值。本文旨在研究通过分布式的处理框架Hadoop来存储和翻译专利数据的技术,并在此基础上研究实现针对专利数据的多功能检索方式。主要研究工作如下:1)提出一种基于HDFS的三层动态可扩展的专利数据存储结构,最底层为存储在HDFS上的专利数据的不同类型建立数据管理,以避免数据冲突;中间层通过MapReduce程序将专利目录信息进行解析存储在HTable表;最上层是利用Lucene对专利目录建立的索引。从而实现大规模专利数据的存储和快速检索。2)针对专利数据大量小文件的特征,提出一种基
5、于MapReduce的合并分片的优化方法,减少因系统消耗所占的时间,从而提高专利文本翻译的效率,实验结果显示此种方法可以提升20%的翻译效率。3)设计实现了针对专利数据的跨语检索、高级检索以及IPC分类检索等多功能的专利数据检索方式。提出基于词共现的候选翻译词排序消歧方法,较好地解决了跨语检索中的一词多义问题。关键词:Hadoop,专利数据翻译,小文件,跨语检索I北京理工大学硕士学位论文AbstractPatentdataplaysaveryimportantroleinthedevelopmentofcomputerscienceandtechno
6、logy,manyresearchinventioncanbefoundinthepatentliterature.However,withthearrivaloftheeraofbigdata,patentdatatendtoshowarapidgrowthtrend,andithasawiderangeoftypesandalsoitiswrittenincomplexlanguages,whichneedstobewell-designedstructureforpatentdatainordertoadapttotherapiddevelop
7、ment.Therefore,researchonefficienttranslationandretrievalmethodforthedevelopmentofpatenthasveryimportantresearchsignificanceandpracticalvalue.Thispaperaimstostudythestorageandtranslationtechnologyforthepatentdatabythedistributedstructure-Hadoop,andonthebasistoachieveavarietyofr
8、etrievalmethods.Themainresearchworkareasfollows:1)Putf
此文档下载收益归作者所有