基于NLP词向量技术的大规模专利信息检索系统

基于NLP词向量技术的大规模专利信息检索系统

ID:42481766

大小:3.04 MB

页数:84页

时间:2019-09-15

基于NLP词向量技术的大规模专利信息检索系统_第1页
基于NLP词向量技术的大规模专利信息检索系统_第2页
基于NLP词向量技术的大规模专利信息检索系统_第3页
基于NLP词向量技术的大规模专利信息检索系统_第4页
基于NLP词向量技术的大规模专利信息检索系统_第5页
资源描述:

《基于NLP词向量技术的大规模专利信息检索系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于NLP词向量技术的大规模专利信息检索系统Large-scalePatentInformationRetrievalSystemBasedonNLPWordEmbedding学科专业:软件工程研究生:白洋指导教师:王建荣副教授企业导师:李文杰研究员天津大学软件学院2017年12月万方数据万方数据万方数据万方数据摘要数据检索与智能推荐是大数据时代不可或缺的技术,广泛应用于搜索引擎、电子商务平台、信息分发、计算广告等领域。NLP词向量技术是目前最先进的文本映射技术之一,为了实现机器对自然语言的理解,词向量映射是最基础的一步。专利申请的数量是衡量一个国家

2、和地区创新能力的重要指标之一,发明专利的数量更是一个国家自主创新能力的标志性体现。为了响应国家在2020年建成创新型国家的号召,准备自主开发一个依托于WEB端、具有专利检索与智能推荐功能的搜索引擎。本论文从绪论、开发技术、需求分析、总体设计、系统实现与测试及未来展望等几大方面对基于NLP词向量技术的专利检索与智能推荐系统进行论述设计。论文重点讨论如何建立NLP模型来进行文本分析,如何根据分析的结果进行相似度计算来实现检索与智能推荐。论文主要采用对比分析法来进行论证,通过对比CBOW和SG的原理和分析效率来动态地选择词向量构造方法。关键词:词向量,大数

3、据,搜索引擎,专利检索I万方数据II万方数据ABSTRACTDataRetrievalandIntelligentReference,twotechnologieswidelyusedinfieldslikesearchengines,e-commerce,informationdistribution,andcomputingadvertising,areindispensableintheeraofbigdata.NaturalLanguageProcessing(NLP)WordEmbeddingisbyfaroneofthemostadvan

4、cedtextmappingtechniques.Thefirststepforamachinetodigestnaturallanguageistoperformtextmapping.Theamountofpatentapplicationremainsavitalindicatorintermsofinnovationcapacityofacountryoraregion,whilethatofpatentforinventionrepresentsiconicallyanation’sindependentinnovationcapacity

5、.InresponsetoChina’scallofbuildinganinnovativecountryby2020,thispaperistodevelopindependentlyasearchenginewithretrivalandintelligentreferencecapabilities,whichisbasedonapatentmanagementsystemonWEB.ThispaperdiscussesthedesignofpatentsearchandintelligentreferencesystembasedonNLPW

6、ordEmbeddingtechnologyfromintroduction,technologyusedindevelopment,requirementanalysis,overalldesign,systembuildingandtesting,andfutureprospect.ThepaperfocusesonhowtorealizetextanalysisthroughbuildingNLPmodel,andhowtomakepatentsearchandintelligentreferencepossiblethroughcalcula

7、tingthesimilaritiesbetweenanalysis.Thepapermainlyusescomparativeanalysismethodtodemonstrateitsfindings,andselectsdifferentwordembeddingmethodsaccordingtothecomparisonbetweenContinuousBag-of-Words’(CBOW)andSkip-Gram(SG)’stheoryandtheiranalyzingefficiency.KEYWORDS:WordEmbedding,B

8、igData,SearchEngine,PatentSearchIII万方数据IV万方数据目录第1章绪论..

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。