资源描述:
《基于NLP词向量技术的大规模专利信息检索系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于NLP词向量技术的大规模专利信息检索系统Large-scalePatentInformationRetrievalSystemBasedonNLPWordEmbedding学科专业:软件工程研究生:白洋指导教师:王建荣副教授企业导师:李文杰研究员天津大学软件学院2017年12月万方数据万方数据万方数据万方数据摘要数据检索与智能推荐是大数据时代不可或缺的技术,广泛应用于搜索引擎、电子商务平台、信息分发、计算广告等领域。NLP词向量技术是目前最先进的文本映射技术之一,为了实现机器对自然语言的理解,词向量映射是最基础的一步。专利申请的数量是衡量一个国家
2、和地区创新能力的重要指标之一,发明专利的数量更是一个国家自主创新能力的标志性体现。为了响应国家在2020年建成创新型国家的号召,准备自主开发一个依托于WEB端、具有专利检索与智能推荐功能的搜索引擎。本论文从绪论、开发技术、需求分析、总体设计、系统实现与测试及未来展望等几大方面对基于NLP词向量技术的专利检索与智能推荐系统进行论述设计。论文重点讨论如何建立NLP模型来进行文本分析,如何根据分析的结果进行相似度计算来实现检索与智能推荐。论文主要采用对比分析法来进行论证,通过对比CBOW和SG的原理和分析效率来动态地选择词向量构造方法。关键词:词向量,大数
3、据,搜索引擎,专利检索I万方数据II万方数据ABSTRACTDataRetrievalandIntelligentReference,twotechnologieswidelyusedinfieldslikesearchengines,e-commerce,informationdistribution,andcomputingadvertising,areindispensableintheeraofbigdata.NaturalLanguageProcessing(NLP)WordEmbeddingisbyfaroneofthemostadvan
4、cedtextmappingtechniques.Thefirststepforamachinetodigestnaturallanguageistoperformtextmapping.Theamountofpatentapplicationremainsavitalindicatorintermsofinnovationcapacityofacountryoraregion,whilethatofpatentforinventionrepresentsiconicallyanation’sindependentinnovationcapacity
5、.InresponsetoChina’scallofbuildinganinnovativecountryby2020,thispaperistodevelopindependentlyasearchenginewithretrivalandintelligentreferencecapabilities,whichisbasedonapatentmanagementsystemonWEB.ThispaperdiscussesthedesignofpatentsearchandintelligentreferencesystembasedonNLPW
6、ordEmbeddingtechnologyfromintroduction,technologyusedindevelopment,requirementanalysis,overalldesign,systembuildingandtesting,andfutureprospect.ThepaperfocusesonhowtorealizetextanalysisthroughbuildingNLPmodel,andhowtomakepatentsearchandintelligentreferencepossiblethroughcalcula
7、tingthesimilaritiesbetweenanalysis.Thepapermainlyusescomparativeanalysismethodtodemonstrateitsfindings,andselectsdifferentwordembeddingmethodsaccordingtothecomparisonbetweenContinuousBag-of-Words’(CBOW)andSkip-Gram(SG)’stheoryandtheiranalyzingefficiency.KEYWORDS:WordEmbedding,B
8、igData,SearchEngine,PatentSearchIII万方数据IV万方数据目录第1章绪论..