欢迎来到天天文库
浏览记录
ID:34592446
大小:5.59 MB
页数:133页
时间:2019-03-08
《基于多agent系统专利采集系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、-4‘J,的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。躲凼轧吼删。关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保签名I-●‘摘要摘要为了研究和建立北京市知识产权指标体系、知识产权公共信息服务平台与预警机制,从而提高北京市知识产权预警能力和高新技术产业竞争力,迫切需要大量准确的专利信息作为分析和研究专利与知识产权的基础。目前国内大部分政府和企业
2、在专利资源的获取方面采用人工下载,或是通过搜索引擎搜索并下载,效率差、准确性低,获得的专利信息结构化差,不利于分析。本文研究了从USPTO(美国专利商标局)专利数据库中采集信息的全过程,包括专利检索、接1:3分析、专利下载、信息抽取等。并将DeepWeb(深网)技术、多Agent系统技术、基于XML的信息抽取技术等应用于专利信息的采集过程。目的在于从USPTO数据库中准确、快速、自动地获取结构化的专利信息。本文使用基于多Agent系统的技术和方法设计了专利信息采集系统。采集系统分为用户接口子系统、中心控制子系统、专利网页获取子系统、专利基本信息抽取子系统和专利被引信息
3、抽取子系统,各子系统的核心分别为用户接口Agent、中心控制Agent、爬行调度Agent、基本信息抽取调度Agent、被引信息抽取调度Agent。本文论述了组成各子系统的诸Agent结构及通信、调度方式和调度算法。本文使用JAVA语言,在JADE环境中实现了专利采集系统原型并进行了采集实验,结果表明,原型系统能够快速、准确的采集专利信息,具有良好的性能和效率。本文的创新之处在于:第一,综合运用多种技术方法,如多Agent系统技术,基于XML的信息抽取技术和相关开源工具,在美国专利商标局数据库中采集信息。第二、研究并设计了专利采集系统的核心算法,包括中心Agent调度
4、算法、爬行Agent调度算法、基本信息抽取Agent调度算法、专利被引信息抽取Agent调度算法、专利信息页面获取流程、专利信息抽取流程、页面过滤与清洗算法、专利信息抽取规则等。第三、实现了专利采集系统原型,可以根据检索表达式自动下载、抽取专利,并将结构化的专利信息存储在本地数据库中。系统具有较高的效率。关键词专利采集;网页信息抽取;多Agent系统IIInthispaper,theprocessofacquisitionpatentinformationfromUnitedStatesPatentandTrademarkOffice(USPTO)webdatabas
5、ewhichincludespatentsearching,interfaceanalysis,patentdownloadandinformationextractionhasbeenstudied.ThemethodssuchasDeepWebtechnology,Multi—AgentstechnologyandinformationextractiontechnologybasedonXMLhavebeenusedinpatentacquisition.Thepurposeofthepaperisacquiringpatentinformationaccura
6、tely,rapidlyandautomaticallyfromUSPTOdatabase.thispaper,apatentacquisitionsystemhasbeendesignedbasedonMulti—AgentsSystems,whichincludesuserinterfacesubsystem,centralcontrolsubsystem,patentwebpagesacquisitionsubsystem,patentbasicinformationextractionsubsystemandreferencedpatentinformatio
7、nextractionsubsystem.Thecoresofeachsubsystemwereuserinterfaceagent,centralcontrolagent,spidercontrolagent,extractioncontrolagentandreferencedcontrolagent.ThePaperdiscussesthestructureandalgorithmofcommunicationandschedulingoftheagents.BasedonJavalanguageandJADEenvironment,aprot
此文档下载收益归作者所有