一种基于XML和规则库的专利数据抽取方法.pdf

一种基于XML和规则库的专利数据抽取方法.pdf

ID:53732809

大小:203.35 KB

页数:3页

时间:2020-04-20

一种基于XML和规则库的专利数据抽取方法.pdf_第1页
一种基于XML和规则库的专利数据抽取方法.pdf_第2页
一种基于XML和规则库的专利数据抽取方法.pdf_第3页
资源描述:

《一种基于XML和规则库的专利数据抽取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第31卷第6期新乡学院学报2014年6月Vo1.31NoJournalofXinxiangUniversity.6Jtin.2O14一种基于XML和规则库的专利数据抽取方法常国锋,苗长芬(新乡学院计算机与信息工程学院,河南新乡453003)摘要:通过对现有网页数据抽取方法的分析,结合专利网页数据的特点,提出了一种基于XML文件和规则库的专利数据抽取方法。通过自定义标签对网页进行格式化,克服了以往网页采集中只针对%table>和

标签进行分割提取数据的不足,实现了专利数据的有效采集。实验结果表明该方法具

2、有很高的准确性和适用性。关键词:XMI;规则库;专利;抽取中图分类号:TP393文献标志码:A文章编号:2095—7726(2O14)06—0030—03O引言除文件解析器外,其他四个重要模块,分别应用了下专利数据是互联网上一种重要的知识产权数文讲述的四种算法。据,研究表明,专利虽然只占文献总量的1O,却能系统工作原理如下:1)文件解析器将采集到的提供全世界9o9/6~95的新技术信息⋯。网页源文件解析为D()M树,然后交给剪枝器处理;专利数据的抽取和传统的网页信息抽取不完全2)剪枝器根据规则库的定义,提取D

3、()M树中的指相同,它需要抽取专利网页上的结构化数据和无结定树枝(主题树),并完成对树枝的剪切,过滤不相关构化数据(图片或PDF文件),而网页的信息抽取只的标签,得到主题树;3)XML格式化处理器对得到针对结构化数据。如微软亚洲研究院提出的基于页的主题树进行处理,得到只包含root~>和面可视化信息的VIPS(Vision—basedPageSegmen—标签的格式化xML文件,交分析提取器提取数据;tation)方法,主要利用字体的大小和布局等视觉特4)分析提取器利用规则库定义好的规则,对得到的征

4、进行信息提取:】,但由于视觉特征的复杂性,很难XML文件进行内容提取,将提取到的结构化数据直找到一个通用的规则集。文献[3—7]通过将网页结接保存到数据库中,而对于得到的图片或PDF链构表示成一个DOM树,遍历树中

标签,来接,则下载合并后进行文件保存。获取网页正文,但是对于不使用和%div~标是W3C(World

5、WideWebConsortium)制定的标准签中的正文进行提取,而对于自定义的XML标签接口规范,提供了访问XMI文件和HTML文件中却无法进行处理。各个元素属性和方法的接口。在进行数据提取之本文通过研究已有方法,提出一种基于XMI前,要根据规则库对DOM树进行裁剪,得到只包含和规则库的提取专利数据的方法,实现了专利数据有价值数据的主题树,例如某一个专利页面的根据网页模板而不是具体标签的内容提取,并可定DOM树,如图1所示。义提取规则。定义主题树规则T一{URI,startTag,end—l专利数据抽取框架

6、Tag},其中URI是所访问的专利网站的专利内容专利数据抽取系统由文件解析器、剪枝器、规则网址,startTag是专利数据页面上的第一个有效专库、XMI格式化处理器和分析提取器五部分组成。利数据的标签序列,endTag是专利数据页面上最后收稿日期:2014-0310基金项目:河南省科技厅科技攻关计划项目(122102210407);河南省哲学社会科学规划项目(2012CJJ014);新乡学院创新基金项目(12SB17)作者简介:常国锋(1978一),男,河南濮阳人。讲师,硕士,研究方向:计算机应用。常国锋,苗

7、长芬:一种基于XML和规则库的专利数据抽取方法一个有效专利数据的标签序列。定位并提取有效数据。(1)算法1:从DOM中提取数据块算法,程序如琏~:】itleFree融图2。输出:cleanedItee:油兜ni-捌矩鹕FunetJoldearItTMk,}洮●r‘题I】~Jl:。倚翻托㈧StompscIrchAR印laccITitlcT~cc”input’)、障_l11)lIl研桀s沁mpsrcl1^n‘{Rclc“slcl11p”butlort”点际butll1『1怀琴s1『Search'u~dRcplac

8、clStcmp.”Ic”际ylc#I篙Stomp:Search,kndRcplace(Stcmp.'"I”}』除lj体簪Stomp--scAI1【jR:ls㈣ld。’)蚓’,棘甍cleancdTrecSealcl11、I1【{R叩laS㈨1p,"script)j、际Ⅲipt:i;j[clearI{I’Ml-一cleanedlrcc』{j:清洗j.i。,r31蛇}{I’MI豫p}戈)(MI¨豫一1娜I

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。