科技论文语义元数据的自动抽取研究

科技论文语义元数据的自动抽取研究

ID:38264994

大小:663.23 KB

页数:5页

时间:2019-05-26

科技论文语义元数据的自动抽取研究_第1页
科技论文语义元数据的自动抽取研究_第2页
科技论文语义元数据的自动抽取研究_第3页
科技论文语义元数据的自动抽取研究_第4页
科技论文语义元数据的自动抽取研究_第5页
资源描述:

《科技论文语义元数据的自动抽取研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:PDF科技论文语义元数据的自动抽取研究[J],现代图书情报技术,2009(2):102-106.应用实践PDF科技论文语义元数据的自动抽取研究张秀秀马建霞(中国科学院国家科学图书馆兰州分馆兰州730000)【摘要】在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。【关键词】PDF科技论文语义元数据自动抽取【分类号】TP3

2、91.43AutomaticExtractionofSemanticMetadatafromPDFResearchPapersZhangXiuxiuMaJianxia(TheLanzhouBranchofNationalScienceLibrary,ChineseAcademyofSciences,Lanzhou730000,China)【Abstract】ThispaperanalyzescontentstreamsofPDFfilesbasedonitsstructure,andextractssemanticmetadataautomat

3、icallyfromresearchpapersbywayofrule-basedmatchingandformat-basedlocating.Experimentalresultsshowthatthismethodcanextractimportantsemanticmetadatasuchastitleandauthoreffectively.【Keywords】PDFResearchpaperSemanticmetadataAutomaticextraction1引言元数据提供了网络资源描述、表达、管理和使用的基本方案,是网络资源组织和

4、检索的核心所在。随着计算机技术和网络技术的迅猛发展,面对海量文献描述的需要,如何快速、高效地产生元数据成为数字图书馆建设过程中面临的一大难题。当前数字图书馆建设过程中,元数据大多由人工逐条标记输入,这不仅花费了大量的人力、物力和时间,而且也越来越不能满足海量文献管理的需要。若元数据信息可以自动生成、自动抽取,必将大大减轻信息人员的工作负担,极大地提高工作效率。网上发布的科技论文大多以PDF形式存在,因此,本文的研究将针对PDF格式的论文展开。文章首先介绍了PDF文件的物理结构和逻辑结构,然后在对PDF文件直接进行文本、格式解析的基础上,依据科技论

5、文中文本内容的组织方式和排版格式等信息,采用基于规则的匹配方法和基于格式的定位方法,实现相关元数据的自动抽取,其中最主要的工作是抽取出论文的标题、作者、摘要、关键词4种重要的语义元数据。2元数据自动抽取的相关研究元数据抽取是信息抽取的一个分支,随着元数据自动抽取的内在需求不断增长,国内外学者对元数据自动抽取技术展开了一系列的理论研究。元数据自动抽取的方法大体可以分为两类:基于规则的方法和机器学习的方法。基于规则的方法采用基于收稿日期:2008-11-03收修改稿日期:2008-11-21本文系中国科学院国家科学图书馆青年人才领域前沿项目“元数据

6、自动抽取工具在数字知识库建设中的应用研究与开发”和国家社会科学基金项目“机构知识库建设与应用研究”(项目编号:07BTQ019)的研究成果之一。102现代图书情报技术总第175期2009年第2期模式识别和模式匹配的模板挖掘技术达到抽取自由文行。文件体(Body)是PDF文件的主体部分,由许多序本的目的,如:文献[1]利用正则表达式规则从PDF文列化的间接对象组成,这些间接对象共同构成了PDF档中抽取首页元数据;文献[2]采用基于层级知识描文件的具体内容,如页面、字体、图像等。交叉引用表述框架的InfoMap方法抽取引文元数据等。基于规则(Cros

7、s-referenceTable)是一个关于间接对象的地址的方法易于理解和操作,并且如果规则制定得当,抽取索引表,通过它能够实现对间接对象的快速随机存取。效果将十分理想。但是基于规则的方法需要专业人员文件尾(Trailer)声明了交叉引用表的地址,指明了文预先设计一系列规则,而且如果抽取的目标发生变化件体的根对象,还保存了加密等安全信息。则会有规则不适应的情况出现。机器学习的方法采用PDF的文档结构反映了文件体中间接对象之间的另外一种思路,它通过训练样本并建立样本的输入与等级层次关系,是一种树型结构,如图1所示。树的根输出之间的关系来预测新数据,

8、如文献[3]采用最大节点就是整个PDF文件的根对象(Catalog),根对象包熵等模型从常见文档中抽取标题元数据;文献[4]采含多种属性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。