欢迎来到天天文库
浏览记录
ID:38264994
大小:663.23 KB
页数:5页
时间:2019-05-26
《科技论文语义元数据的自动抽取研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:PDF科技论文语义元数据的自动抽取研究[J],现代图书情报技术,2009(2):102-106.应用实践PDF科技论文语义元数据的自动抽取研究张秀秀马建霞(中国科学院国家科学图书馆兰州分馆兰州730000)【摘要】在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。【关键词】PDF科技论文语义元数据自动抽取【分类号】TP3
2、91.43AutomaticExtractionofSemanticMetadatafromPDFResearchPapersZhangXiuxiuMaJianxia(TheLanzhouBranchofNationalScienceLibrary,ChineseAcademyofSciences,Lanzhou730000,China)【Abstract】ThispaperanalyzescontentstreamsofPDFfilesbasedonitsstructure,andextractssemanticmetadataautomat
3、icallyfromresearchpapersbywayofrule-basedmatchingandformat-basedlocating.Experimentalresultsshowthatthismethodcanextractimportantsemanticmetadatasuchastitleandauthoreffectively.【Keywords】PDFResearchpaperSemanticmetadataAutomaticextraction1引言元数据提供了网络资源描述、表达、管理和使用的基本方案,是网络资源组织和
4、检索的核心所在。随着计算机技术和网络技术的迅猛发展,面对海量文献描述的需要,如何快速、高效地产生元数据成为数字图书馆建设过程中面临的一大难题。当前数字图书馆建设过程中,元数据大多由人工逐条标记输入,这不仅花费了大量的人力、物力和时间,而且也越来越不能满足海量文献管理的需要。若元数据信息可以自动生成、自动抽取,必将大大减轻信息人员的工作负担,极大地提高工作效率。网上发布的科技论文大多以PDF形式存在,因此,本文的研究将针对PDF格式的论文展开。文章首先介绍了PDF文件的物理结构和逻辑结构,然后在对PDF文件直接进行文本、格式解析的基础上,依据科技论
5、文中文本内容的组织方式和排版格式等信息,采用基于规则的匹配方法和基于格式的定位方法,实现相关元数据的自动抽取,其中最主要的工作是抽取出论文的标题、作者、摘要、关键词4种重要的语义元数据。2元数据自动抽取的相关研究元数据抽取是信息抽取的一个分支,随着元数据自动抽取的内在需求不断增长,国内外学者对元数据自动抽取技术展开了一系列的理论研究。元数据自动抽取的方法大体可以分为两类:基于规则的方法和机器学习的方法。基于规则的方法采用基于收稿日期:2008-11-03收修改稿日期:2008-11-21本文系中国科学院国家科学图书馆青年人才领域前沿项目“元数据
6、自动抽取工具在数字知识库建设中的应用研究与开发”和国家社会科学基金项目“机构知识库建设与应用研究”(项目编号:07BTQ019)的研究成果之一。102现代图书情报技术总第175期2009年第2期模式识别和模式匹配的模板挖掘技术达到抽取自由文行。文件体(Body)是PDF文件的主体部分,由许多序本的目的,如:文献[1]利用正则表达式规则从PDF文列化的间接对象组成,这些间接对象共同构成了PDF档中抽取首页元数据;文献[2]采用基于层级知识描文件的具体内容,如页面、字体、图像等。交叉引用表述框架的InfoMap方法抽取引文元数据等。基于规则(Cros
7、s-referenceTable)是一个关于间接对象的地址的方法易于理解和操作,并且如果规则制定得当,抽取索引表,通过它能够实现对间接对象的快速随机存取。效果将十分理想。但是基于规则的方法需要专业人员文件尾(Trailer)声明了交叉引用表的地址,指明了文预先设计一系列规则,而且如果抽取的目标发生变化件体的根对象,还保存了加密等安全信息。则会有规则不适应的情况出现。机器学习的方法采用PDF的文档结构反映了文件体中间接对象之间的另外一种思路,它通过训练样本并建立样本的输入与等级层次关系,是一种树型结构,如图1所示。树的根输出之间的关系来预测新数据,
8、如文献[3]采用最大节点就是整个PDF文件的根对象(Catalog),根对象包熵等模型从常见文档中抽取标题元数据;文献[4]采含多种属性
此文档下载收益归作者所有