基于语义模型的数字图书馆知识组织信息抽取策略

基于语义模型的数字图书馆知识组织信息抽取策略

ID:20132367

大小:77.06 KB

页数:13页

时间:2018-10-08

基于语义模型的数字图书馆知识组织信息抽取策略_第1页
基于语义模型的数字图书馆知识组织信息抽取策略_第2页
基于语义模型的数字图书馆知识组织信息抽取策略_第3页
基于语义模型的数字图书馆知识组织信息抽取策略_第4页
基于语义模型的数字图书馆知识组织信息抽取策略_第5页
资源描述:

《基于语义模型的数字图书馆知识组织信息抽取策略》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于语义模型的数字图书馆知识组织信息抽取策略[摘要]简述语义模型是实现数字资源语义关系形式化描述的方式,是数字图书馆知识组织语义互联的重要影响因素。作为数字图书馆知识组织语义互联的重要环节,信息抽取需要本体提供语义知识依据,同时产生的文档也可以作为设计和丰富本体的知识资源。构建数字图书馆知识组织语言联的语义模型以“元数据、领域本体、桥本体、本体解析体系”为核心要素,在此基础上探讨信息抽取的策略。[关键词]数字图书馆语义模型信息抽取本体[分类号]G250.761引言语义是指“数据(符号)”所指代的概念的含义以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示。语义

2、通过两种途径产生:①人类赋予;②通过计算模型产生。通过第二种方式产生的语义可以被计算机理解和处理,可以被获取、传递、共享。根据实体资源(如文本和图像)来产生语义或挖掘出信息所蕴含的隐性语义是一个挑战性的任务。基于统计的聚类分析、共词分析、信息抽取和挖掘技术可以帮助实现语义的自动抽取。实现的关键在于建立一个语义模型,该模型既适用于显式语义,又适用于通过显式语义挖掘推导出隐含语义。语义模型是通过模型作为媒介来实现数据语义关系形式化描述的一种方式。基于本体的语义模型是通过以本体为核心的模型作为媒介,实现数字资源语义关系形式化描述的一种方式。本文基于本体构建了语义模型,并基于该

3、语义模型探讨数字图书馆知识组织过程中信息抽取策略。2信息抽取与本体信息抽取是从分布的、异构的文本中提取出特定的事实信息,将其中隐含的语义提取出来并以更为结构化、更为清晰的形式表示,为用户使用提供便利。信息抽取与语义标注总是融合在一起、互相支持的;信息抽取需要在语义标注的基础上进行,语义标注的内容是经过信息抽取提取出来的。因此,目前对于信息抽取研究离不开对抽取对象的语义分析和描述。语义分析与描述技术的研究热点是本体技术。本体是对面向计算机语言的、已被组织的知识的描述,而信息抽取是面向自然语言,分析文档表达的事实和从这些文档中提取相关信息片段。信息抽取和本体是相辅相成的:作

4、为抽取相关信息的理解程序,本体被用于信息抽取,是信息抽取的语义知识依据;信息抽取可以丰富本体,因为信息抽取出来的文档可以作为设计和丰富本体的知识资源。这两方面的任务被结合在循环中(见图1)。本体可以有效地、准确地、解释信息抽取出来的数据,而信息抽取从文裆提取出来的新知识可以整合进入本体从而丰富本体。2.1本体对信息抽取的支持在抽取过程中,本体知识对文档的语义解释具有重要作用。本体对领域概念以及概念的多种形式进行了规范性说明,因此在信息抽取中可以用来进行字符串的语义分析,进而进行概念识别;在信息抽取过程中,需要领域本体对文档中实体名称进行识别与分类。本体中的类可以对信息抽

5、取文档进行概念识别、语义标注和概念规范。本体的概念层次结构。传统信息抽取的重点是使用同义词集而不是层次关系。例如,在wordNet中,同义词集可以用于语义标注和消歧,但上下类关系还需要本体参与。本体中包含的语义类型或语义的层次关系,有助于通过抽取内容进行推理和忠实释义。更先进的信息抽取系统也需要利用领域本体的概念节点、概念节点的属性和相互关系予以描述。本体中的概念与属性值能够清楚地描述信息抽取对象的本质。对于文档中抽取对象的分析既能提高自然语言处理,又能指导概念框架的实体构成,而相应的规则即是基于短语模型,更多是基于语义分析的。领域概念模型。领域概念模型本身用于推理,它

6、能合并不同表现形式的同一概念,并且能够揭示出隐含的语义。2.2信息抽取对本体的丰富本体构建一直是公认的语义进程中的瓶颈,而信息抽取有助于本体构建。已经提出各种方法用于语料库的建设以利于本体构建,如基于规则的信息抽取即是对本体构建方法的补充。基于推理规则抽取出基本数据,通过已有本体对该数据进行概念及概念关系分析,在此基础上将数据中新的概念或概念间的新关系整合到本体。实体命名抽取:实体命名通过在本体中以实例的形式表示。从这个角度看,需要自动地不断地为本体增添一些热门领域的实体名称。而信息抽取被广泛应用于识别和分类文档、网页、数据库等中的实体。关系抽取:在结构化本体中,概念与

7、概念之间存在着语义关联。目前从文档中获取本体关系的方法主要有三种:基于共词分析方法、基于知识库方法和基于信息抽取模式方法。信息提取模式方法提升了前两种方式:第一种方法需要对基本关系类型进行解释,而信息抽取中的规则就是特色化关系;第二种方法原有的知识可以帮助设计一个提取规则。信息抽取通过本体进行基于领域的语义分析,提升信息的语义性,为智能检索打下基础;本体通过信息抽取不断学习,不断演化,解决本体构建的瓶颈问题。鉴于此,本文基于本体构建数字图书馆知识组织语义互联的语义模型,利用语义模型探讨语义互联实现过程中各个重要环节的策略,进而最终完成数字

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。