欢迎来到天天文库
浏览记录
ID:39402469
大小:98.00 KB
页数:8页
时间:2019-07-02
《基于本体的Web 信息抽取及本体的构建实现研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于本体的web信息抽取及本体的构建实现研究贾赛1,乔鸿2(1.山东师范大学管理与经济学院管理科学与工程系,山东济南250014;2.山东师范大学管理与经济学院管理科学与工程系,山东济南250014)摘要:本文对当前热门的基于本体的web信息抽取技术进行了分析,对比两种基于本体的web信息抽取模型,为用户和应用程序服务;之后从本体构建的角度对他们进行微博人物信息实例分析,本体的设计与实现都是对他们的权衡指标,指导信息抽取行为。关键字:web信息抽取;本体;抽取模型;微博中图分类号:TP393Ontology-BasedInformationExtractionfromWebSour
2、cesandRealizationofOntologyConstructionJIASai1,QIAOHong2(1.SchoolofManagementandEconomics,ShandongNormalUniversity,JinanShandong250014,China;2.SchoolofManagementandEconomics,ShandongNormalUniversity,JinanShandong250014,China)Abstract:Thispaperanalysesthecurrentpopulartechnologyofontology-based
3、informationextraction,andcontraststhetwomodelsofontology-basedinformationextractionfortheuserandapplicationservice.Thenfromtheangleofontologyconstructionwecanusetheinstanceanalysisofmicroblogpersonalinformationtobalancethedesignandrealizationofontologymethod,directactivityofinformationextracti
4、on.Keywords:WebInformationExtraction;Ontology;ExtractionModel;MicroBlog可以看到,在信息时代的今天,信息的增长速度已经是让我们瞠目结舌,随着web的发展,在web上的各种各样的信息也以不同的形式分布,我们该如何在这些繁多的,无结构的web信息中找到我们真正需要的,就成了我们现在急需要解决的问题;web信息抽取就是为了这个目的而存在,把web中的信息变成结构化的,更有语义的模式结构。而在web信息抽取技术中,基于本体的web信息抽取是其中一个比较重要的方向,它的实现可以帮助用户更方便地在信息海洋中找到自己需要的信息
5、,减少应用程序的资源浪费,适合人们的需求。1相关概念1.1本体本体(Ontology)的概念最初起源于哲学领域,20世纪70年代末JohnMcCarthy将这个哲学术语引入到计算机领域,在人工智能界,最早给Ontology定义的是Neches等人。他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则定义”。1993年,Gruber给出了Ontology的一个最为流行的定义[1-2],即“Ontology是概念模型的明确规范说明”。Ontology的目标是捕获相关领域的知识,提出供该领域知识的共同理解,确定该领域内共同
6、认可的词汇,并从不同的层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。1.2领域本体领域本体(DomainOntology),是专业性的本体,描述的是特定领域中的概念和概念之间的关系,提供了某个专业学科领域中概念的词表以及概念间的关系,或在该领域里占主导地位的理论,能够独立的存在和被使用。1.3web信息抽取web信息抽取(WebInformationExtraction)是将web作为信息源的一类信息抽取。简单的说,web信息抽取是指从web页面中抽取用户感兴趣的信息而过滤掉不相关的信息,具体的是指研究如何将分散在半结构化web页面中的信息提取出来,并以结构化、
7、语义更为清晰的模式表示,它为用户在web中查询数据、应用程序直接利用web数据提供了便利[3]。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。其主要功能就是把信息点从各种各样的文档中抽取出来,然后以统一的形式集成在一起。2基于领域本体的web信息抽取这里我们研究的是基于领域本体的web信息抽取,这也是现在应用比较广泛,相对比较成熟的一种技术实现;基于领域本体的web信息抽取的一个重要特点是具有较强的针对性,被抽取的通常是某个特定的类型的文档,即包含了一些较为
此文档下载收益归作者所有