资源描述:
《中文核心领域本体构建的一种改进方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第24卷第1期中文信息学报Vol.24,No.12010年1月JOURNALOFCHINESEINFORMATIONPROCESSINGJan.,2010文章编号:1003-0077(2010)01-0048-06中文核心领域本体构建的一种改进方法谌贻荣,陆勤,李文捷,崔高颖(香港理工大学计算学系,香港666666)摘要:核心本体对最基本的领域知识建模,并在上位本体和领域本体之间建立联系。上位本体是领域无关的而核心本体是领域相关的,因此在自动创建中文核心本体过程中,映射中文核心术语到上位本体概念有很多的错误。本文提出的改进方法首先找到共享后缀术语集内被共享的术语条数更多、与
2、各术语的意义更接近的上位概念;然后用其来改进词集中的核心术语和概念之间的映射。实验证明,该方法有效的提高了核心本体自动创建的精确度。关键词:计算机应用;中文信息处理;本体构建;领域核心本体;上位本体;领域本体;上位关系中图分类号:TP391文献标识码:AAnImproveMethodforChineseCoreOntologyConstructionCHENYirong,LUQin,LIWenjie,CUIGaoying(DepartmentofComputing,theHongKongPolytechnicUniversity,HongKong,China)Abstrac
3、t:Acoreontologymodelsfundamentaldomainknowledgeandbridgesthegapbetweenanupperontologyandadomainontology.Sincetheupperontologyisdomainindependent,manyerrorsareintroducedwhenmappingcoretermstotheupperontologyconceptsinautomaticChinesecoreontologyconstruction.Thispaperproposesanextractionmeth
4、odmakinguseoftermssharingthesamesuffixestofindthehypernyms:thetermthatismorefrequentlysharedbyothertermsandarecloserinmeaningstothoseterms.Thesehypernymsarethenusedtoimprovethemappingofthesetermstothecorrectconcepts.Experimentsshowthatasignificantimprovementisachievedintermsofaccuracyforco
5、reontologyconstruction.Keywords:computerapplication;Chineseinformationprocessing;ontologyconstruction;coreontology;upperontology;domainontology;hypernymy知识信息的不同领域应用的需求,快速准确地建立1引言和更新领域本体意义重大。本体作为一个概念化模型,有多种分类方法。因特网的飞速发展带来了海量的信息,但如何按照模型的复杂程度可以分为轻量型的本体和重量有效地利用这些信息,成为一个新技术所带来的新型的本体。轻量型的本体只包含概念
6、和关系,重量问题。一个现今被广泛研究的解决这个问题的方法型的本体还包含了公理和推导系统。按照本体建模[2]就是用本体对领域建模。在信息科学领域,本体是的范围差别,又可以分为上位本体、核心领域本[1]一个形式化的,有明确描述的共享的概念化模型。体和领域本体。上位本体对通用的概念建模。一个领域本体可以广泛服务于各种信息应用,如信息检比较著名的上位本体就是SUMO(Suggested[3-4]索、信息抽取、摘要和问答系统等。为满足各种基于UpperMergedOntology)。领域本体对特定领收稿日期:2009-05-24定稿日期:2009-11-06基金项目:香港理工大学教育
7、资助委员会(UGC),研究资助局(RGC)角逐研究用途补助金资助项目(CERG)(PolyU5225/05E,PolyU5190/04E,PolyU5246/08E)作者简介:谌贻荣(1978—),男,博士生,主要研究方向为本体学习,术语提取;陆勤(1960—),女,教授,主要研究方向为中文信息系统和自然语言处理;李文捷(1966—),女,助教,主要研究方向为自然语言处理。1期谌贻荣等:中文核心领域本体构建的一种改进方法49域建模。而核心领域本体是对领域中的核心概念建模,并作为一个中间层本体,为上位本体中的抽象2核