中文领域本体学习中术语的自动抽取

中文领域本体学习中术语的自动抽取

ID:5998757

大小:363.81 KB

页数:4页

时间:2017-12-30

中文领域本体学习中术语的自动抽取_第1页
中文领域本体学习中术语的自动抽取_第2页
中文领域本体学习中术语的自动抽取_第3页
中文领域本体学习中术语的自动抽取_第4页
资源描述:

《中文领域本体学习中术语的自动抽取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第26卷第7期2009年7月计算机应用研究ApplicationResearchofComputersVoI.26No.7Jul.2009中文领域本体学习中术语的自动抽取木温春,王晓斌,石昭祥(电子工程学院网络工程系,合肥230037)摘要:提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取

2、准确率为90.64%,优于现有的抽取方法。关键词:领域术语抽取;领域主题一致度;领域本体学习;多字词候选术语;字符串分解中图分类号:TP391文献标志码:A文章编号:1001—3695(2009)07—2652.04doi:10.3969/j.issn.1001-3695.2009.07.070Automaticdomain—specifictermextractioninChinesedomainoritologylearningWENChun,WANGXiao—bin,SHIZhao-xiang(Dept.矿NetworkE

3、ngineering,ElectronicEngineeringlnstsute,Hefei230037,China)Abstract:nispaperintroducedahybridstrategytoextractdomain—specifictermsautomatically.Atthebeginning。executedmulti.wordcandidateextractionandChinesewordsegmentationatthesametimewithtwothreads.Thenmergedtheirre

4、suhsets.Finallyextractedthedomain.specifictermswithdomainrelevanceanddomaintopicconsensusmethod.Inilluhi.wordcandidateextractionanddomain.specifictermextractionperiods.itimprovedthepresentedmet}lodsrespectivelytodecreasetimecomplexityofstringdecomposingandincreasethe

5、precisionandrecall.Experimentalresultsshog,thattheprecisionofhy-bridmethodachieves90.64%.whichiSbetterthanthatofpresentedChinesedomain-specifictermextractionmcthods.Keywords:domain·specifictermextraction;domaintopiccon.sensus;domainontologylearning;multi—wordcandidat

6、eterms;stringdecomposing自20世纪90年代以来,随着知识共享、信息集成、语义Web和Web服务等技术的快速发展,本体研究在计算机领域备受关注,并逐渐成为研究的前沿和热点⋯。领域本体是对给定领域中存在的概念的一种详尽的特征化描述,它用公认的术语集合和术语之间的关系来反映该领域内的知识和知识结构。虽然目前的本体构建工具正日趋成熟,但是本体的手工构造仍是一项繁琐而辛苦的任务。如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向。目前,国外在该方向的研究很活跃,把相关的技术称为本体学习技术BJ。关于本

7、体学习到底应该关注哪些具体的任务,文献[3]给出了一个层次模型,如图1所示,它总结了本体学习过程中所需要完成的所有子任务。Vx,y(married(x.y卜_+love扛o,))lⅡiom“re(d0眦hDOCTOR,嘴:DISEASE)厂[互面二二二]Ia_a(DOCTOR,PERSON).1£Qn££也bi£坚錾缝盥IDISEASE:=(/,E,£).1£QⅡ££B!苎fdisease,illness}.I£xⅡQⅡ¥mtdisease,illness,horpitalL——————ja卫埔———————一图1本体学习层次模

8、型从图l可以看出,对文档中的相关词语即术语进行抽取是本体学习的第一步,也是先决条件。术语是指定领域概念的语言表现,是后续执行更复杂的学习任务的基础。术语抽取阶段的任务是发现相关词语集合或表示概念和关系的符号集合。1相关工作目前,许多研究者在术语抽取方面做了不少工

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。