中文领域本体学习中术语的自动抽取倡

中文领域本体学习中术语的自动抽取倡

ID:33529487

大小:727.67 KB

页数:4页

时间:2019-02-26

中文领域本体学习中术语的自动抽取倡_第1页
中文领域本体学习中术语的自动抽取倡_第2页
中文领域本体学习中术语的自动抽取倡_第3页
中文领域本体学习中术语的自动抽取倡_第4页
资源描述:

《中文领域本体学习中术语的自动抽取倡》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第26卷第7期计算机应用研究Vol.26No.72009年7月ApplicationResearchofComputersJul.2009倡中文领域本体学习中术语的自动抽取温春,王晓斌,石昭祥(电子工程学院网络工程系,合肥230037)摘要:提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的

2、抽取方法。关键词:领域术语抽取;领域主题一致度;领域本体学习;多字词候选术语;字符串分解中图分类号:TP391   文献标志码:A文章编号:1001唱3695(2009)07唱2652唱04doi:10.3969/j.issn.1001唱3695.2009.07.070Automaticdomain唱specifictermextractioninChinesedomainontologylearningWENChun,WANGXiao唱bin,SHIZhao唱xiang(Dept.ofNetworkEngineering,ElectronicEngi

3、neeringInstitute,Hefei230037,China)Abstract:Thispaperintroducedahybridstrategytoextractdomain唱specifictermsautomatically.Atthebeginning,executedmulti唱wordcandidateextractionandChinesewordsegmentationatthesametimewithtwothreads.Thenmergedtheirresultsets.Finallyextractedthedomain唱

4、specifictermswithdomainrelevanceanddomaintopicconsensusmethod.Inmulti唱wordcandidateextractionanddomain唱specifictermextractionperiods,itimprovedthepresentedmethodsrespectivelytodecreasetimecomplexityofstringdecomposingandincreasetheprecisionandrecall.Experimentalresultsshowthatth

5、eprecisionofhy唱bridmethodachieves90.64%,whichisbetterthanthatofpresentedChinesedomain唱specifictermextractionmethods.Keywords:domain唱specifictermextraction;domaintopicconsensus;domainontologylearning;multi唱wordcandidateterms;stringdecomposing自20世纪90年代以来,随着知识共享、信息集成、语义1相关工作Web和Web

6、服务等技术的快速发展,本体研究在计算机领域[1]备受关注,并逐渐成为研究的前沿和热点。领域本体是对目前,许多研究者在术语抽取方面做了不少工作,通常采给定领域中存在的概念的一种详尽的特征化描述,它用公认的用基于规则的方法[4]、基于统计的方法[5,6]和混合方法[7]。术语集合和术语之间的关系来反映该领域内的知识和知识结[8]从国外已有的本体学习工具来看,Hasti在获取术语时,构。虽然目前的本体构建工具正日趋成熟,但是本体的手工构[9]使用了基于规则的方法;Text唱to唱Onto使用加权的词频统计方[10]造仍是一项繁琐而辛苦的任务。如何利用知识获取

7、技术来降法来获取术语;OntoLearn则采用了一种混合的方法,即低本体构建的开销是一个很有意义的研究方向。目前,国外在DR+DC进行术语抽取,其中DR和DC分别表示词语的领域[2]该方向的研究很活跃,把相关的技术称为本体学习技术。相关度和领域一致度。关于本体学习到底应该关注哪些具体的任务,文献[3]给出了与国外相比,国内还没有支持中文的本体学习工具,研究一个层次模型,如图1所示,它总结了本体学习过程中所需要成果也相对较少。由于中英文差别较大,对于英文适用的方法完成的所有子任务。未必适用于中文,或者需要进行较大调整。在中文领域术语抽取方面,国内主要集中

8、于两个方向:a)借鉴或者扩展DR+DC!!!"#"#$$%&'(!)"*"+,-&.!!"**

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。