融入形态特征英语多词术语自动抽取探究

融入形态特征英语多词术语自动抽取探究

ID:6049238

大小:37.50 KB

页数:15页

时间:2018-01-01

融入形态特征英语多词术语自动抽取探究_第1页
融入形态特征英语多词术语自动抽取探究_第2页
融入形态特征英语多词术语自动抽取探究_第3页
融入形态特征英语多词术语自动抽取探究_第4页
融入形态特征英语多词术语自动抽取探究_第5页
资源描述:

《融入形态特征英语多词术语自动抽取探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、融入形态特征英语多词术语自动抽取探究  摘要:本文从术语研究的语言学视角,提出将形态特征同现有术语抽取方法相融合的多词术语自动抽取策略,并通过抽取实验对该策略进行了评估。结果表明,形态特征和基于句法规则方法相融合能够显著提高术语的自动抽取效率。研究同时发现,形态特征值能够有效地区分术语和非术语。本研究不仅揭示了语言学知识在术语自动抽取中的作用,同时为以语言学为支撑的自然语言处理研究范式提供了有力支持。关键词:术语自动抽取;形态特征;多词单位;融入策略中图分类号:H319.3文献标识码:A文章编号:1001-5795(2013

2、)02-0035-000615术语是专业领域概念的语言指称,是科学技术知识在自然语言中的结晶(冯志伟,2011:1)。由于术语集中体现和负载了学科领域的核心知识,它为自然语言处理提供了结构化知识单元,成为文献标引、信息检索、文本分类、机器翻译等系统的关键组成部分(Ananiadou,1984:1034;Jacquemin&Bourigault,2003),同时也为词典编纂、教材开发以及专业教学提供了重要资源。然而,随着科学技术的快速发展,新术语不断涌现,传统的术语收集方法远不能满足知识管理的需要。如何有效地从文本中自动抽取术

3、语,快速构建大规模、高质量的术语库已成为计算术语学的重要研究内容。依据术语的语言学特征,探索基于大规模语料库的多词术语自动抽取方法成为该研究领域的前沿课题。形态特征一直是词汇学研究的核心内容,也是普通语言学研究中历史最悠久的领域之一。经过长期的努力,形态学家已在描述词汇构成方式、展示词汇形态模式的多样性、探索形态特征的认知现实性等方面取得了丰硕成果,并为深入揭示形态特征的语言共性构建了坚实的理论框架。尽管这些成果已经部分应用于拼写检查(spellchecking)、词干提取(stemming)和句法分析(parsing)等自

4、然语言处理研究领域,但其潜势及价值在知识抽取,特别是术语自动抽取研究中尚未得到充分的挖掘和应用。本文从术语研究的语言学视角,提出将形态特征同现有术语抽取方法相融合的多词术语自动抽取策略,并通过抽取实验对该策略进行了测试和评估,旨在探讨形态特征在术语自动抽取中的作用,为以语言学为支撑的自然语言处理研究范式(Wintner,2009)的有效性提供新证据。1相关文献综述1.1术语的形态特征15术语作为概念实体、语言实体和交际单位的结合体,其多维特征是影响术语自动抽取效率提高的重要因素。就目前研究现状而言,在全面、透彻地了解术语本质

5、的基础上,深入揭示并充分利用术语的形态特征是优化现有术语抽取方法的有效途径之一,而把握术语和普通词汇之间的形态特征关系是关键。术语和普通词汇拥有相似的形态结构,但在具体的构成方式上二者呈现明显不同的形态倾向。Sager认为术语最常见的构成方式是对现有语言资源的限定(determination)和修饰(modification),而词缀构词法和复合构词法是其最重要的实现手段,因为他们在限定一个概念的同时也表明了新旧概念之间的关系(1990:72-73)。针对多语种术语形态特征的研究证实了这一论断。这些研究发现,专门用途语言中的

6、语缀比普通语言丰富得多,原因在于专门用途语言倾向于使用数量有限的希腊语和拉丁语前缀、后缀和词干构成大量的派生词和复合词,而这些词汇成分在普通语言中很少使用(Lopez&Ferrandis,1990;Smithetal,1996)。术语的形态特征研究同时表明,不同类型的希腊、拉丁语缀功能各异。前缀的主要功能在于促进术语结构系统化(Sager,1990:76)。特定的前缀,有助于领域专家对术语进行分类,建立不同的术语集。而后缀在通过限定方式改变词类,发挥句法作用的同时,也表达了概念不同方面的内容以及术语的语义类别(Torii&L

7、iu,2006)。15这些语缀通常被领域专家作为识别和理解本领域术语的依据并成为创建新术语的基础,因而可以被看作是术语的形态标记。如果在现有术语自动抽取方法中融入这些形态信息将会极大提高术语自动抽取的效率。1.2术语自动抽取方法述评现有多词术语自动抽取方法大致可分为基于句法规则和统计驱动两大类(Jacquemin&Bourigault,2003:605)。基于句法规则方法主要根据术语的句法型式相对稳定且种类有限两大特点,通过发现并抽取符合给定句法型式的词语序列,达到多词术语自动抽取的目的(Justeson&Katz,1995

8、)。统计驱动的方法主要依据多词单位在语篇中的频数分布模式,采用多种统计方法揭示术语和非术语不同的统计特征,实现术语的自动识别。Kageura&Umino(1996)提出了统一度(unithood)和术语度(termhood)两个概念分别描述多词术语组成成分之间的连结强度和多词术语与所指称的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。