基于词向量和条件随机场的领域术语识别方法

基于词向量和条件随机场的领域术语识别方法

ID:31427738

大小:125.50 KB

页数:16页

时间:2019-01-09

基于词向量和条件随机场的领域术语识别方法_第1页
基于词向量和条件随机场的领域术语识别方法_第2页
基于词向量和条件随机场的领域术语识别方法_第3页
基于词向量和条件随机场的领域术语识别方法_第4页
基于词向量和条件随机场的领域术语识别方法_第5页
资源描述:

《基于词向量和条件随机场的领域术语识别方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于词向量和条件随机场的领域术语识别方法  摘要:针对基于统计特征的领域术语识别方法忽略了术语的语义和领域特性,从而影响识别结果这一问题,提出一种基于词向量和条件随机场(CRF)的领域术语识别方法。该方法利用词向量具有较强的语义表达能力、词语与领域术语之间的相似度具有较强的领域表达能力这一特点,在统计特征的基础上,增加了词语的词向量与领域术语的词向量之间的相似度特征,构成基于词向量的特征向量,并采用CRF方法综合这些特征实现了领域术语识别。最后在领域语料库和SogouCA语料库上进行实验,识别结果的准确率、召回率和F测度分别达到了0.9855、0.9439和0.9643,

2、表明所提的领域术语识别方法取得了较好的效果。  关键词:词向量;条件随机场;术语识别;相似度特征  中图分类号:TP391.4  文献标志码:A  文章编号:1001-9081(2016)11-3146-06  0引言16  领域术语识别是自然语言处理领域的关键任务,对数据挖掘、信息检索、机器翻译等方面的研究和应用有重要的意义,引起了国内外学者们的关注[1]。吴海燕[2]利用互信息对旅游领域术语识别问题进行研究;李丽双等[3]利用信息熵和词频变化对汽车领域的术语进行抽取。这类方法主要根据文本的互信息和信息熵等统计信息对术语进行识别,取得了较好的识别效果,但该类方法只考虑了

3、文本的统计分布特性。近年来机器学习技术在自然语言处理领域得到广泛应用并取得丰硕成果,例如机器学习中的条件随机场(ConditionalRandomField,CRF)算法[4],利用文本的多种上下文特征完成对领域术语的识别。孙丽萍等[5]用其预测企业简称,取得了很好的效果;栗伟等[6]将CRF算法用于医学领域术语识别;施水才等[7]针对领域术语的特点,设计了词性、词长等多个统计特征,利用CRF算法对领域术语进行识别。这类方法将术语识别问题转为序列标注问题,利用机器学习中的CRF算法对术语识别问题进行研究。该类方法考虑了词语的多种特征,克服了使用单一特征的局限性,提高了术语

4、的识别效果,但这些特征在本质上仍然属于词语的统计分布特性。然而,对于大部分特定领域的术语而言,都具有丰富的语义特性和领域特性,这也是领域术语区别于其他词语的重要方面。统计特征无法表达词语的语义和领域特性,影响了识别效果。所以本文研究如何将领域术语的语义特性和领域特性融入到基于CRF的领域术语识别模型中,克服统计特征的局限性,缓解高维特征向量的数据稀疏问题[8],提高了术语识别的性能。  1特征选择16  特征选择是术语识别的关键,不同类型的特征会产生不同的识别效果。特征包括统计特征和语义特征。统计特征以词语的频率为核心,采用统计学的方法给出特征值,表达能力单一,无法表达出

5、词语的语义信息,从而影响术语识别的效果。对于特定领域的术语而言,有两个很重要的特点:第一,这类术语具有丰富的语义含义,可表达词语的内涵;第二,这类术语具有很强的领域性,即同一领域的术语具有很强的相关性。所以本文深入分析了这两个特点,给出相似度特征的计算方法,并将相似度作为术语识别的重要特征。  用词向量表达文本中的词语是将深度学习算法引入自然语言处理领域的一个核心技术。词向量是通过训练神经网络语言模型得到的一种分布表示特征[9-10],即用一个连续的实数向量表达文本中的一个词语,该向量能表达词语的语义含义:语义上相似的词语在空间中的向量也相似。所以,本文采用词向量表达领域

6、术语的语义含义。每个领域都有其核心词汇,一般以领域词典的形式存在。假定领域词典中的词语都是领域术语,如果某个词语与词典中的词语在语义上相似,那么,该词语被识别为领域术语的概率就会很大,所以本文采用词语与领域术语的词向量之间的相似度表达领域性。  1.1相似度特征  为了将领域术语的语义和领域性融入术语识别模型中,首先要将词语的语义和领域性以适当的数据结构或形式表达出来,具体表达形式如下。  1.1.1词向量  词向量可由Mikolov发布的开源word2vec[11-12]训练得到。Mikolov提出了两种用于训练词向量的模型:连续词袋(ContinuousBagOfWo

7、rds,CBOW)模型和Skip-gram模型。CBOW在训练效率上高于Skip-gram,所以本文使用CBOW模型,模型结构如图1所示。  1.2统计特征16  本文的统计特征首先选择词语本身、词性、词长和是否在词典中4个统计特征,根据领域术语的特殊性,加入了词的特定偏旁部首数目特征。以渔业领域为例,5个统计特征提取和分析如下。  特征1词语本身Word。利用分词软件,对文本切分后生成的词语。词语是构成术语的基本符号,例如渔业领域中,镜鲤、乌鳢、苗种、亲虾、养殖等词语或者为渔业领域术语、或者为术语的后缀、或者为术语的前缀,若

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。