基于排序集成的自动术语识别方法_粟超.pdf

基于排序集成的自动术语识别方法_粟超.pdf

ID:52332053

大小:270.95 KB

页数:4页

时间:2020-03-26

基于排序集成的自动术语识别方法_粟超.pdf_第1页
基于排序集成的自动术语识别方法_粟超.pdf_第2页
基于排序集成的自动术语识别方法_粟超.pdf_第3页
基于排序集成的自动术语识别方法_粟超.pdf_第4页
资源描述:

《基于排序集成的自动术语识别方法_粟超.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第29卷第1期计算机应用与软件Vol.29No.12012年1月ComputerApplicationsandSoftwareJan.2012基于排序集成的自动术语识别方法粟超(复旦大学计算机科学技术学院上海201203)摘要自动术语识别是信息抽取和文本挖掘等领域的关键步骤之一。基础自动术语识别算法采用某些方面的特征信息,有明显的局限性,引入局部Kemeny最优的方法来处理自动术语识别问题,并提出新的集成方法。实验结果表明该方法显著改善了自动术语识别的精准度。关键词排序集成自动术语识别文本挖掘信息抽取中

2、图分类号TP301文献标识码ARANKAGGREGATION-BASEDAUTOMATICTERMRECOGNITIONSuChao(SchoolofComputerScience,FudanUniversity,Shanghai201203,China)AbstractAutomatictermrecognition(ATR)isoneofthekeystepsinthefieldsofinformationextractionandtextmining.AsthebasicATRalgorithms

3、usecharacteristicinformationofcertainaspects,theyhavenoticeablelimitations.ThepaperintroducesthelocalKemenyoptimalmethodtodealwithATRissue,andpresentsanewrankaggregationmethod.Experimentresultsshowthatthemethodhassignificantlyimprovedtheaccuracyofautomat

4、ictermrecognition.KeywordsRankaggregationAutomatictermrecognitionTextminingInformationextraction文首先介绍了7种已有的用于解决ATR问题的基础算法;然后0引言详细描述了使用局部Kemeny最优化方法来对这7种基础算法进行集成;最后在一个生物领域的GENIA语料库上进行了实验自动术语识别ATR(Automatictermrecognition)要解决的问验证。题是如何从特定领域的文本语料库中自动提取出相关的术语

5、。这里术语指的是能表示领域知识的关键名词性单词或词组。术1统计学的ATR算法语提取是进一步分析术语间关系的前提,可以为知识抽取、文本挖掘、链接分析等提供结构化知识单元。由于其重要性,自动术ATR算法的核心部分是对候选术语的排序,目前采用的特语识别问题已经得到了广泛的研究和关注。征指标大多基于术语的分布特征、结构特征和领域相关性信息已有的自动术语识别方法通常包括两个步骤:第一步是预等,表1对7种ATR算法所采用的特征进行了归纳总结。处理阶段,它利用词性标注器和名词短语切分器等语言学工具表17种ATR算法所

6、采用的特征来处理文本语料库,从而提取出候选术语的集合;而关于术语变体识别技术,可以根据一个术语的词根形态来得到与此相关的术语的分术语的构术语的领候选项是是否参考算法名称具体实现方式。第二步基于统计的术语识别,简言之,就是利用布特征词特征域聚合度否预处理背景语料统计信息来赋予每个候选术语一个相应的权重,并输出具有最高TF有无无有无权重的k个候选术语作为自动识别的结果。不同的ATR方法采TFIDF有无有有无用了不同的统计信息,常见的ATR算法包括有TFIDF、C-Value、C-value有有无有无Weir

7、dness和GlossEX等。这些算法大多是关注于候选术语在领GlossEX有有无有有域语料库(或背景语料库)的某种统计信息,据此判断候选术语Weirdness有无无有有项作为术语的可能性,从而产生候选术语项的排序。然而,不同RIDF有无有有无的ATR算法关注于术语所应具备特性的不同方面,因此,它们对LR有无无有有于来自特定领域的同一个语料库的术语候选项会计算得到不同的排序结果。(1)TermFrequency(TF)是一种单纯的词频统计算法。在本文关注和研究一种排序集成问题,即如何从多个不同的排序结果

8、中产生一个全局的排序。为此,本文设计并实现了局收稿日期:2011-03-23。粟超,硕士生,主研领域:文本挖掘,Web部Kemeny最优方法,以及两个基础集成方法来解决问题。本数据挖掘。第1期粟超:基于排序集成的自动术语识别方法197某领域经常出现的词组有更大的可能是该领域的术语。通常用[4](7)GlossEX结合了两个方面的思想。一种是用域相关于在语料库中统计候选词,在语义预处理之后,对候选词进行性息的度量TD来进行评估的;TD与Wei

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。