领域术语自动抽取及其在文本分类中的应用_刘桃

领域术语自动抽取及其在文本分类中的应用_刘桃

ID:38144819

大小:1.09 MB

页数:5页

时间:2019-05-25

领域术语自动抽取及其在文本分类中的应用_刘桃_第1页
领域术语自动抽取及其在文本分类中的应用_刘桃_第2页
领域术语自动抽取及其在文本分类中的应用_刘桃_第3页
领域术语自动抽取及其在文本分类中的应用_刘桃_第4页
领域术语自动抽取及其在文本分类中的应用_刘桃_第5页
资源描述:

《领域术语自动抽取及其在文本分类中的应用_刘桃》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第2期电子学报Vol.35No.22007年2月ACTAELECTRONICASINICAFeb.2007领域术语自动抽取及其在文本分类中的应用刘桃,刘秉权,徐志明,王晓龙(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001)摘要:本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能更准确有效地抽取领域术语.本文还将该算

2、法应用于文本分类,用于代替传统特征选择算法,实验表明,该算法能够显著提高文本分类的精度.关键词:领域术语;信息熵;正规化;文本分类;特征选择中图分类号:TP3912文献标识码:A文章编号:0372-2112(2007)02-0328-05AutomaticDomain-SpecificTermExtractionandItsApplicationinTextClassificationLIUTao,LIUBing-quan,XUZh-iming,WANGXiao-long(SchoolofCompute

3、rScienceandTechnology,HarbinInstituteofTechnology,Harbin,Heilongjiang150001,China)Abstract:Astatisticalmethodbasedoninformationentropyisproposedfordomain-specifictermextractionfromdomaincomparativecorpora.Ittakesintoaccountthedistributionofacandidatewordamongdomai

4、nsandwithinacertaindomain.Norma-lizationstepisaddedintotheextractionprocesstocopewithunbalancedcorpora.Theproposedmethodcharacterizesattributesofdo-main-specifictermmorepreciselyandmoreeffectivelythanprevioustermextractionapproaches.Domain-specifictermsareappliedin

5、textclassificationasthefeaturespace.Experimentalresultsindicatethatitachievesbetterperformancethantraditionalfeaturese-lectionmethods.Keywords:domain-specificterm;informationentropy;normalization;textclassification;featureselectionbootstrapping方法逐步扩大领域词汇数量.基于统计量度的

6、方1引言法是从领域分类语料中统计用词规律从而发现领域术语.已[1][3][8][2]领域术语自动抽取是指从一定规模的语料中抽取出能有的统计量度包括TFIDF、KFIDF、DR+DC.KFIDF量度反应某一领域文本特征或共性的词语,是自然语言处理中的与TFIDF相比,引入了词语的类别信息.DR和DC分别表示词[2,3]一项重要任务.术语抽取被广泛应用于本体构建、自动摘语的领域相关性和领域一致性,领域一致性是指词语在其相[4][5]要、语言模型等领域.单纯靠语言学专家抽取领域术语费关领域的所有文档中分布的一致性,它对获取高

7、质量领域术时费力,因而很难形成规模,开发一种自动化的方法来辅助术语起重要作用.该方法被用于英文文本的领域术语抽取并取语抽取显得尤为必要,能为许多面向领域的应用提供重要语得了很好的效果,但该方法没有考虑不同领域语料的规模以言学资源.及不同文档长度对领域术语抽取的影响.[9]许多研究者在领域术语抽取方面做了不少工作.通常被本文在前人工作基础上,基于如下两个度量标准提出采用的方法可以分为基于规则的和基于统计的方法两大类.了一种新的领域术语抽取方法,它能够更加准确、鲁棒地度量[4]基于规则的方法是通过预先设定许多规则模版,然后把待领

8、域术语的属性.(1)领域术语应该在不同领域类别间分布不处理语料中与规则模版相匹配的词语作为领域术语候选.规均匀.(2)领域术语在其相关领域的文档集中应尽可能分布均则方法的不足在于很难制定一个完备的规则集来穷尽所有语匀.我们采用信息熵来衡量以上两个分布,并根据不同领域语言现象,并且当已有许多

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。