术语定义抽取的特征选择框架

术语定义抽取的特征选择框架

ID:46600872

大小:331.53 KB

页数:6页

时间:2019-11-26

术语定义抽取的特征选择框架_第1页
术语定义抽取的特征选择框架_第2页
术语定义抽取的特征选择框架_第3页
术语定义抽取的特征选择框架_第4页
术语定义抽取的特征选择框架_第5页
资源描述:

《术语定义抽取的特征选择框架》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第44卷第3期2012年6月南京航空航天大学学报JournalofNanjingUniversityofAeronautics&AstronauticsVol-44No.3Jun.2012术语定义抽取的特征选择框架潘淆顾宏斌赵芷晴(南京航空航天大学民航学院,南京,210016)摘要:为了进一步提升航空领域术语定义抽取的精度和敖率,提出了一种不依赣已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概惫问特征分布的差异对划分类剐的贡献。在分析谊框架争传统过淳

2、器特征选择方法对特征分布的影响寺々基础上,在航空撅域术语定义语料库中对实验结果进行了对比。结果表明,本文提出的方法在使用平衡随机森林方法时,取得的最好成绩为FI-measure=0.652,Frmeasure=-O.761,所需特征比倒从30%~40%降低到20%~30%;在使用直接分类方法时,Fl—measure成绩提高了2.S7倍,F:-measure成绩提高了3.1l倍,均优于过滤器方法和FisherScore方法。关键词:特征选择,不平衡语料;定义抽取;文奉分类f小析取赁中图分类号:TB941文献标识码:

3、A文章编号:1005—2615(2012)03-0399-06FeatureSelectionFrameworkResearchinExtractingTermDefinitionPanX“,GⅡHongbin,ZhaoZhiqing(CollegeofCivilAviation,NanjingUniversityofAeronautics&Astronautics。Nanjing,210016,China)Abstract:Afeatureselectionframeworknotrelingonexistin

4、gfeatureselectionmethodinextractingdef-initionsisextractedfromaviationprofessionalcorpus.Theframeworkcombinesbetween—classdistribu—tiondiffereneeandwithin.classdistributiondifferenceoffeaturestoexpresscontributionofsmalldis—juncts.Afteranalyzinginfluenceoftra

5、ditionalfiltermethodandtheframeworkonfeaturedistribution,experimentalresultsarecomparedincorpusoftermdefinitioncorpusofaviation.InBRFclassification,featuresrequiredtoobtainthebestscoresFI-measure=0.652,F2一measure一0.761isdecreasedfrom30%一40%tO20%一30%byusingthe

6、proposedframework.InSVMclassification,Fl-measureofclas-sifterusingtheframeworkisincreasedby2.57timesandF2-measureisincreasedby3.11times.There-suitsaresuperiortothefiltermethodandtheFisherScoremethod.Keywords:featureselection;unbalancedcorpus;definitionextract

7、ion;textcategorization;smalldis-junct随着国内航空业进入高速发展的新阶段,对从业人员的持续培训以及为航空安全、适航进行数据,知识的积累和分析成为一种常态的任务。这使得对基于计算机的培训技术(Computerbasedtraining,CBT)以及各种专业知识库的需求迅速增长,航空术语定义的抽取就是建立行业相关知识库和以知识库为基础开展智能培训的重要基础工作之一。使用分类方法处理术语定义抽取可以被看作是一个不平衡数据分类的过程04],特征选择是该过程中决定分类精度和效率的关键技术

8、之一.有实验表明,传统的过滤器(filter)特征选择方法由于倾向于选择高频词汇,会导致不平衡数据中的少数类别被淹没。因此在不平衡语料分类上的效果不够理想£l+“.Japkowiez在2003年指出,不基金项目:中国民航局民航应用研究基金(MHRD0723)资助项目.收稿日期:2011—06—20t修订日期:2012—01·15通讯作者:顾宏斌,男。教授,博士生导师,19

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。