基于决策树的关键短语抽取

基于决策树的关键短语抽取

ID:46870570

大小:108.50 KB

页数:8页

时间:2019-11-28

基于决策树的关键短语抽取_第1页
基于决策树的关键短语抽取_第2页
基于决策树的关键短语抽取_第3页
基于决策树的关键短语抽取_第4页
基于决策树的关键短语抽取_第5页
资源描述:

《基于决策树的关键短语抽取》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第9卷第1期2010年2月Vo1.9No.1Feb.2010江南大学学报(自然科学版丿Journa1ofJiangnanUniversity(Natura1ScienceEdition)基于决策树的关键短语抽取1211(1•苏州大学计算机学院,江苏苏州215006;2.江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏苏州215104)摘要:针対关键短语抽取工作可以转化为某种分类问题,利用决策树构造分类器解决关键短语的抽取。计分析表明,将文档中词的词频因子、首位置和词性作为决策树分类特征,并考虑词

2、在文档中出现的位置信息,对词的特征值进行一•定的调整,采用Bagging重采样技术进一步提高了决策树的抽取性能,使其完全匹配和部分匹配的F_检测率分别达到21.50%和54.49%。关键词:关键短语;抽取;特征;决策树中图分类号:TP18文献标识码:A文章编号:1671-7147(2010)01-0071-04KeyphrasesExtractionBasedontheDecisionTree(1.Schoo1ofComputerScienceandTechnology,SoochowUniversity

3、,Suzhou215006,China;2.JiangsuProvinceSupponSoftwareEngineeringRandDCenterforModernInformationTechnologyApplicationinEnterprise,Suzhou215104,China)Abstract:Inthepaper,weusedecisiontreetosolvethekeyphrasesextractionproblemforitcanbethoughtasakindofclassific

4、ationproblem.Basedonanalyzingthescientificandtechnica1literature,thefeatureswhatweselectedarethefactoroffrequency,thefirstpositionandthePOS,whichmakeacertainadjustmenttothefeaturesofthewordthroughthepositioninformationwherethewordappearsinthedocuments.Fin

5、ally,itmakestheextractionperformancefurtherimprovedbymeansoftheBaggingresamplingtechnique,whichgets21.50%and54.49%separatelyfortheF_measuresoffu11matchesandparticiaImatches・Keywords:keyphrases,extraction,feature,decisiontree抽取的、对表述该文档主题有实质意义的词。文档从国内外研究现状岀

6、发,关键短语抽取方而己关键短语抽取在自动分类、自动摘要等方面有着广有显著性工作。世纪70年代中期,机器学习技术泛的应用,它不仅是进行这些工作不可缺少的基础引入关键短语自动抽取中。这种方法通过对训练数和前提,也是互联网上信息建库的一项重要据进行训练获得统计参数,得到模型,最后对文档收稿日期:2009-08-12;修订日期:2009-10-20o作者简介:刘玲玲(1987-)汝,贵州贵阳人,计算机科学与技术专业木科生。主Email:jyao@suda・edu・cn刘玲玲,梁颖红,张永刚,韩艳,姚建民关键短语是

7、从文档的标题、摘要和止文中自动工作。上3172进行关键短语抽取。到1999年,Tumey将决策树应用于英文关键短语的抽取中1。决策树是一种基于机器学习的算法,为此,文中将决策树C4.5算法用于中文关键短语的抽取。文中所谓关键短语抽取问题是经过分词示进行的,即将文档中作者拟定的关键短语经分词后所得的单个词看为正例,用1表示,否则为反例,用0表示,从而把候选词看作是否关键短语的部分。刘华讨论了短语所具有的优势,他认为在汉语信息处理中,短语具有结构稳沱、语义完整和强统计意义的特点,比词和其他特征项更适合作为文木

8、【5]进行短语识别,将识别出来的短语作为候选关键短语合并为短语的判断依据;最后选择了简单的Bagging算法获得了较好的分类效果。1关键短语抽取特征的确定特征选収是规则半成系统中非常巫要的一部(6

9、述出词对彖的特性,都将对决策树的训练过程及片期的预测过程产生直接影响。在关键短语抽取系统屮,判断i个词是否是关键短语,影响因素很多,如词频(fre)、首位置(distance)以及这个词是否在文章标题、摘要等特姝位置出现。文中从这些

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。