欢迎来到天天文库
浏览记录
ID:12665623
大小:94.50 KB
页数:7页
时间:2018-07-18
《一种改进的kea 关键词抽取算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一种改进的KEA关键词抽取算法研究心智与计算,Vol.5,No.2(2011)文章编号:MC-2011-8收稿日期:2011-08-15出版日期:2011-9-30©2007MC–厦门大学信息与技术学院一种改进的KEA关键词抽取算法研究陈平,周昌乐,练睿婷(厦门大学人工智能研究所,福建厦门361005)chengfeng200641@163.com摘要:本文在关键词抽取工具KEA(KeyphraseExtractionAlgorithm)的基础上,对候选关键词的选取方法及其特征属性抽取进行改进。考虑到KEA中使用的
2、贝叶斯分类器对特征间的独立性假设引起的一些问题,本文采用了与KEA不同的机器学习方法—人工神经网络来训练模型。我们将改进后的模型应用于中文关键词抽取。实验结果表明,改进后的关键词抽取模型对于中文关键词的抽取效果要优于KEA。关键词:关键词抽取;KEA;机器学习AnImprovedApproachtoKeywordExtractionUsingKEACHENPing,ZHOUChang-le,LIANRui-ting(InstituteofArtificialIntelligence,XiamenUniversity
3、,Xiamen361005,China)chengfeng200641@163.comAbstract:ThecandidatekeywordextractionmethodandthefeaturesfortheclassificationhavebeenimprovedontheKeyphraseExtractionAlgorithmtool(KEA)inthispaper.Withrespecttotheindependenceassumptionofdifferentfeatures,whichareoft
4、eninaccurate,onBayesclassifier,anothermachinelearningalgorithm–ArtificialNeuralNetworkshasbeenreplacedinKEA.TheimprovedapproachhasbeenappliedonChineseKeyphraseExtraction.TheexperimentalresultsshowthattheimprovedapproachworksbetterthantheoriginalKEAfortheChines
5、ekeywordscase.Keywords:KeywordExtraction,KEA,MachineLearning1引言随着因特网的迅速发展,我们碰到的电子文档越来越多,面对海量的网络资源,人们可能会迷失方向。如果文档提供了总结信息,我们就可以通过这些信息了解到文档的主要内容。一些文档会有作者列出的关键词,这些关键词就是非常有用的总结信息。它们是文档的浓缩,是对文档内容简洁精确的描述。它们还有很多更进一步的应用,比如文本分类,文本聚类,文本检索等等。一种改进的KEA关键词抽取算法研究文档关键词一般都是作者或者
6、专业的标注者手工标注的,但是并不是所有文档都会有已经标注好的关键词,人工标注不仅费时费力,而且主观性强,抽取不当往往对下一步的应用造成消极影响,因此关键词的自动抽取具有一定的研究价值[1]。1相关研究关键词抽取技术的研究已经相当广泛,具体可分为建立词关系树、简单统计、机器学习等几种[2]。ChienLF提出了基于PAT树的关键词抽取算法[3],主要思想是采用PAT树结构,同时利用词之间的互信息来抽取中文关键词。从相关文章[4]的实验结果可以看出:该方法抽取关键词的效果较佳,但是构建PAT树的时间和空间成本太大,抽取
7、效率相对较低。简单统计方法主要是进行N-Gram[5]、词频[6]、TFIDF[7]等统计信息获得关键词,这种方法简单易行,通用性强,但由于只是用几个简单的统计信息来判断是否为关键词的这一标准,使得抽取关键词准确率并不高。机器学习方法主要是通过训练数据进行训练获得统计参数,进行关键词抽取,如NB[8]、最大熵模型[9]、SVM[10]、GENEx[11]、KEA[1]等,这种方法不受句型限制,可以提取出未登录词,但会出现数据稀疏,过拟合学习的问题。2KEA简介KEA是EiberFrank等人提出的用于实现关键词抽取
8、的算法,该算法运用的是机器学习中的朴素贝叶斯分类器从已经标注出关键词的文档中学习出模型,然后应用训练好的模型从新文档中抽取出关键词[12]。为了得到训练模型,首先需要一批已手工标注关键词的文档作为训练集,KEA对每篇文档进行处理识别候选关键词,此过程主要用到标点去除、短语识别、停用词过滤、词干提取等技术,接着将所有文档的候选关键词作为候选关键词集合。KEA主
此文档下载收益归作者所有