欢迎来到天天文库
浏览记录
ID:38186226
大小:163.12 KB
页数:4页
时间:2019-05-25
《基于组合词和同义词集的关键词提取算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第27卷第8期计算机应用研究Vol.27No.82010年8月ApplicationResearchofComputersAug.2010*基于组合词和同义词集的关键词提取算法蒋昌金,彭宏,陈建超,马千里,严桂夺(华南理工大学计算机科学与工程学院,广州510640)摘要:为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时
2、利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现;利用综合评分公式,充分考虑候选关键词的位置、长度、词性等特性。实验数据表明,该方法有较高的提取准确率。关键词:组合词;同义词集;中文网页;关键词提取中图分类号:TP391.1文献标志码:A文章编号:1001-3695(2010)08-2853-04doi:10.3969/j.issn.1001-3695.2010.08.010KeywordsextractionalgorithmbasedoncombinedwordandsynsetJIANGChang-jin,PENGHong,CHENJian-cha
3、o,MAQian-li,YANGui-duo(SchoolofComputerScience&Engineering,SouthChinaUniversityofTechnology,Guangzhou510640,China)Abstract:ThispaperpresentedaChinesewebpagekeywordsextractionalgorithmafterthestudyofexistingtechniquesforkeywordextraction.Thepresentedapproachcouldextremelyimprovetheperforma
4、nceofChinesewordsegmentationsystem.ThemodifiedChinesewordsegmentationsystemcouldrecognisemostofnewterms,phrasesandnon-loginwordsinChinesewebpageandthisisvitallyimportantforChinesekeywordextraction.Moreover,constructedasynsetdatabaseandusedaddingthefrequenciesofsynonymstogether,avoidingthe
5、co-occurrenceofsynonymsinoutput.Furthermore,createdaeva-luationfunctiontoscorecandidatekeywordbasedonitslocation,length,part-of-speech.Theexperimentresultsshowthattheproposedalgorithmhasbetterperformancecomparedwiththetraditionalkeywordextractionalgorithms.Keywords:combinedword;synset;Chi
6、nesewebpage;keywordextraction[2]标引。0引言国外对于关键词的自动抽取的研究起步较早,已经建立了[3]网络上文本信息的爆炸式增长,使得手工获取所需的文本一些实验或实用系统。Turney设计的GenEx系统将一篇文信息的难度日益增大。因此,怎样方便、快捷、准确、自动地获章看做一个短语集合,将遗传算法和C4.5决策树归纳算法用[4]取这些文本的关键信息就变得异常重要。于关键短语的抽取。Witten等人开发了KEA系统,该系统关键词是为了文献标引工作从报告、论文中选取出来用于采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型[5]表示全文主题内
7、容信息款目的单词或术语。关键词可以是单的权值,然后从文档中抽取关键短语。Barker等人利用名词[6]个词,如“计算机”,也可以是由两个或两个以上的单个词组成短语从文本中抽取关键词。Hulth提出了一种在学术论文的的组合词,如“计算机辅助教学”。国标GB7713-87中规定:每摘要中自动提取关键词的方法,采用一种叫做RuleInduction篇报告、论文选取3~8个词作为关键词,以显著的字符另起一的学习算法,利用实验证明了在文本表示中加入语言学知识,[7]行,排在摘要的左下方。关键词高度概括了文本的主要内容,可使抽取正确率大为
此文档下载收益归作者所有