关键词抽取方法的研究

关键词抽取方法的研究

ID:39257700

大小:372.22 KB

页数:4页

时间:2019-06-29

关键词抽取方法的研究_第1页
关键词抽取方法的研究_第2页
关键词抽取方法的研究_第3页
关键词抽取方法的研究_第4页
资源描述:

《关键词抽取方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第31卷第18期计算机工程2005年9月Vol.3118ComputerEngineeringSeptember2005人工智能及识别技术文章编号10003428(2005)18019403文献标识码A中图分类号TP391.14关键词抽取方法的研究郑家恒卢娇丽(山西大学计算机与信息技术学院,太原030006)摘要考虑了词频和位置两个因素并采用非线性函数和成对比较法相结合的方法来计算候选词的权重最终改进了候选词权值的计算提高了关键词抽取的精度关键词非线性函数成对比较法关键词抽取StudyofAnImprovedKeywordsDis

2、tillationMethodZHENGJiaheng,LUJiaoli(InstituteofComputerandInformationTechnology,ShanxiUniversity,Taiyuan030006)AbstractThispaperconsidersthetwofactorsoftermfrequencyandlocationandemploysthenon-linearfunctionandthe“doublecomparingmethod”tocalculatethetermweighting.Fin

3、allyitimprovesthecalculationofthetermweightingandattainesthegoalsofkeywordsdistillationprecisely.KeywordsNon-linearfunctionDoublecomparingmethodKeywordsdistillation文献关键词的抽取在自动分类自动摘要自动标引等抽取的准确率我们在词库中添加了一个由将近800个词条方面有着广泛的应用它不仅是进行这些工作不可缺少的基组成的经济类专业词库以保证分词的质量这些词条一部分础和前提也是

4、互联网上信息建库的一项重要工作关于关来源于我们所用的语料库中的经济论文给出的400个关键键词抽取的常用和经典的方法是统计方法通过确定候选词词另一部分来源于网上下载的经济学名词解释词典其中的权重从中筛选出权重较大者作为最终的关键词因此收录了将近400条经济学词汇这样像通货膨胀通候选词权重的确定就成为文献关键词抽取的核心候选词的货紧缩贴现率恩格尔曲线凯恩斯主义这样的权重是由它反映文献主题的重要性决定的能够较好反映文词汇就可以被有效识别从而使文章包含更多的领域相关词献主题的词语将被赋予较大的权值过去的研究表明词频和主题相关词和位置在反映

5、候选词和文献主题的关系上起着重要的作用2停用词的过滤而且围绕这两个因素也提出了许多计算候选词权重的方停用词是指那些不能反映主题的功能词例如的案但结果均不是十分理想本文采用非线性函数和成对地得之类的助词以及像然而因此等只能比较法相结合的方法综合考虑位置和词频两个因素最反映句子语法结构的词语它们不但不能反映文献的主题终给出候选词的权重实现了关键词的自动抽取而且还会对关键词的抽取造成干扰有必要将其滤除停用1候选词的确定词确定为所有虚词以及标点符号1.1候选词的抽取形式3记录候选词在文献中的位置我们所用的语料库由100篇经济类论文建成在对

6、文献为了获取每个词的位置信息需要确定记录位置信息的进行分词词性标注和必要的人工校对以后将每个词以记方式以及各个位置的词在反映主题时的相对重要性录的形式抽取出来这样每篇论文就可映射为一张候选词出现在标题中的词比出现在摘要中的词更能反映文献的表而所有论文则可构成一个候选词表集候选词词表由词主题而出现在摘要中的词比出现在正文中的词在反映文献语词性词频位置4项组成如在凯恩斯主义与马主题方面更有价值根据以往的研究结果初步设定标题的克思主义危机成因的理论差异与启示一文中凯恩斯主位置权重为5摘要和结论部分为3正文为1同时把标义经济危机在候选词表

7、中的记录形式如表1题摘要和结论正文分别称为5区3区和1区但这个表1候选词词表确定是不精确的在本文的后续部分将会用成对比较法词语词性词频位置进行精确化凯恩斯主义n145确定了文章各个部分的位置权重之后就可以用数字标经济过剩n253签对每个位置做一个标记做法是在标题的开头标上数字5在摘要和结论部分的段首标上数字3在正文的段首标上1.2建立候选词表的条件(1)分词词库的扩充作者简介郑家恒(1948)女教授研究方向为自然语言处理尽管现在分词软件的准确率已经比较高了但是它对卢娇丽硕士生专业术语的识别率还是很好所以为了进一步提高关键词收稿日期

8、2004-08-03E-maillj10213@eyou.com194万方数据数字1这样当软件逐词扫描统计词频时就可以记录每响程度之比由a构成一个两两比较的判断矩阵ij个词的位置信息需要注意的是对于位置信息我们采取全A=(a)通过对矩阵进行计算得到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。