欢迎来到天天文库
浏览记录
ID:26446441
大小:196.50 KB
页数:9页
时间:2018-11-27
《基于领域知识的关键词自动标引 - 刘华的个人网站》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于领域知识的关键词自动标引本文承“国家语言资源监测”(项目号:L2004-01-01-04)资助,特此致谢!刘华(暨南大学华文学院/海外华语研究中心广州510610)[摘要]基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。针对关键词标引测试难的问题,提出了细致完整、有一定可操作性的关键词标引的多点综合测试方法,关键词自动标引系统的综合平均得分为8.08。[
2、关键词]关键词标引分类语料库主题度[分类号]TP391.2KeyWordsAuto-IndexingSystemBasedonDomainRepositoryLiuHua(CollegeofChineseLanguageandCultureofJinanUniversity,Guangzhou,510610,China)[Abstract]Fromaclassedlarge-scalecorpus,extractedkeywordslabeledonwebpagesbyindexingspecialist;bringupandcalculatedwords’su
3、bjectdegreebystatisticalmodel,subjectdegreeexpresstextcontent’subjectconcept.Basedonsubjectdegree,constructakeywordsauto-indexingsystem,whichacquiredaverage8.08scores.Aimatthedifficultnessoftestinginkeywordsindexing,broughtforwardameticulous,integratedandmanipulabletestmeans,whichisc
4、alledmulti-featuresyntheticaltest.[KeyWords]KeyWordsIndexing;ClassedCorpus;SubjectDegree1关键词标引综述关键词自动标引根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词。关键词标引存在较大的难度,准确性不高,一致性难以保证,而且需要耗费巨大的人力物力。在信息高速发展的今天,随着网络的发展,精确专业的主题词人工标引很不切实际的。而且,网络发展对于文献标引的要求并不很高,更注重标引速度和时效。一个文档可以表示成一个集合,集合中的每个元素是具有频数、位置和
5、权重等属性的词语。因此,关键词标引的任务就是判断这个集合中哪些词语是关键词。关键词自动标引的任务需要解决两个主要问题:第一、如何从文档中提取出哪些词语作为关键词候选项。第二、怎样判断候选项是否是关键词,其依据是什么。第一步是基础,主要是词语抽取。一般是先用有词表法切出词语,检索时无须对字串的字间关系进行组配,检索速度快,但存在构造困难、更新滞后等不足;而且词表词条的数量和质量直接影响到标引质量,影响检索结果(吴春玉,2005)。另外一种是基于统计的无词表抽词法(基于字频统计的字串获取),或者切分后重新捆绑碎片(杨文峰,2001;王明燕,2003;宋华,2004)
6、。这当中的词语组配与冗余过滤非常重要,往往导致一个过与不足的问题,即高频串含有太多的垃圾组配;而关键串又组配不够。目前主要采用禁用词表过滤、语言学成词规则组配过滤、基于概念的组配等等(王明燕,2003;叶志清,2003)。9第二步是关键,主要包括权重计算。对抽取的词语在文中的词频、词语的相对词频、词语的反文献频率因子、词语在文中的位置、词性、词语本身的价值、词语的长度等进行分析,并引入某些统计方法,如互信息、TFIDF、最大熵等,对词语相应加权,最后按权重大小排序,并输出权值较大的一些标引词语。(戴璞,1998;丁璇,2002;王明燕,2003;叶志清,2003
7、)为了更准确地进行标引,有的系统往往增加一些模块,如:1、主题分析模块。主要针对文本中的多主题问题,试图通过主题块的划分,解决关键词标引时主题覆盖不周的问题,如万敏(2003)提出的滑动窗口式主题划分算法,Salton(1994)提出的常见的基于相邻段落相似度的主题划分算法等。2、隐含标引模块。有些反映主题的关键词可能并不出现在原文中,只有理解了内容语义,才能将隐含的关键词标引出来。多试图通过关键词语或概念组配、同近义词转换和聚类达到目的,如(李素建,2004),但实际效果并不理想。总体上说,关键词自动标引可分为两种:基于知识的和基于统计的。基于领域知识的关键词
8、标引通常见于图书馆文献标
此文档下载收益归作者所有