信息自动标引技术

信息自动标引技术

ID:5540132

大小:177.00 KB

页数:18页

时间:2017-11-14

信息自动标引技术_第1页
信息自动标引技术_第2页
信息自动标引技术_第3页
信息自动标引技术_第4页
信息自动标引技术_第5页
资源描述:

《信息自动标引技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、信息自动标引技术2012年3月27日自动标引技术概述自动标引包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。文本挖掘领域:关键词抽取(KeywordExtraction)在计算语言学领域:术语自动识别(AutomaticTermRecognition)在信息检索领域:自动标引(AutomaticIndexing)自动标引属于文本信息抽取的范畴——文本信息抽取是从文本数据中抽取人们关注的特定的信息。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术。术语、叙词(主题词)、标引词包含关系图。叙词正式与非正式术语标引词全文文摘标题关键短语关键词标题词元词分类款目主

2、题词自然语言途径控制词表途径信息描述颗粒度自动抽词标引和自动赋词标引自动抽词标引:指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。自动赋词标引:指使用预先编制的词表中的词来代替文本中的词汇进行标引的过程。找到主题词转换主题词自动标引的五十年研究历程1957年开始进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程。20世纪90年代初到90年代末,自动标引研究渐渐冷却:全文索引逐渐被人采用,并且基本上能满足用户需要;传统的自动标引方法的效率达到极限;网络兴起之初的冲击与信息需求环境的改变。随着信息量的增加,全文索引的功能越来越难以满足实际需求,用户需要更加精确

3、的结果。互联网信息服务:例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高信息服务质量。研究历程1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位。基于绝对频率加权法到基于相对频率加权法到贝叶斯、遗传算法、决策树算法等机器学习方法到基于本体的自动标引方法到基于语言模型的关键词提取方法到基于集成学习的关键词抽取。1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引

4、领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位。1958年,Luhn提出基于绝对频率加权法的自动标引方法P.B.Baxendale提出从论题句和介词短语中自动提取关键词1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法1960年,Maron&Kuhns提出基于相关概率的赋词标引方法1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题1970年,LoisL.Earl利用句法分析等

5、语言学方法与词频统计方法相结合的方法来提取关键词1973年,Salton等提出基于词区分值的自动标引方法1975年,Salton等将VSM模型用于自动标引中1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统;1985年,Devadason提出基于深层结构标引方法;1990年,Deerwester&Dumais等提出潜在语义分析标引法;1993年,Silva&Milidiu提出基于相信函数模型的赋词标引方法;1995年,Cohen提出N-Gram分析法的自动标引方法;1997年,简立峰提出基于PAT树的关键词提取方法;1999年,Frank等人提出基于朴素贝叶

6、斯(NaiveBayes,NB)的关键词提取方法;1999年,Turney利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究;2001年,Anjewierden&Kabel提出基于本体的自动标引方法;2003年,Tomokiyo&Hurst提出了基于语言模型的关键词提取方法;2003年,Hulth利用Bagging算法进行了基于集成学习的关键词抽取;2004年,李素建提出基于最大熵模型的关键词提取方法;2006年,张阔提出基于SVM自动标引模型;2007年,Ercan,G.&Cicekli,I提出基于词汇链的自动标引方法。研究路线图图书情报领域语言学领域人工智能领域词

7、表资源主题提取知识学习三个领域图书情报领域,主要从资源构建角度进行研究,为主题标引提供了丰富的词表资源;语言学领域,从语言分析的角度研究了主题提取的机制与方法,利用词法知识、句法知识、语义知识以及篇章知识进行不同层次的主题提取研究;人工智能领域,主要从机器学习角度对自动标引进行了大量的研究,如利用启发式知识、标记数据的机器学习、无标记的机器学习、集成学习等方法的运用。两个维度自动化程度维度:先后经历人工标引、机器辅助标引、自动标引等阶段;知识复

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。