欢迎来到天天文库
浏览记录
ID:6902189
大小:34.80 KB
页数:11页
时间:2018-01-30
《web信息自动标引方法比较》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、Web信息自动标引方法比较 (西安科技大学图书馆,陕西西安710054) 摘要:文章介绍了自动标引的基本原理和方法。讨论了基于知识库的网页自动标引、基于UCL的网页自动标引和基于遗传算法的网页自动标引方法,并对这三种网页自动标引方法进行了分析和比较。 关键词:网页;Web;自动标引;知识库;UCL;遗传算法 中图分类号:G252.7文献标识码:A文章编号:1007—6921(XX)07—0250—02 随着Internet的快速发展,Web已经成为跨全球的信息源。由于Inte
2、rnet信息量巨大且大量的信息为半结构化的,因此网页信息的标引有着非常重要的意义。目前虽然人工标引准确、检索效率高,但标引速度慢、成本高、标引一致性差,远远不能满足网络信息加工的需求,因而借助于计算机对网页进行自动标引,全面、准确、高效的自动提取网页的信息是十分必要的。本文在介绍自动标引基本原理和方法的基础上对目前已研究的三种web信息自动标引方法进行比较分析。 1自动标引基本原理和方法 自从1957年,美国IBM公司的H.P.Luhn首次将计算机技术引入文献标引领域,开创以自动标引为特征的现代标
3、引方法以来,人们试用了各种各样的方法,取得了不同程度的成功,我们可以将这些方法大致的归纳为五类,即:统计标引法、概率标引法、句法分析法、语义分析法和人工智能法。 1.1统计标引法 这种标引方法是最早使用的一种自动标引方法,它根据Zipf的“省力法则”(Principleofleasteffort)。统计标引法依据某词在文献中的出现频率与该词的文献区分功能有密切关系假设来选择标引词。一个词在文献中使用越频繁,就越有可能是一个指示主题的词。该方法包括:词频统计标引法、加权统计标引法、N-Gram法等。
4、 1.2概率标引法 概率标引法所依据的概率主要有相关概率、决策概率和出现概率。基于相关概率的标引法一是根据包含相同标引词的提问与文献的相关概率来标引划分文献;一是根据具有一定联系的文献之间的相关概率来标引特定的文献。 1.3句法分析法 句法分析法利用计算机自动分析文本的句法结构,鉴别词在句子中的语法作用和词间句法关系。它们一般都借助词典来制定词的语法范畴,以此作为句法分析的基础,最终抽出可做标引词的词语。 1.4语义分析法 语义分析标引法通过分析文本或话语的语义结构来识别文献中
5、那些与主题相关的词。诸如:潜在语义分析标引法、相信函数模型和语义矢量空间模型等。 1.5人工智能法 此方法实现自动标引的目的是让机器从事标引工作中的脑力劳动,即让计算机模拟标引员完成标引文献的工作。 23种网页自动标引方法和技术介绍 2.1基于知识库的网页自动标引〔1〕 中文网页的自动标引思想主要基于知识库原理。基于知识库的网页自动标引也是目前最成熟和最常用的一种方法。 2.1.1设计思路。任何标引——检索语言本质上都是一种主题概念的标识系统。基于知识库的网页自动标引即
6、是基于情报语言学的原理,实施用分类号类目词控制主题词,用主题词控制关键词,构建以概念语义网络——《中图法》为基础的知识库。在此知识库的基础上可以实现分类语言、主题语言和自然语言标引和检索的一体化,实现自动标引和自动分类。 2.1.2实施步骤。基于知识库的网页自动标引主要分主题标引和分类标引。无论是主题标引还是分类标引首先要建立知识库。人工采集训练用网页,用计算机预制一个多达几十万至几百万条的分类号—主题词对照数据库,即知识库。下面分别是主题标引和分类标引的步骤: 2.1.2.1主题标引。文本信息
7、提取;停用词切分;关键词切分;主题词规范;主题词权值计算及排序。 2.1.2.2分类标引。词典从网页文本信息中抽取关键词,完成主题受控标引,经权值计算、汇总、排序后形成该网页的标引主题词(串);将标引主题词(串)与分类号—主题词对应库所形成的矢量空间模式利用一定程序算法进行相似性匹配,找出该标引主题词(串)所属若干类号;所有类号经归并、整理得出每个类号的相似值,相似值最大的类即为该网页的分类号〔2〕。 2.2基于UCL的网页自动标引〔3〕 2.2.1基本思路。基于UCL的网页自动标引技术主要
8、将基于信息内容语义理解和智能实现的URL技术应用到网页自动标引中。UCL技术能够在信源制作阶段对资源内容按照预先设定的标准进行自动归类并贴上标签,用语言表达对内容的要求,建立以人为本的网络空间信息模型,通过内容筛选机制,主动送来有用网页。它根据用户访问某类信息的频度或用户的定制自动向用户提供相关的信息内容,从而改变用户找网页的信息获取方式,实现个性化的服务,并极大地节省用户用于查找网页内容的时间。UCL通常是对资
此文档下载收益归作者所有