欢迎来到天天文库
浏览记录
ID:52768976
大小:281.63 KB
页数:4页
时间:2020-03-30
《基于扩展锚文本的网页特征识别.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第26卷第2期苏州科技学院学报(自然科学版)Vol.26No.22009年6月JournalofSuzhouUniversityofScienceandTechnology(NaturalScience)Jun.2009基于扩展锚文本的网页特征识别严海兵(苏州科技学院图书馆,江苏苏州215011)摘要:基于源网页的信息比目标网页的更具有区别性,提出通过提取源网页扩展的锚文本,进行目标网页特征识别。分析了不同位置的扩展锚文本,获取其XPath表达式,用于提取网页特征,并通过实验分析其性能。关键词:网页特征;锚文本;XPath中图分
2、类号:TP391文献标识码:A文章编号:1672-0687(2009)02-0051-04网页特征识别是研究Internet信息搜索和网页自动分类的关键环节。由于网页表示与普通文本有所不同,因此,如何选择合适的特征对网页进行描述,成为网页识别中一个首要解决的问题。通常网页可以从两个层面进行描述:(1)采用超文本语言(HTML)编写的、半结构的文本文件;(2)通过超链(Hyperlink)连接起来的Internet中的一个节点。传统的网页特征识别研究着眼于(1)的描述,它仅凭借网页自身的结构和内容进行分析,忽略了网页之间相互的链接
3、信息。例如,孙承杰等学者把自然语言处理技术运用到网页文档中,利用网页中的HTML标记的结构和网页自身的内容统计信息,从网页正文内容中抽[1]取网页特征信息。殷贤亮等学者提出利用HTML标记的结构对网页的内容信息进行分块,把网页块表示成[2]特征向量,根据有序标记集识别网页特征信息。近年随着对PageRank、HITS等超链分析算法的深入研究,一些学者相继提出了基于超链分析的网页分类方法,它认为网页的链接可以传递网页的信任值,而信任值的大小可以表示网页和链接源网页分类特征的相似度。这一方法考虑网页(2)的描述,而忽视了链接结构信息
4、和网页内容信息不能等同这一事实。例如,刘[3]菁菁等学者提出利用网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页。[4,5]叶卫国等学者提出基于Hyperlink聚类的分类算法,不需要分析Web文档内容,只根据Web图来聚类。上述方法的不足之处在于多数网站的网页一方面与自己相关的网页链接,另一方面把与自己最相近的竞争对手的网页排除在链接之外。1相关概念在逻辑上,可以把Internet看作是位于物理网络上的一个有向图,网页表示节点,节点间的连接通过超链构成。网页A指向网页B的链接称为A的链出链接(简称链接)
5、,B的链入链接,称A为源网页,B为目标网页。与源网页链接相对应的描述文字称为锚文本(anchortext),例如:在源网页中有“苏州科技学院图书馆”这样的一条链接,其中“苏州科技学院图书馆”就是链接地址http:∥library.usts.edu.cn的锚文本,链接地址所对应的网页为目标网页。作为链接的描述文字,锚文本一般不是由目标网页作者编写的,通常是源网页作者对目标网页内容描述和评价。据统计有近50%的网页缺少对本身网页内容和关键字描述最为权威的<
6、metaname="description"content="内容描述">和标签,因此,在通常情况源网页的信息甚至比目标网页的更具有区别性,结[6]合链接锚文本和目标网页本身内容描述目标网页比其本身更加有力。————————————[收稿日期]2008-11-14[作者简介]严海兵(1974-),男,安徽安庆人,工程师,硕士,研究方向:XML应用技术、知识发现。52苏州科技学院学报(自然科学版)2009年2扩展锚文本源网页的锚文本对于描述目标网页
7、内容和性质意义重大,锚文本形式简短,内容概括性强,具有很强的类别归属信息,其内容比目标网页本身更能精确地概述网页的主题信息,但在实际应用中,单纯利用锚文本进行特征识别存在不足,客观上主要有两个因素:(1)锚文本的描述可能不具备提取具有检索和分类意义的特征识别词。例如:“红楼梦”通过锚文本“红楼梦”不能得到归属于“古典小说”类的特征。(2)锚文本的描述可能没有实质意义。例如:“下一页”锚文本“下一页”没有实质
8、意义。因此,为了获得目标网页具有分类意义的特征识别词,需要扩展锚文本取词范围。一种做法是扩大范围至整个源网页,取源网页的特征词集赋予目标网页。这种做法的不恰当之处和基于超链分析的网页分类方法一样,用整个源网页代替局部锚文本的特征忽略了局部的相对性。Interne
此文档下载收益归作者所有