面向分类的网页主题特征提取.pdf

面向分类的网页主题特征提取.pdf

ID:53002695

大小:427.82 KB

页数:4页

时间:2020-04-10

面向分类的网页主题特征提取.pdf_第1页
面向分类的网页主题特征提取.pdf_第2页
面向分类的网页主题特征提取.pdf_第3页
面向分类的网页主题特征提取.pdf_第4页
资源描述:

《面向分类的网页主题特征提取.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第27卷第9期计算机应用研究Vol.27No.92010年9月ApplicationResearchofComputersSep.2010*面向分类的网页主题特征提取1,222刘建,孙鹏,倪宏(1.中国科学院研究生院,北京100049;2.中国科学院声学研究所国家网络新媒体工程技术研究中心,北京100190)摘要:提出一种基于页面空间特征、视觉特征和内容特征的主题相关性判别方法,通过主题相关度大小量化描述不同内容的重要性,并采用混合加权方法从主题相关节点中提取网页的主题特征。分类实验结果表明,相比传统的FullDoc全文分类,基于此方法提取的主题特征具有更好的分类效果。关键词:网页分类;

2、主题特征;主题相关性中图分类号:TP301文献标志码:A文章编号:1001-3695(2010)09-3399-04doi:10.3969/j.issn.1001-3695.2010.09.053Web-pagetopicalfeatureextractionforWeb-pageclassification1,222LIUJian,SUNPeng,NIHong(1.GraduateUniversityofChineseAcademyofSciences,Beijing100049,China;2.NationalNetworkNewMediaEngineeringResearchCen

3、ter,InstituteofAcoustics,ChineseAcademyofSciences,Beijing100190,China)Abstract:Thispaperpresentedamethodthatidentifiesthetopicalcorrelativityofonenodebasedonthespatialfeatures,vi-sualfeaturesandcontentfeaturesofthepage,quantitativelydescribedthedifferentdegreeofimportanceofthecontent,andextracted

4、thetopicalfeaturesthroughthehybridweightingmethod.ExperimentalresultsshowthatWeb-pageclassificationbasedontheextractedpagefeatureshasbettereffectcomparedtothetraditionalFullDoctextclassification.Keywords:Webpageclassification;topicalfeatures;topicalcorrelativity[5]网页分类按照网页主题来自动划分其所属类别,是组织和chütter

5、利用网页文本的稠密程度进行页面分割,将密度最大管理网页信息的有力手段,是Web个性化服务的重要基础。的作为主题,仅利用页面的内容特征对文本的主题相关性予以当前Web页面通常含有很多与网页主题无关的噪声信息,如判别;d)还有一种效果比较好的思路是基于网页的分块结构,[6][7]广告栏、导航条和版权信息等,它们分布于网页四周,甚至附着Song等人基于VIPS页面分割算法将网页分块,从内容特在正文旁边,一定程度上影响了网页分类的效果。征和视觉特征两方面计算每个块的权重大小,选择权重最大的[8]本文提出的基于混合特征的网页主题提取方法的主要思块作为页面的主题;Lin等人通过网页标签〈table〉

6、分块,根想是:依据网页中不同信息所处的位置、占据的空间大小、视觉据特征词在每个块中出现的概率计算每个块的熵值,选择熵值[9]显示效果和内容的不同而具有的不同重要度,以网页中的容器最大块作为主要内容;Debnath等人以网页中块结构为单类节点为最小单位,从空间、视觉和内容三个特征计算每个节位,提取符合某一个特征的所有块结构,然后进行K-means聚点的主题相关度大小,并据此加权生成网页的主题特征向量用类,最后选择聚类效果最好的集合为目标,并将集合中所有分于网页分类。实验结果表明,基于此方法提取的网页主题内容块的文本作为主要内容。这种方法对于结构规范的网页有很保证了主题信息的完整性,与传统的

7、基于文本的全文分类方法好的主题提取效果,但是忽略了网页中其他部分的主题信息,相比,分类效果有一定的提高。对结构不规范的网页效果不是很好。从这些相关研究中可以看出,页面的内容特征、空间特征和视觉特征对于网页主题信1相关研究息的判定均有一定的指导作用。本文从这些特征出发,研究页面中影响节点主题相关性的因素,提出一种计算节点主题相关在Web信息提取领域已经有大量的研究工作,主要有以度大小的方法来量化描述页面中不同内容的重要程度,最后基下几

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。