基于html 语义分析的网页正文提取

基于html 语义分析的网页正文提取

ID:4121930

大小:105.00 KB

页数:4页

时间:2017-11-29

基于html 语义分析的网页正文提取_第1页
基于html 语义分析的网页正文提取_第2页
基于html 语义分析的网页正文提取_第3页
基于html 语义分析的网页正文提取_第4页
资源描述:

《基于html 语义分析的网页正文提取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第x期朱征宇等:基于HTML语义分析的网页正文提取3基于HTML语义分析的网页正文提取朱征宇任翔苑昆峰徐静秋田云艳(重庆大学计算机学院重庆400044)摘要:随着网络的迅猛发展,web服务已经成为研究的热点之一。本文介绍了一种常用的文件类型网页文件的文本信息预处理技术。该方法能够解析网页文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价

2、值。关键词:HTML;网页正文;web服务中图法分类号:TP391文献标识码:A文章编号:07020122ResearchonMainTextExtractionforChineseWebPagesBasedonSemanticAnalysisofHTMLZHUZheng-yu,RENXiang,YUANKun-feng,XUJing-qiu,TIANYun-yan(CollegeofComputer,ChongqingUniversity,Chongqing400044China)Abstract:Witht

3、heincreasingofInternet,webServicehasbeenthefocusofresearch.ThepaperproposesaChinesewebpagespreprocessingmethod.Themethodcanparsewebpages,andextractthemainpartfromthewebpages.Theexperimentshowsthatthemethodisfeasibletoparsewebpages.Themethodproposedinthispape

4、rcanbeusednotonlytoextractmaintextofwebpagesbutalsotogetotherelementofwebpages.Keywords:HTML;MainTextofWebPages;WebService第x期朱征宇等:基于HTML语义分析的网页正文提取31引言随着Internet的迅猛发展,尤其是WWW的全球普及,带来了现代社会的信息爆炸。在这众多的信息中,以网页形式出现的文本信息占了很大的比重[1,2]。如何从网页的海洋中找到符合用户要求的有用信息,成为一个很重要、迫

5、切的问题。通过对网页分析,我们发现网页通常包含两部分的内容:一部分是网页的正文内容,它反映了网页的主题信息;另一部分则是与网页主题信息无关的内容,包括导航条、广告信息、无关超链接等。而这些与网页主题无关的内容会严重影响搜索引擎、信息检索等web服务的效果,使用户不能快速找到有效信息。因此,能准确提取网页的正文内容成为web服务所要解决的首要问题。2HTML简介HTML是超文本标记语言“HyperTextMarkupLanguage”的英文缩写,是网页编写的基本语言。想要实现网页的正文提取,必须先要对HTML的

6、语法结构有个清楚的认识。HTML的语法中主要包括4部分内容:实体(Entity),元素(Element),属性(Attribute)以及注释(Comment)。[3]实体是指用作HTML标签的特殊字符(如<、>等)的HTML编码,也叫转义字符,主要用于表示一般无法用键盘输入的字符,或者可能和HTML中有特定含义的字符相互冲突的字符。实体一般以“&”开始,用“;”结束。常用的有:“ ;”表示空格;“<;”表示<;“>;”表示>。元素用来表示网页的结构和希望的操作,一个第x期朱征宇等:基于HTML语

7、义分析的网页正文提取3---------------------------------基金项目:高等学校博士学科点专项科研基金资助课题(20030611016)第x期朱征宇等:基于HTML语义分析的网页正文提取3第x期朱征宇等:基于HTML语义分析的网页正文提取3元素包括3个部分:开始标签,元素的内容和结束标签。开始标签可以表示成,其中element-name表示元素的名称,其相应的结束标签可以表示成。如超链接,表示一个超链接元素。HTM

8、L允许有些元素没有结束标签,如

等。还有些元素没有内容,如
等。属性用来表示元素的特性,它以“属性=值”的形式放在元素的开始标签中,如下例中,元素H1的属性align可以表示为。一个元素的开始标签中可以有多个属性,它们之间用空格隔开。注释包含在“”之间,用来增加HTML文档的可读性,不对网页的结构产生任何影响。如