基于内容的web网页信息处理方法

基于内容的web网页信息处理方法

ID:5321725

大小:150.22 KB

页数:6页

时间:2017-12-08

基于内容的web网页信息处理方法_第1页
基于内容的web网页信息处理方法_第2页
基于内容的web网页信息处理方法_第3页
基于内容的web网页信息处理方法_第4页
基于内容的web网页信息处理方法_第5页
资源描述:

《基于内容的web网页信息处理方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、http://www.paper.edu.cn基于内容的Web网页信息处理方法杜娟,关泽群(武汉大学遥感信息工程学院,湖北武汉430079)dusongjuan@sina.comzequng@public.wh.hb.cn摘要:本文提出了一种新的基于内容的网页信息处理方法:利用顺序滤波直接对网页页面内容进行过滤处理,再根据设置的阈值将过滤后的网页页面变为黑白页面,从而提取出网页中的图像信息。对多个包含图像信息的网页进行处理的结果表明此方法能较有效的提取出网页中的图像信息。基于此方法和网页文本信息提取方法的不同原理,还尝试构建了一种基于内容的

2、网页信息处理系统。关键词:Internet;信息提取;顺序滤波;图像信息1引言自从WWW1991年诞生以来,已经发展成为拥有近亿用户和约400万站点、3亿页面的巨大分布式信息空间,而且其信息容量仍在以指数形式飞速增长。用户在享受它方便和快捷的同时,也为其所包含的庞大芜杂的信息所淹没,人们要在日益增加的浩瀚的信息资源中找出自己需要的内容,无异于大海捞针。如何快速从Internet上庞大芜杂的信息中找到自己感兴趣的有用信息已成为一个很重要、迫切的问题。目前大多数运行在Internet上的信息过滤和信息提取系统主要是处理文本信息,有关图像信息过滤

3、与提取方面的研究较少。本文提出了一种新的基于内容的网页信息处理方法,利用顺序滤波从网页页面中的图文混合信息中提取出图像信息。2Web网页文本信息的提取与过滤2.1网页信息的基本特征(1)文本前有明显的标识符。在忽略图像和表格等数据的情况下,通常可将HTML信息分成两部分:一是起控制作用的标识符(TagString),由“〈”和“〉”以及它们中间的字串组成,如〈TITLE〉;二是文本字串,即浏览网页时所看到的字符。一对标识符之间的空间称为容器(Container),容器中可填入文本字串。(2)完整句少。大多数网页中,文本字串不是很多,因而完整

4、的句子少,语义上的跳跃性比较大,给文本的分析造成了一定难度。(3)文本属性信息较为丰富。与纯文本不同,网页中的文本可以具有丰富的属性,如颜色、字体、是否加粗等。http://www.paper.edu.cn(4)结构信息明显。在HTML文档中,识别标题、段首句等结构信息都用特定的标识符来标明。2.2对网页文本信息的提取与过滤一种较常用的网页文本信息提取和过滤方法是采用布尔模型对文本信息进行处理。该模型的过滤方法是:用户把表示网页信息的关键词构成布尔表达式作为信息查询条件,在一次查询中,如果两个关键词之间用AND相关联,则在过滤后的网页中必须

5、同时包含这两个关键词,若用OR相关联,则只要有一个关键词包含在过滤后的网页中即可。由于网页中的图像信息是以图像超链接的形式呈现给用户的,因此这种基于HTML文档结构的信息处理方法不能提取出图像信息。输入网页的源代码图像信息文本信息输入关键词,构建布尔表达式逐行寻找标识符的符号去除标识符中包含的字符串提取出一对标识符之间的文字输出符合表达式的文本信息图1网页文本信息提取程序流程图将某大学主页的源代码以文本文件形式输入到程序中,输出结果如下图所示:http://www.paper.edu.cn图2Web网页文本信息处理结果3基于内容的网页信息提

6、取与过滤3.1顺序滤波的原理顺序滤波是中值滤波的一种改进滤波,在去除图像中的噪声、对均匀且连续变化的灰度值区域平滑的同时,对其区域边缘进行了锐化。设有一组一维序列S1,S2,S3,⋯,用顺序滤波对此一维序列进行处理。令滑动窗口大小为m(m为奇数),在对此一维序列相继抽取m个数,Si-n,⋯,Si-1,Si,Si+1,⋯,Si+n,按其数值大小进行排序后,再对窗口中按大小顺序排列的m个数依次抽取(m+1)/2个,根据公m−1式Δj=Ri+j-Ri+j-n(式中0≤j≤n,n=,Ri表示排序后的像素值)寻找具有最小差值2的范围Δx。若最小差值范

7、围是唯一的,则滤波输出值为nfi=∑λjRi+j+x-nj=0nm−1式中λj∈[0,1]且∑λj=1,n=,i∈I(I表示自然数集合)。若最小差值范围出j=02现K次,则滤波输出值为K次加权之和的平均值。3.2基于内容的网页信息提取与过滤基于内容的网页信息过滤是对网页中的图文混合信息进行过滤,提取出图像信息。http://www.paper.edu.cn输入网页选择滤波器的大小以及叠代次数根据所选的滤波器大小,相继抽取m个数m−1Si-n,…,Si-1,Si,Si+1,…,Si+n(n=)2经过排序后,Ri-n≤…≤Ri-1≤Ri≤Ri+

8、1≤…≤Ri+n从中依次抽取(n+1)个数,由公式Δj=Ri+j-Ri+j-n(0≤j≤n)找出具有最小差值的(n+1)个数若最小差值只出现了一次,则滤若最小差值出现了k次,则滤

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。