浅谈基于dom树的信息推广平台设计

浅谈基于dom树的信息推广平台设计

ID:34076707

大小:63.82 KB

页数:4页

时间:2019-03-03

浅谈基于dom树的信息推广平台设计_第1页
浅谈基于dom树的信息推广平台设计_第2页
浅谈基于dom树的信息推广平台设计_第3页
浅谈基于dom树的信息推广平台设计_第4页
资源描述:

《浅谈基于dom树的信息推广平台设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、浅谈基于DOM树的信息推广平台设计1引言随着〃互联网+〃时代的到来,信息的来源,可信度,及时度越来越受到人们的关注,但现在大多数的信息都是来自Web网页,这样的信息多而杂,具网络资料显示,文本信息正以指数型式不断增长。为了节约时间,就有了基于Web页面挖掘技术的产生。实现信息推送最好的选择就是微信公众平台。微信公众平台是最近几年新出的推送信息的一种新方式,它是腾迅公司在微信的基础上新增的功能模块,通过这一平台,个人和企业都可以打造一个微信的公众号,并实现和特走群体的文字、图片、语音的全方位沟通、互动。2Web页面挖

2、掘如今Internet上很多网页都是动态生成的,通过用户填写表单提交信息,动态的生成DeepWeb页面,与此同时用户提交的大量数据信息被保存在网站的后台数据库中。由于页面中数据记录之间的代码具有极高的结构相似性,因此Web数据记录所对应的标签树之间自然也具有很高的相识性,所以网页往往具有相似的结构和局部代码重复性。因此数据的自动化提取则可以分为以下几个步骤:⑴输入一些具有相同或相似结构的Web页面。(2)对这些Web页面进行预处理,就是将一些与网页无关的内容进行删除,将代码结构不严谨的HTML页面转换成结构严谨、易

3、于处理的HTML页面。(2)将处理好的页面解析成以标签为队列的线性数据结构,接着利用标签队列的匹配去除页面中的广告,导航栏等。(3)按照一些页面性质将网页中的标签归类成为一些小集合,然后对这些小集合的有效数据进行自动抽取,并自动生成该类的模版页。3D0M标签树HTML通过定义一套标签来刻画显示的页lil0依据标签的作用可将HTML的标签分为三类:⑴规划网页布局的标签。在视觉上,我们都知道网页是由无数的方块嵌套在一起组成,而里面的内容则是由标签规划岀来的。常用的标签有:

<

4、/table>

等。(2)描述显示特点的标签。在网页中常看到为了引起我们注意的不同格式文字,它们都是由一些标签规定的,这类标签称为信息标签。常用的有:

等。G)超链接相关的标签:超链接是网页区别于普通文本最明显的特征之一。它表示着网页间的关系,整理出超链接标签可以挖掘出网页间的相关内容。4部分功能与实现的步骤4.1HTML的预处理现在大多数的网站都是以HTML文档形式向客户展开,每一

5、个页面中的数据和格式都是以一组成对的〃始标记〃与〃结束标记〃组成。例如:

,,等。在页lil中的标签可以相互嵌套使用。为了避免网页不兼容、代码错误的现象可能导致的页面解析失败,我们可以先除去一些无用的标签,如:,