欢迎来到天天文库
浏览记录
ID:24671127
大小:54.12 KB
页数:3页
时间:2018-11-15
《基于dom树的信息推广平台设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于DOM树的信息推广平台设计摘要:根据网页具有极高的相似结构和局部代码重复性的特点,总结Web页面信息自动化提取时的步骤。再根据Web页面的结构特点,利用DOM树将页面的信息提取出来,分析当步骤实现时HTML的预处理流程和HTML页面的解析过程,将提取出来的信息集中显示,以达到推送的目的。关键词:HTML页面;DOM树;正则表达式;微信公众平台1引言随着“互联网+”时代的到来,信息的来源,可信度,及时度越来越受到人们的关注,但现在大多数的信息都是来自Web网页,这样的信息多而杂,具网络资料显示,文本信息正以指数型式不断增长。为了节约时间,就有了基于Web页面挖掘技术的产生。实
2、现信息推送最好的选择就是微信公众平台。微信公众平台是最近几年新出的推送信息的一种新方式,它是腾迅公司在微信的基础上新增的功能模块,通过这一平台,个人和企业都可以打造一个微信的公众号,并实现和特定群体的文字、图片、语音的全方位沟通、互动。2Web页面挖掘如今Internet上很多网页都是动态生成的,通过用户填写表单提交信息,动态的生成DeepWeb页面,与此同时用户提交的大量数据信息被保存在网站的后台数据库中。由于页面中数据记录之间的代码具有极高的结构相似性,因此Web数据记录所对应的标签树之间自然也具有很高的相识性,所以网页往往具有相似的结构和局部代码重复性。因此数据的自动化提
3、取则可以分为以下几个步骤:(1)输入一些具有相同或相似结构的Web页面。(2)对这些Web页面进行预处理,就是将一些与网页无关的内容进行删除,将代码结构不严谨的HTML页面转换成结构严谨、易于处理的HTML页面。(3)将处理好的页面解析成以标签为队列的线性数据结构,接着利用标签队列的匹配去除页面中的广告,导航栏等。(4)按照一些页面性质将网页中的标签归类成为一些小集合,然后对这些小集合的有效数据进行自动抽取,并自动生成该类的模版页。2DOM标签树HTML通过定义一套标签来刻画显示的页面。依据标签的作用可将HTML的标签分为三类:(1)规划网页布局的标签。在视觉上,我们都知道网页
4、是由无数的方块嵌套在一起组成,而里面的内容则是由标签规划出来的。常用的标签有:
此文档下载收益归作者所有