基于dom树的信息推广平台设计

基于dom树的信息推广平台设计

ID:24671127

大小:54.12 KB

页数:3页

时间:2018-11-15

基于dom树的信息推广平台设计_第1页
基于dom树的信息推广平台设计_第2页
基于dom树的信息推广平台设计_第3页
资源描述:

《基于dom树的信息推广平台设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于DOM树的信息推广平台设计摘要:根据网页具有极高的相似结构和局部代码重复性的特点,总结Web页面信息自动化提取时的步骤。再根据Web页面的结构特点,利用DOM树将页面的信息提取出来,分析当步骤实现时HTML的预处理流程和HTML页面的解析过程,将提取出来的信息集中显示,以达到推送的目的。关键词:HTML页面;DOM树;正则表达式;微信公众平台1引言随着“互联网+”时代的到来,信息的来源,可信度,及时度越来越受到人们的关注,但现在大多数的信息都是来自Web网页,这样的信息多而杂,具网络资料显示,文本信息正以指数型式不断增长。为了节约时间,就有了基于Web页面挖掘技术的产生。实

2、现信息推送最好的选择就是微信公众平台。微信公众平台是最近几年新出的推送信息的一种新方式,它是腾迅公司在微信的基础上新增的功能模块,通过这一平台,个人和企业都可以打造一个微信的公众号,并实现和特定群体的文字、图片、语音的全方位沟通、互动。2Web页面挖掘如今Internet上很多网页都是动态生成的,通过用户填写表单提交信息,动态的生成DeepWeb页面,与此同时用户提交的大量数据信息被保存在网站的后台数据库中。由于页面中数据记录之间的代码具有极高的结构相似性,因此Web数据记录所对应的标签树之间自然也具有很高的相识性,所以网页往往具有相似的结构和局部代码重复性。因此数据的自动化提

3、取则可以分为以下几个步骤:(1)输入一些具有相同或相似结构的Web页面。(2)对这些Web页面进行预处理,就是将一些与网页无关的内容进行删除,将代码结构不严谨的HTML页面转换成结构严谨、易于处理的HTML页面。(3)将处理好的页面解析成以标签为队列的线性数据结构,接着利用标签队列的匹配去除页面中的广告,导航栏等。(4)按照一些页面性质将网页中的标签归类成为一些小集合,然后对这些小集合的有效数据进行自动抽取,并自动生成该类的模版页。2DOM标签树HTML通过定义一套标签来刻画显示的页面。依据标签的作用可将HTML的标签分为三类:(1)规划网页布局的标签。在视觉上,我们都知道网页

4、是由无数的方块嵌套在一起组成,而里面的内容则是由标签规划出来的。常用的标签有:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。