欢迎来到天天文库
浏览记录
ID:9037595
大小:186.50 KB
页数:4页
时间:2018-04-15
《广告屏蔽软件开发技术方案》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、深圳北大青鸟嘉华学校–以就业为导向,学习零起点,是深圳高端IT职业技能培训学校领导品牌!广告屏蔽软件开发技术方案【摘要】广告、垃圾网页充斥Internet,给用户浏览造成了极大的不方便,而且极大的消耗了网络的带宽以及终端用户系统的资源。本技术方案在参考研究比较大量广告屏蔽技术后,提出了一种基于关键词列表以及BHO(BrowserHelperObjects)的垃圾网页过滤方案。【关键词】垃圾网页广告屏蔽BHOHOOK一、概述目前网络上流行的广告技术主要有分为以下三种:弹出式窗口,浮动式窗口以及内嵌式广告图片。大量不必要
2、的信息占满了整个显示区域,使得有效信息的获取变得很难。这些垃圾网页主要都是依靠JavaScript(简称JS)实现的。这种脚本语言是在客户端下载完成后,由客户端的JVM解释执行的。因此它是一种客户端执行的语言,即runatclient。其中,弹出式与浮动式窗口主要是由window.open()或者window.showModelessDialog()等创建新窗口等命令完成的。而内嵌式广告图片则是由其编写的一些特效函数做到的。和样式表文件(CSS)相似,这些运行的代码未必直接写道用户所访问的网页之中,他可以通过如3、riptlanguage=javascriptsrc="example.js">形式的连接隐藏在后台,直接对所下载到的HTML文档进行分析并不能完全有效的屏蔽这些语句。接下来将对国内外研究现状具体的实现技术进行叙述。二、国内外研究现状垃圾网页过滤技术发展到现在已经很成熟了,各大公司的产品的准确率和招回率都已经能达到很高的水准。目前在这个领域比较领先也比较流行的几款软件有MicrosoftIE6.0中自带的网页过滤组件,Maxthon公司的Maxthon以及MyIE2系列浏览器中附加的垃圾网页过滤插件4、,GoogleToolbar也具有网页过滤功能;国内在这领域的软件也有很多,如3721上网助手,雅虎助手以及百度工具栏都有这方面的功能。在大多数软件中用户都可以设置网页过滤的级别,如只过滤弹出网页,过滤浮动窗口,或者过滤所有的广告,包括页面当中的flash动画以及Gif动画。由于上述公司的实现技术相对保密,在相对比较短的时间内很难了解到他们实现的核心技术。但通过这几天对这几款软件的使用与分析,发现他们主要是使用垃圾网页关键词列表技术实现的。如Maxthon浏览器中的广告猎手就维护了一个专家关键词列表。在下载网页并执行5、其中的JS代码时,浏览器将对JS指定需要下载的连接进行过滤,如有与关键词列表项符合的链接则取消其下载(具体取消方法将在下一章进行介绍),并将所取消的连接写入相应的数据存储文件中,并在过滤网页列表中加入该记录。用户只需双击该条记录就可以重新加载该页面。其他的过滤技术也都大同小异,在此就不再复述了。三、实现技术3.1预备知识经过对现存的网络产品的比较,本文将采用基于关键词列表以及BHO的技术实现对垃圾网页的过滤。下面现介绍一下BHO。BHO(BrowserHelperObjects)是浏览器帮助对象,是一种实时组件对象模6、型(in-processCOM)。浏览器将会在每次打开的时候加载它。BHO和浏览器运行在相同的内存区域,并且可以对窗口及其模型作任意的操作。例如,它可以检测到浏览器的后退、前进和文件完成等事件,访问浏览器的菜单和工具栏而且可以进行改动,在当前页面创建窗口等操作,简而言之,BHO就好像一个我们派去的间谍,监视并控制着浏览器的动作。因此我们要进行IE开发,BHO应该是我们最得力的助手。培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)深圳北大青鸟嘉华学校–以就业为导向,学习零起点,是7、深圳高端IT职业技能培训学校领导品牌!浏览器访问网页是按照一下这个过程进行的:Navigate->NavigateComplete->DownloadBegin->DownloadComplete->DocumentComplete我们所使用的BHO就好像钩子(HOOK),可以hook到这些典型的IE事件当中。我们也正是通过控制这些事件进行过滤。3.2总体设计上面是广告过滤插件的结构图。由于对弹出式窗口、浮动式窗口和网页内容中的广告图片的过滤方法有所不同,而且需要根据用户的配置进行选择过滤,本文将这三种过滤方式化分为8、三个模块进行实现。数据存储模块是用来存储被过滤网址的相关信息,其中包括过滤网址的类型(弹出式窗口,浮动式窗口还是网页内部图片),当前的屏蔽时间,其网址的URL还有过滤规则。将其按照一定的格式存储在数据文件中,以备读取。关键词维护模块主要用来维护过滤规则关键词,它包括系统默认的专家关键词,以及用户通过用户接口注册的新关键词,还有维护在线更新关键词
3、riptlanguage=javascriptsrc="example.js">形式的连接隐藏在后台,直接对所下载到的HTML文档进行分析并不能完全有效的屏蔽这些语句。接下来将对国内外研究现状具体的实现技术进行叙述。二、国内外研究现状垃圾网页过滤技术发展到现在已经很成熟了,各大公司的产品的准确率和招回率都已经能达到很高的水准。目前在这个领域比较领先也比较流行的几款软件有MicrosoftIE6.0中自带的网页过滤组件,Maxthon公司的Maxthon以及MyIE2系列浏览器中附加的垃圾网页过滤插件
4、,GoogleToolbar也具有网页过滤功能;国内在这领域的软件也有很多,如3721上网助手,雅虎助手以及百度工具栏都有这方面的功能。在大多数软件中用户都可以设置网页过滤的级别,如只过滤弹出网页,过滤浮动窗口,或者过滤所有的广告,包括页面当中的flash动画以及Gif动画。由于上述公司的实现技术相对保密,在相对比较短的时间内很难了解到他们实现的核心技术。但通过这几天对这几款软件的使用与分析,发现他们主要是使用垃圾网页关键词列表技术实现的。如Maxthon浏览器中的广告猎手就维护了一个专家关键词列表。在下载网页并执行
5、其中的JS代码时,浏览器将对JS指定需要下载的连接进行过滤,如有与关键词列表项符合的链接则取消其下载(具体取消方法将在下一章进行介绍),并将所取消的连接写入相应的数据存储文件中,并在过滤网页列表中加入该记录。用户只需双击该条记录就可以重新加载该页面。其他的过滤技术也都大同小异,在此就不再复述了。三、实现技术3.1预备知识经过对现存的网络产品的比较,本文将采用基于关键词列表以及BHO的技术实现对垃圾网页的过滤。下面现介绍一下BHO。BHO(BrowserHelperObjects)是浏览器帮助对象,是一种实时组件对象模
6、型(in-processCOM)。浏览器将会在每次打开的时候加载它。BHO和浏览器运行在相同的内存区域,并且可以对窗口及其模型作任意的操作。例如,它可以检测到浏览器的后退、前进和文件完成等事件,访问浏览器的菜单和工具栏而且可以进行改动,在当前页面创建窗口等操作,简而言之,BHO就好像一个我们派去的间谍,监视并控制着浏览器的动作。因此我们要进行IE开发,BHO应该是我们最得力的助手。培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)深圳北大青鸟嘉华学校–以就业为导向,学习零起点,是
7、深圳高端IT职业技能培训学校领导品牌!浏览器访问网页是按照一下这个过程进行的:Navigate->NavigateComplete->DownloadBegin->DownloadComplete->DocumentComplete我们所使用的BHO就好像钩子(HOOK),可以hook到这些典型的IE事件当中。我们也正是通过控制这些事件进行过滤。3.2总体设计上面是广告过滤插件的结构图。由于对弹出式窗口、浮动式窗口和网页内容中的广告图片的过滤方法有所不同,而且需要根据用户的配置进行选择过滤,本文将这三种过滤方式化分为
8、三个模块进行实现。数据存储模块是用来存储被过滤网址的相关信息,其中包括过滤网址的类型(弹出式窗口,浮动式窗口还是网页内部图片),当前的屏蔽时间,其网址的URL还有过滤规则。将其按照一定的格式存储在数据文件中,以备读取。关键词维护模块主要用来维护过滤规则关键词,它包括系统默认的专家关键词,以及用户通过用户接口注册的新关键词,还有维护在线更新关键词
此文档下载收益归作者所有