javascript引擎在动态网页采集技术中的应用new

javascript引擎在动态网页采集技术中的应用new

ID:34507633

大小:209.61 KB

页数:5页

时间:2019-03-07

javascript引擎在动态网页采集技术中的应用new_第1页
javascript引擎在动态网页采集技术中的应用new_第2页
javascript引擎在动态网页采集技术中的应用new_第3页
javascript引擎在动态网页采集技术中的应用new_第4页
javascript引擎在动态网页采集技术中的应用new_第5页
资源描述:

《javascript引擎在动态网页采集技术中的应用new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第24卷第2期计算机应用VoI.24,No.22004年2月ComputerAppIicationsFeb.,2004文章编号:1001-9081(2004)02-0033-04JavaScript引擎在动态网页采集技术中的应用1,21,2111王映,于满泉,李盛韬,王斌,余智华(1.中国科学院计算技术研究所软件研究室,北京100080;2.中国科学院研究生院,北京100039)(wangying@software.ict.ac.cn)摘要:怎样提取网页中由JavaScript脚本动态生成的URL,一直是网页采集器设计的一个难题,文中给出了一个基于JavaScript

2、引擎的通用的解决办法和模块实现以及测试结果。关键词:网页采集;JavaScript引擎;URL提取;SpiderMonkey中图分类号:TP393.09文献标识码:AExtractingDynamicURLsUsingJavascriptEngine1,21,2111WANGYing,YUMan-guan,LISheng-tao,WANGBin,YUZhi-hua(1.SoftwareLab,InstituteofComputingTechnology,ChineseAcademyofScience,Beijing100080,China;2.GraduateScho

3、ol,ChineseAcademyofScience,Beijing100039,China)Abstract:HowtoextractURLsthataredynamicaIIycreatedbyJavaScriptcodeinwebpages?ThispaperpresentsageneraIsoIutionexpIoitingaJavaScriptenginenamedSpiderMonkey.ThispaperaIsodescribesitsmoduIeimpIementationandgivessomeexperimentaIresuIts.Keywords

4、:webretrievaI;JavaScriptengine;URLextraction;SpiderMonkeyJavaScript引擎SpiderMonkey给我们提供了一个最基本的并1动态网页采集需要JavaScript引擎且易于扩展的JavaScript分析器。整个Internet是一张通过超链接连接起来的巨大的网,给2.1JavaScript语言简介定一定数目的网站(或者网页)的URL作为“种子”,分析这脚本语言JavaScript的语句一般都嵌在网页的HTML语些URL的页面文件,从中提取超链接得到新的URL,再分析句当中,由网页浏览器解释执行。新的URL

5、的网页⋯⋯一直到遍历完整个Internet,这便是网JavaScript语言的基本语法,比如控制流程的if语句、for页采集器工作的基本原理。根据网页中是否含有浏览器端执语句、whiIe语句、switch语句,以及例外处理语句try...catch行的脚本,可以将网页分为动态页面和静态页面。静态页面都和Java语言一样。但JavaScript语言没有Java语言那样的中的URL直接以HTML超链接的方式嵌在HTML文件中,我int或fIoat等基本数据类型,JavaScript语言只有若干个内置们把这种URL称为静态URL(或静态链接),而动态页面中的对象:数字对象N

6、umber,字符串对象String,布尔对象除了静态URL,还含有大量必须通过执行浏览器端脚本才能BooIean,日期对象Date,正则表达式对象Regexp,数组对象得到的动态URL(动态链接)。Array,函数对象Function,基础对象Object,数学对象Math以静态URL通过分析页面文件的HTML超链接标记能够及全局对象GIobaI。其中GIobaI对象定义了几个全局的常量比较容易地提取出来。对于动态URL,在页面文件里的实际(无穷大数,“非数”NaN等),和几个全局的函数(字符串转义上只是一段段的脚本代码,不能通过分析超链接标记的方法函数,表达式求值函

7、数等)。利用这些基本的内置对象可以得到。获取动态URL的难点在于脚本代码的可编程性,URL构造出复杂的浏览器定义对象和用户定义对象。构造由脚本语言计算得到。目前大部分的网页采集器都不能提取JavaScript对象时,首先创建一个没有任何成员的空对象,然动态URL。通用的解决办法只有一个,就是用脚本分析引擎后在运行时往这个对象里添加成员变量或者成员函数。也可模拟浏览器的动作,去真正执行脚本代码,这样无论网页中的以利用已经构造的对象作为原型构造具有相同成员的其它对[2,4]脚本程序多么复杂,都能得到正确结果。象。2.2SpiderMonkey简介2Jav

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。