基于jssh的动态网页获取研究与实现

基于jssh的动态网页获取研究与实现

ID:37185732

大小:2.47 MB

页数:4页

时间:2019-05-21

基于jssh的动态网页获取研究与实现_第1页
基于jssh的动态网页获取研究与实现_第2页
基于jssh的动态网页获取研究与实现_第3页
基于jssh的动态网页获取研究与实现_第4页
资源描述:

《基于jssh的动态网页获取研究与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于JSSh的动态网页获取研究与实现万久士,李翔,林祥(上海交通大学信息安全工程学院,上海200240)【摘要】网络媒体监控系统需要采集大量的动态网页。提出了基于JSSh(JavaScriptShellServer)的动态网页获取方案,将动态网页的解析工作交给有成熟网页排版功能的Web浏览器,最后通过实验证明,基于JSSh的动态网页获取方案的普适性很强,并且可靠性高。实验表明,该方案的获取效率也符合网络媒体监管系统对于信息采集实效性的要求。【关键词】动态网页解析;JavaScript脚本服务器;网页排版引擎【中图分类号】TP311【文献

2、标识码】A【文章编号】1009-8054(2010)04-0093-03ResearchandImplementationofCollectingDynamicWebPageBasedonJSShWANJiu-shi,LIXiang,LINXiang(SchoolofInformationSecurityEngineering,ShanghaiJiaotongUniversity,Shanghai200240,China)【Abstract】Alargenumberofdynamicpagesshouldbecollectedandin

3、terpretedinmonitoringsystemofnetworkmedia.AschemebasedonJSSh(JavaScriptShellServer)isproposedfordynamicwebpagecollectionandinterpretation.Inthescheme,theWebbrowserwithperfectpagelayoutfunctionisusedtointerpretdynamicpages.Experimentshowsthattheschemeisadaptiveandhasconsi

4、derablereliabilityforcollectionofdynamicwebpage.Theefficiencyforinformationcollectioncouldfairlymeettherequirementofmonitoringsystem.【Keywords】dynamicWebpageinterpretation;JavaScriptshellserver;Gecko超链接网络地址分别以文本信息和统一资源标识符(URL)的方式直接嵌入网页源文件的HTML标记中。然而,动态网页中除了包含少量静态URL外,还含有

5、大量必须通过浏览器执行脚本才能得到的超链接网络地址和网页主体内容。对于静态网页,可以使用传统的HTML标记识别的方法,实现页面主体内容与其所含超链接网络地址的提取功能。对于动态网页,人们可以通过JavaScript引擎,如SpiderMonkey[2]、Rhino[3]来解释这些JavaScript脚本,获得其中的超文本链接地址或文本内容。文献[3]中提到,由于脚本解释引擎Rhino无法识别JavaScript脚本片段中包含的HTMLDOM,在把动态网页脚本片段传递给Rhino前,需要先对脚本片段中的HTMLDOM实现本地创建,给出每个

6、HTMLDOM的方法和属性描述。但在Web2.0应用中,由于Ajax架构的普及,用上述方法构建HTMLDOM的工作会越来越繁琐。文中提出了基于JSSh的动态网页获取方案。该方案通过JSSh客户端向内嵌JSSh服务器的Firefox浏览器发送加载网页的JavaScript指令,浏览器执行加载网页指令,自行向目标网站请求发布页面。JSSh客户端从浏览器加载网页的DOM树中,提取网页内所包含的全部超文本链接,浏0引言互联网的媒体影响力越来越强,表现在信息的传播速度快和信息的受众广。在互联网上,任何人都可以在论坛、留言版、博客等上面发布言论和观

7、点。此外,Web2.0技术的普及,使网络上有越来越多的由用户生成的内容(UserGeneratedContent)。网民既是信息的受众,又是信息的传播者,如果网络监管缺失或者相关法律不健全,在网络上很容易出现虚假、反动、暴力的言论,将严重影响到和谐社会的建设。当前,网络监管部门重点开展的互联网媒体信息监控工作[1],旨在把握网络信息动向,引导网络言论,建设和谐网络环境。系统化的网络信息监管工作,主要由信息采集、信息融合和结果呈现三大环节共同组成。根据网页中是否含有浏览器执行脚本,将网页分为静态网页和动态网页。静态网页的主体内容及其内部包

8、含的收稿日期:2009-07-03作者简介:万久士,1978年生,男,硕士研究生,研究方向:互联网内容安全;李翔,1975年生,男,副教授,研究方向:网络内容安全;林祥,1979年生,男,工程师,研究方向:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。