基于web过程模拟的动态web信息获取说明书

基于web过程模拟的动态web信息获取说明书

ID:29472727

大小:262.54 KB

页数:41页

时间:2018-12-20

基于web过程模拟的动态web信息获取说明书_第1页
基于web过程模拟的动态web信息获取说明书_第2页
基于web过程模拟的动态web信息获取说明书_第3页
基于web过程模拟的动态web信息获取说明书_第4页
基于web过程模拟的动态web信息获取说明书_第5页
资源描述:

《基于web过程模拟的动态web信息获取说明书》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于Web过程模拟的动态Web信息获取收藏摘要:介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面。采用性能优异的Web信息获取组件CURL,对大量科技文献网站的网页进行信息获取,实验表明CURL具有优异的处理速度,并成功应用到甘肃省科技文献共享平台的统一检索系统中。关键词:Web过程模拟;动态Web信息获取;CURL中图分类号:TP393      随着Internet的快速发展,Web资源已经成为一种人们获取信息的主要来源。但是对于需要查询的信息,很多网站必须经过注册

2、登录后方可使用提供服务的页面,而且各个网站的信息表示具有很大的异构性,给用户带来很大不便。为了访问Web上大量有用的信息,动态异构的Web信息获取方法就成为了一个研究的热点。      对于动态异构的Web资源,首先需要分析其网页表单,模拟用户点击行为找到结果页面,这些都是获取动态Web资源的难点问题;此外,Web网站的动态变化对于保持信息抽取的准确性也是一个挑战,有待研究者去解决。文献[1-2]介绍了基于Web过程模拟的异构数字文献统一检索系统设计与实现,但对基于Web过程模拟的动态Web信息获

3、取原理及实现没有详细阐述。本文以获取科技文献资源网站的动态Web信息为例来说明问题。391基于Web过程模拟的动态Web信息获取原理     现在很多网站提供的页面往往并不是可以通过一个简单的URL就可以访问的,而必须经过注册并登录后方可使用提供服务的页面。不同的资源对于登录有不同的限制。由于与Web交互的细节需要人们自己来实现,这就需要人们对访问Web资源的细节进行模拟和描述,得到所需结果页面。    源数据站点分析模拟是指对资源站点的页面结构进行分析,通过分析获取其请求参数用来模拟HTTP请求

4、。其分析结果包括如何得到查询结果页面及其规律等。     网页源数据站点分析与提取技术是实现和Web资源自动交互的基础,也是对所需网页提取数据的基础。一方面,与Web资源的交互过程中,有些参数和数据是通过网页分析与提取获得的;另一方面,得到的所需网页是通过网页分析和提取获得的。用户通过浏览器来访问Web资源时,浏览器为用户隐藏了与Web资源交互的具体细节,用户看到的只是结果。对于需要查询的信息,一般需要通过Web浏览器登录到一个Web服务器,输入查询条件,提交查询请求,服务器返回查询结果。由于用户

5、与Web资源的交互是以HTTP协议为基础进行的,这种交互可以由程序模拟出浏览器向远程Web服务器发送HTTP请求的过程。用户每查询一次信息,就是向服务器发送一次HTTP请求的过程。    39HTTP协议[3]是基于请求/响应模式的。HTTP请求信息由请求行、请求头部域和请求实体三部分组成。请求行中的方法描述指定资源中应该执行的动作。常用方法有get、post和head。请求头部域是关于该次请求的一些附加信息。请求实体则是该次请求所需传递的一些参数信息。HTTP响应信息由响应行、响应头部域和响应实

6、体三部分组成。响应行主要显示HTTP版本,以及此次响应结果的状态码;响应头部域为该次响应的附加信息;响应实体则为该次响应结果的详细信息。      由于可以通过程序模拟发送HTTP请求的过程,对于HTTP请求信息的获取是模拟成功的关键。有些Web服务程序的设计要求浏览器端通过脚本技术,对检索项进行预处理,在浏览器端生成一个检索表达式,再将此表达式以HTTP请求的方式传递给服务器进行检索。在此情况下,需要分析HTML文件中的脚本代码,构造出正确的检索表达式。有些请求信息参数是动态变化的。这需要人工仔

7、细分析,找出其中规律,才能实现实时请求、实时响应,以及对查询页面的翻页等功能。这些参数信息都不能有丝毫差错。可以借助已有的一些网络通信拦截工具软件,如Sniff’em、EHSniffer、HttpWatch、HttpTracer等。这些软件可以捕获并解码浏览器发出的HTTP请求的数据,分析HTTP通信的网络活动等。这样就可以正确获取HTTP请求通信所需的参数。2Web信息获取工具    39 通过程序模拟访问网页的方法有SOCKET通信方式、FOPEN方式、第三方组件(如:libcurl)等。当网

8、页文件很大或者网页根本不存在的时候,使用FOPEN的方法经常会出现超时。在实际工程应用中,必须考虑系统的性能及可移植性。Web信息获取工具是系统性能好坏的一个最重要的技术环节,不论是采用PHP中的SOCKET通信方式还是FOPEN方式都不能胜任如此频繁的文件获取时间要求。系统采用性能优异的CURL访问组件,该组件远程访问速度比传统方式速度快了近200倍,采用FOPEN方式对于100个HTTP文件请求每分钟只能打开10个,而采用CURL组件方式对于2000个HTTP文件请求每分钟可以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。