欢迎来到天天文库
浏览记录
ID:31373306
大小:112.50 KB
页数:9页
时间:2019-01-09
《爬虫技术在互联网领域的应用探索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、爬虫技术在互联网领域的应用探索 摘要:随着云计算和大数据技术的深入发展,网页上的大量结构化和非结构化的信息搜索和挖掘技术成为一个热点研究问题。该文首先探讨了爬虫技术在互联网领域的应用情况,尤其针对互联网金融信息数据的获取和搜集上目前研究的难点问题,进一步针对三种网络爬虫技术的搜索技术进行比较分析,对深度优化搜索和广度优先搜索进行理论分析,继而对一种改进算法――最好优先搜索方法进行JAVA程序实现,运用到的多线程技术可以提高程序的搜素效率。 关键词:爬虫技术;互联网;JAVA多线程;网页挖掘 中图
2、分类号:TP393文献标识码:A文章编号:1009-3044(2016)15-0062-03 1引言 随着云时代的来临,大数据的发展也越来越成为一种潮流。大数据通常用来指公司创造的大量结构化和非机构化化数据,这些数据被获取并存放到关系型数据库,在分析数据时往往会花费大量的时间和精力。“大数据”在互联网领域是指:互联网公司在正常运行过程中会生成、累积用户行为的网络数据。这些数据的规模是非常庞大,甚至大到不能用G或T的计量单位来衡量。在大数据时代,爬虫技术成为获取网络数据的重要方式。9 互联网金融发
3、展过程中需要搜集大量的数据资源,这个过程非常关键,并且实施起来较为困难。金融数据的搜集,是通过计算机技术与金融领域相关知识的综合,将金融经济的发展与相关数据进行集中处理,能够为金融领域的各个方面如经济发展趋势、经融投资、风险分析等提供“数据平台”,真实的数据资源还可以推进金融经济的快速发展和金融理论的创新。当今互联网的快速发展,网络上也充满各种金融信息,并且更新速度快,这使互联网成为金融领域获取数据资源重要一大方式。例如Butler,Leone,Willenborg和Frank等公司都是利用互联网采集
4、技术来抓取所需的数据资源。 2互联网金融数据抓取的特点 2.1互联网上金融方面的数据一般具有的特点 1)数据量大、种类繁多。对于一些规模较小且只需抓取一次的数据,一般复制粘贴或者手工记录即可,没有什么技术上的要求。但是,金融经济市场领域的数据一般规模巨大,例如需要获取某个结构一年的交易记录,数据量就是非常大的,而且数据资源往往来源于不同的机构或者不同的部门,想要准确地获取数据资源不是很容易。 2)可靠性、实时性。在研究金融理论或者做金融分析时,对数据的可靠性、实时性要求非常高。金融经济的发展模
5、式瞬息万变,更新速度很快,为了及时的反映市场上经济发展状况,要求数据的来源具有实时性和可靠性。 3)金融经济领域的数据类型一般以文本和数值型为主,图片和视屏等多媒体类型的数据较少。9 4)数据一般会从较官方的网站抓取。为了保证数据来源的可靠性和准确性,数据一般从较权威的机构获取,例如金融交易所、国家有关权威决策与信息发布部门和国内外各大互联网信息提供商。 5)抓取数据的目标网页主要有两种类型。第一类是URL固定但是信息实时更新的网页要定期访问并获取数据,例如一些网站的股票行情类数据;第二类是规模
6、较大且近似网页中具有固定特征的数据。例如某些国家权威机关按时以某一固定格式发布各种数据报告。 我们可根据金融经济数据的这些特点,制定相应的方法与策略抓取数据资源。对于地址相对固定的网页,所面临的数据采集问题比较集中,不需要考虑各种技术因素的变化对采集的影响,我们可以更有针对性的收集数据,制定更高效、更合理的抓取策略。 2.2获取网页信息 目前主流的网站开发技术主要有php、net和java的Alexa等,虽然说开发的网页格式五花八门,但它们传输数据的原理都一样,都是通过超文本传输协议(HTTP协
7、议)将数据资源传送到客户的。微软公司提供的可扩展标记语言(XML)服务集合中的组件MSXML(执行或开发xml所设计的程序)里面有个XMLHTTP浏览器对象。该对象的原理基于HTTP协议的,里面封装着很多方法和属性,这些方法和属性与网站信息双向交流有关。客户端调用XMLHTTP对象搜集网页信息的过程主要包括以下几个步骤: ①首先建立XMLHTTP对象; ②利用XMLHTTP对象里面的Open方法与服务端建立连接,制定网页的地址(URL)和命令的发送方式; ③通过XMLHTTP中的Send方法发送
8、信息; ④等待服务端处理并返回结果。9 数据的抓取在金融领域的研究中是一个关键环节。互联网中的数据具有规模庞大、实时性、准确性等特点,为金融经济的发展提供了重要的数据来源。通过爬虫技术抓取数据资源,可以高效的在互联网海量的数据中提取所需的数据资源。灵活而方便地定制抓取数据地方案,使抓取到的数据成为金融经济发展的可靠保证。 3爬虫技术的实现 爬虫技术的设计是搜索引擎实现的关键技术,爬虫算法的好坏直接关系到搜索引擎性能的优良。经过多方面研究表明,“最
此文档下载收益归作者所有