欢迎来到天天文库
浏览记录
ID:17516591
大小:354.00 KB
页数:8页
时间:2018-09-02
《海量数据挖掘以新浪微博为例 ---结题论文(4.27)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、海量数据挖掘---以新浪微博为例结题论文武剑蒋弘观徐航王悦关键词微博数据抓取javaAPIHeritrix序言在当前信息时代,各种信息技术高速发展。在所有网民中,微博等社交网络应用快速崛起,微博作为Web2.0时代的新兴产物,以及便捷简单的使用方式,迅速的融入了当今人们的日常生活中,并且其背后有着大量潜在数据,数据中蕴含大量有待挖掘的有价值信息。微博的使用人群数量基数大,状态信息更新频繁、信息传播迅速,并且微博平台媒介用户占有率相对集中,因此基于微博数据的采集技术的研究成为了十分值得关注的研究方向,是对微博数据进行进一步分析研究的基础。在中国,已有14%的互联网用户开始使用微博,而
2、新浪微博的市场份额占有率接近87%,是中国微博产业的主导力量。分析主流微博客网站,对网页数据进行采集和分析,提高微博客网站访问量,对吸引网友具有积极的促进作用,对网站经营者来说具有重要意义。本项目研究面向海量微博数据的采集技术,并以目前国内最大的微博服务供应商新浪为主要的研究对象。主要对比采用新浪开放的API与使用网络爬虫获取微博数据的采集性能与采集质量。具体研究内容为:目前新浪向公众开放了API接口进行数据的获取,但是由于API服务器的限制,只能返回一部分的信息,因此本项研究将利用新浪微博开放测试的API接口,与传统的网络爬虫方式进行数据的获取。并通过返回的json文件,以及网络
3、爬虫分类分析人们目前最关注的是那些事件,那些话题,还有潜在的网络公众人物。并通过优化查找办法,找出最优的基于API与网络爬虫相结合的微博数据采集方法。实验环境介绍我们的实验采用的测试机为:LenovoPC机,处理器:Intel(R)Core(TM)i5CPU,内存:8.00GB,运行的环境是Win7系统,接入的网络为校园无限网,开发所采用的IDE环境为:Eclipse。一、新浪API数据挖掘方法概述新浪微博API由一系列的接口程序构成,开发者调用这些程序,实现对微博系统进行采集用户数据、微博内容,写入数据等功能。新浪微博的开放API接口程序具有使用方便、数据目的性强、获取相应数据简
4、洁等特点。为了方面广大的开发者调用新浪数API接口,新浪微博API为开发者提供了丰富的开放接口,为程序更简洁、更高效地获取微博数据提供了保障,同时也为开发者做好了SDK的开发包。我们小组首先尝试使用API获取微博数据。具体实现路线如下。(一)OAuth2.0认证1)开发者向新浪微博OAuth2.0服务提供商申请应用,获得应用的专属AppKey、AppSecret和设置回调页。1)将上一步得到的AppKey和AppSecret发给新浪微博用户授权地址请求RequestToken授权。2)授权后,在浏览器中得到一串pin码,开发者再向新浪微博AccessToken地址发起请求,将上一步
5、授权的RequestToken换取成AcessToken。3)经服务器同意用户请求,并向其颁发通过新浪微博授权的AccessToken。4)用户可将获得的授权的AccessToken向API服务器请求用户身份资源的使用授权。(一)配置APi先要配置文件config.propertiesClient_ID为AppKey,client_SERCRET为APPsercret,redirect_URL为自己填写的应用地址。然后运行OAuth4Code通过输入返回的CODE获取access_token。我们小组以时间为线索,通过API获取当前的公共微博数据。分高效的微博抓取方法。每次调用接口
6、可以返回20条当前微博。为了使结果更为直观,我们改写了程序,屏蔽掉了一些用处不大的返回值。但是由于新浪API同一IP地址访问数量有限制针对一个服务器IP的请求次数限制如下:测试授权普通授权中级授权高级授权合作授权1000次/小时10000次/小时20000次/小时30000次/小时40000次/小时因此,在普通权限下我们只能每小时访问10000次,也就是获取2万条微博。当然通过申请多个开发者账号可以使这一数字成倍增长。但是相比于网络爬虫的数据爬取量来比较的话,网络爬虫因为没有访问数量的限制,仍然很有优势。二、基于Heritrix的微博数据爬取Heritrix是Java开发的开源网络
7、爬虫工具,由一些核心类和插件模块组成,可在http://www.archive.org中下载。下载之后在Eclipse中配置,配置完成后,由CrawlController启动线程,在线程池中,选择一个预定的URL,从所选择的URL链接地点下载远程文件到本地电脑,分析并归档下载到的文档,写入磁盘镜像目录。用网络爬虫爬取微博信息时首先要解决登录的问题。新浪微博采用了64BASE加密算法。过程如下:1.将原有字符串以utf-8编码格式转换为原始二进制字符。2.将原始二进制数
此文档下载收益归作者所有