毕业论文_微博信息抓取系统

毕业论文_微博信息抓取系统

ID:29938712

大小:2.71 MB

页数:24页

时间:2018-12-25

毕业论文_微博信息抓取系统_第1页
毕业论文_微博信息抓取系统_第2页
毕业论文_微博信息抓取系统_第3页
毕业论文_微博信息抓取系统_第4页
毕业论文_微博信息抓取系统_第5页
资源描述:

《毕业论文_微博信息抓取系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、微博信息抓取系统微博信息抓取系统【摘要】针对微博中庞大的数据量和用户关系群,本文提出并实现了基于新浪开放平台与Oauth2.0的微博信息抓取系统。该系统主要实现的功能有:(1)微博大厅的滚动微博及其评论的抓取(2)微博用户的好友及其相互关系的抓取。通过线程池和数据库实现了微博信息的抓取和存储,并通过prefuse的API,图形化的显示出用户关系。从实际运行效果分析,该抓取系统能够满足各种SNS应用的内容填充,及网络用户社会网络关系分析。【关键词】Oauth2.0;新浪开放平台;社会网络关系;prefuse1引言1.1研究

2、背景及意义随着移动互联网的发展,中国迎来了真正的微博时代。微博由于其内容简短,写作门槛低,发布渠道便捷化,多样化,同步化,使得信息生产趋于零时间。与其他信息交流模式不同,微博最大的特点在于技术上的便携性。2009年,3G牌照的发放标志着移动互联网时代的到来,移动手机和互联网这两种在中国发展最为迅速的媒介开始融合在一起,为微博的快速扩张做了技术上的准备,与传统博客相比,微博对用户能够产生很强粘性的原因,就在于其在技术上无可比拟的便携性。用户可以通过各种方式登陆微博,发表微博。尤其是手机和微博的绑定使得这以新媒介对微博用户的

3、接近性满足了4A的元素,即Anything,anywhere,anyone,anytime。任何用户可以在任何时间任何地点发布任何内容。从此,人们的信息交流得到了空前的大解放。微博信息抓取系统通过开放平台的API抓取我们所需要的信息,为各式各样的SNS[1]社区应用在运营初期充实其数据量和用户量,以吸引更多的用户关注和使用。SNS社区交友是现在网络用户之间相互交流的最主要方式。当前最流行的SNS网络莫过于开心网,人人网,以及各大微博了,其中以新浪微博的活跃用户量最为庞大,本课题主要以新浪微博为主要研究和抓取对象,实现信息

4、抓取的功能。整个系统的框架拥有较强的可扩展性,可根据需要增加其他SNS网络社区的抓取模块。另外,本系统还从网络用户的社会网络关系出发,图形化的展示了网络用户之间的社交关系1.2本课题主要工作本文主要解决的问题有抓取新浪微博的微博大厅数据已经其相关的评论和用户信息。包括新浪微博的Oauth2.0认证,通过调用新浪微博的API,得到并解析服务器返回的json文档,建立相应的数据库,储存在数据库中。并通过Prefuse对抓取的微博用户好友关系进行了可视化的显示。实现全自动的抓取、解析、和数据存储过程。第23页共26页微博信息抓

5、取系统大大提高了信息收集的工作效率,并大大降低了信息收集的出错率。满足了企事业公司对微博信息的内容需求和网络用户的社会关系分析。1新浪微博开放平台1.1微博用户的授权认证2.1.1新浪微博应用创建新浪微博开放平台允许所有微博用户创建自己的应用,用户只要填写清楚开发者的详细信息和应用的相关资料就可以创建自己的应用了。应用创建成功后,开发者将会获得该应用的APPKEY和SercretKey。我们就是通过这两个key进行相关的技术开发工作。并且通过这两个key唯一标识我们的应用。其新浪微博应用创建和发布的流程图如图1所示。图1

6、新浪开放平台应用创建流程及发布流程图2.1.2OAuth2.0授权认证OAuth2.0是从2006年开始设计OAuth[2]协议的下一个版本。OAuth(开放授权)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密的资源(如照片,视频,联系人列表),而无需将用户名和密码提供给第三方应用。第23页共26页微博信息抓取系统OAuth允许用户提供一个令牌,而不是用户名和密码来访问他们存放在特定服务提供者的数据。每一个令牌授权一个特定的网站(例如,视频编辑网站)在特定的时段(例如,接下来的2小时内)内访问特定的

7、资源(例如仅仅是某一相册中的视频)。这样,OAuth允许用户授权第三方网站访问他们存储在另外的服务提供者上的信息,而不需要分享他们的访问许可或他们数据的所有内容。相比于OAuth1.0,OAuth2.0整个授权验证流程更加简单和安全。也是新浪微博开发平台未来最主要的用户验证和授权方式。使用新的2.0协议进行授权认证。开发者只需要调用oauth2/authorize接口引导用户授权,并在授权后重定向的网页得到code码后向服务器oauth2/access_token接口换取access_token,就可以使用这个acces

8、s_token调用新浪微博的API了。其授权的基本流程如图2所示:图2OAuth认证基本流程虽然2.0的授权机制更简单安全,但是越安全越说明其限制越多,其中access_token的有效期在开发测试阶段只有24小时。在24小时之后就必须重新授权获取新的access_token。而新浪微博的一些接口也有访问频次限制。在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。