欢迎来到天天文库
浏览记录
ID:44050215
大小:569.64 KB
页数:47页
时间:2019-10-18
《基于Twitter的用户活跃规律研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于Twitter的用户活跃规律研究目录1.弓丨言32.数据集32.1Twitter接口32.1.1用户资料采集接口52.1.2关系釆集接口72.1.3Tweet采集接口82.1.4接口限制92.1.5数据实体描述102.2数据收集132.2.1随机数据集132.2.2纽约数据集143.用户活跃规律研究153」统计分析163.1.1随机用户活动分析163.1.2纽约用户活动分析193.2活跃规律分类191.引言2.数据集研究的数据集由两个部分组成,这两个部分都是通过我的python采集程序调用Twitter的数据接口获取到的。Twitter应用是微博应用的典型代表
2、,同时Twitter提供了丰富的数据釆集接口。此项研究要求数据集要满足一定的覆盖范围同时也要满足一定的数量。而Twitter提供的数据接口可以提供大量的实验数据,通过这些接口我可以采集到满足研究目的的数据集。Twitter用户可以通过点击“关注”来关注自己感兴趣的其他用户,这些“关注关系''是有向的,所有用户的“关注关系”会将他们连在一起组成一个有向图Go我研究的数据集是G的一个子图。为了交叉验证实验的结果我采集了两个子数据集,它们一起构成了此项研究的数据集。第一个子数据集SubSetl是随机选取的G的一个10,000个用户组成的子图⑺。在这个子图的基础上我采集了
3、G]屮所有用户的Tweets.关系和用户基本信息。Tweets并不是用户发布的所有的Tweets,为了保证数据的有效性我采集的是2013年12月24号至2014年1月24号一个月的数据。Tweets包含用户发布的,转发的或者回复的所有Tweetso这些用户来自不同的地方,也就意味着处于不同的时区,有着不同的作息时间,这些随机分布的用户的数据对于我分析用户的活跃规律在时间维度上的变化非常有帮助。第二个子数据集SubSet2是通过Twitter的StreamingAPI采集到的30,000纽约用户组成的一个子图G2。在G2的基础上我们采集了所有用户的Tweets、关系
4、和用户基本信息。其中Tweets也是包含转发和回复,在SubSet2中我采集的是2013年12月24号至2014年2月28日的数据。在采集SubSet2时我设置了采集条件“纽约市二也就是只采集纽约市的用户。这些用户的地理位置是一样的,也就是他们都属于同一个时区,这些条件随机用户的数据对于我们分析某个地区的用户的活跃规律随时间的变化也是非常有意义的。大体上介绍完了研究所需要的数据集下面我将详细的介绍Twitter的数据接口和我采集两个数据子集的细节。2.1Twitter接口Twitter的数据接口是目前微博应用中最为开放的接口,它提供了多种多样的接口形式去共享他们的
5、数据。Twitter的数据接口分为两类:RESTAPI和StreamingAPL这两类API还有以下几个不同之处:1.通过RESTAPI采集到的是历史数据,而StreamingAPI采集到的是Twittei•的内置随机方法随机返回的约1%的实时数据。2.调用RESTAPI采集tweets时需要指定用户的ID标示,而StreamingAPI可以自动的返回实时随机数据不需要指定用户的ID,但是需要指定查询条件:地理位置或者关键字。3.StreamingAPI需要在采集过程中保持常连接而RESTAPI则不需要。这两个接口的内部实现机制是不同的。比如一个用户向一个web应
6、用请求数据,那么web应用会向Twitter的API发送请求,如果web应用调用RESTAPI那么整个交互流程如下:UserHTTPserverTwitter而如果调用StreamingAPI那么web应用就无法与Twitter直接建立连接,而是只能与维护Streaming连接的另外一个单独的进行去连接。这个进行处理web应用的请求,通过查询条件将从Twitter得到的tweets进行过滤、筛选或者整合然后返冋处理的结果。交互流程如下:UserHTTPserverprocessStreamingconnectionprocessTwitterServeropens
7、streamingconnectionTwitteraccepts8nnectionReceivesstreamedTweets,performsprocessingandstoresresultConnectiondosesStreamingAPI可以实时返回满足查询条件的用户的1%左右的信息。详细的说,如果我调用此API去采集用户的Tweets同时指定用户的地理位置为纽约市,那么此API接口会随机返回实时的正在发布tweet的1%的纽约用户的Tweetso这个1%是一个粗略的比例,同时也是随机选择的,也就是说这个比例在实际采集中可能会高也可能会低。但是Stre
8、aming
此文档下载收益归作者所有