基于新浪微博数据的处理与用户行为分析

基于新浪微博数据的处理与用户行为分析

ID:35187554

大小:7.58 MB

页数:72页

时间:2019-03-21

基于新浪微博数据的处理与用户行为分析_第1页
基于新浪微博数据的处理与用户行为分析_第2页
基于新浪微博数据的处理与用户行为分析_第3页
基于新浪微博数据的处理与用户行为分析_第4页
基于新浪微博数据的处理与用户行为分析_第5页
资源描述:

《基于新浪微博数据的处理与用户行为分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、’漏学校代码:10004密级;公开解鱗9BEIJINGJIAOTONGUNIVERSITY硕±学位论文1喔基于新浪微博数据的处理与用户行为分析■補*作者姓=王鲁1名指导教师卢^教授培养院系软件学院i/為柄3:紙;:三;:—*一j’入.;r巧麵爾爾面—i诗g粟—化日硕dr学位论文基于新浪微博数据的处理与用户行为分析DataProcessingandUserBehaviorAnalsisBasedonSinaWe化0y作者:王鲁飞导师:卢幸

2、北京交通大学2016年6月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可W将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编W供查阅和借阅。同意学校向国家有关部口或机构送交论文的复印件和磁盘。学校可W为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)^学位论文作者签名:法导师签名:文^^签字曰期;>曰签字曰滅^^1年fc月曰/^

3、年月2|1学校代码:1日日日4密级:公开北京交通大学硕±学位论文基于微博数据的处理与用户行为分析DataProcessingandUserBehaviorAnalsisBasedonSinaWe化0y作者姓名:王鲁飞学号3121688:1导师姓名:卢韦职称:教授学位类别:工学学位级别;硕±学科专业:软件工程研究方向:软件工程北京交通大学2016年6月i致谢首先在此对国家自然科学金项目(No,.61272353)表示感谢正因为有了该项目的大力支持与资助才使

4、得本论文的研巧工作得頓利进行。非常感谢导师卢韦教授对本论文研巧工作的耐也指导和亲切关怀,。王年来我一丝不苟的治学态度、。从专业课学习、深深体会到了卢教授实事求是,课题选择开题、血。正是在其,到系统开发、论文写作,整个过程,卢教授都投入了很大的屯,此次研究课题才能在克服了诸多困难后顺利开展细也、认真的指导下,这篇研究论文也才得顺利完成。卢幸教授不仅在学习上对我严格要求,在课余中也给予我非常多的关也和鼓励。再次向我的导师卢幸教授表示深深的敬意和感谢。在本论文的研究过程中,邢薇薇老师、鲍鹏老师、蔡园媛博±也提出了很多宝

5、贵的意见和建议,拓宽了我的研巧思路,在此表示由衷的感谢。同时,软件学院1301班的同窗对我的论文工作也给出了很多积极的帮助,他们的热情深深地鼓励一并感染着我,使我能够更加顺利的进行论文研究工作,我们起面对困难和挑战,相互付出,共同进步,愿友谊天长地久。除此之外,还要对我的家人和朋友表示感谢,他们在我身后的默默支持是我一一、切,我才得专屯完成学业直前进的动力源泉,正因为有了他们所做的。最后,非常感谢各位参与我论文评审和答辩的老师。北京交通大学硕±学位论文搞要随着互联网技术的不断发展,社交网络在人们的日

6、常生活中扮演着越来越重,要的角色同时也在改变着信息的传播方式,从原来的平面媒体与电视广播相结合到现在多元化平台的改变。人们获取热口信息和自己感兴趣的信息的方式也与社交网络变得越来越密不可分。伴随而来的是通过分析大量的用户数据对用户的各种行为进行深度挖掘,从而优化信息传递效率,节约人们从海量信息中提取对自身有价值信息的时间,并挖掘其潜在的巨大的商业价值。国外社交网络Facebook与Twitter的巨大成功也在很大程度上促进了国内社交网络平台的发展。本文W国内的热口社交网络平台新浪微博的用户信息与微博信息为研究对象

7、,主要完成了W下四个方面的工作。一第,研究了目前比较流行的网络爬虫技术。通过比较和综合分析,设计并实一现了个分别对微博内容、用户信息、用户关系信息、微博关系信息等数据进行采集并存储,然后利用获取到的数据按需进行特征提取的数据采集系统。对于获取到的微博数据,根据数据之间的关联关系设计了相应的数据库。此外,在爬取数据的过程中,还Ke,不仅使用多线程技术大幅提高了爬虫的工作效率设计了多APPy复用机制,突破了新浪对API调用次数的限制,从而使爬虫系统可tU持续工作运行。第二,为了对用户的转发行为进行预测,并找

8、出对用户转发行为有重要影响的微博特征,本文通过研巧新浪微博包括用户和微博内容在内的13项特征,进行机器学习,,建立了特征分析模型找出影响徹博转发的重要因子。首次对特征因子

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。