欢迎来到天天文库
浏览记录
ID:35187554
大小:7.58 MB
页数:72页
时间:2019-03-21
《基于新浪微博数据的处理与用户行为分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、’漏学校代码:10004密级;公开解鱗9BEIJINGJIAOTONGUNIVERSITY硕±学位论文1喔基于新浪微博数据的处理与用户行为分析■補*作者姓=王鲁1名指导教师卢^教授培养院系软件学院i/為柄3:紙;:三;:—*一j’入.;r巧麵爾爾面—i诗g粟—化日硕dr学位论文基于新浪微博数据的处理与用户行为分析DataProcessingandUserBehaviorAnalsisBasedonSinaWe化0y作者:王鲁飞导师:卢幸
2、北京交通大学2016年6月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可W将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编W供查阅和借阅。同意学校向国家有关部口或机构送交论文的复印件和磁盘。学校可W为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)^学位论文作者签名:法导师签名:文^^签字曰期;>曰签字曰滅^^1年fc月曰/^
3、年月2|1学校代码:1日日日4密级:公开北京交通大学硕±学位论文基于微博数据的处理与用户行为分析DataProcessingandUserBehaviorAnalsisBasedonSinaWe化0y作者姓名:王鲁飞学号3121688:1导师姓名:卢韦职称:教授学位类别:工学学位级别;硕±学科专业:软件工程研究方向:软件工程北京交通大学2016年6月i致谢首先在此对国家自然科学金项目(No,.61272353)表示感谢正因为有了该项目的大力支持与资助才使
4、得本论文的研巧工作得頓利进行。非常感谢导师卢韦教授对本论文研巧工作的耐也指导和亲切关怀,。王年来我一丝不苟的治学态度、。从专业课学习、深深体会到了卢教授实事求是,课题选择开题、血。正是在其,到系统开发、论文写作,整个过程,卢教授都投入了很大的屯,此次研究课题才能在克服了诸多困难后顺利开展细也、认真的指导下,这篇研究论文也才得顺利完成。卢幸教授不仅在学习上对我严格要求,在课余中也给予我非常多的关也和鼓励。再次向我的导师卢幸教授表示深深的敬意和感谢。在本论文的研究过程中,邢薇薇老师、鲍鹏老师、蔡园媛博±也提出了很多宝
5、贵的意见和建议,拓宽了我的研巧思路,在此表示由衷的感谢。同时,软件学院1301班的同窗对我的论文工作也给出了很多积极的帮助,他们的热情深深地鼓励一并感染着我,使我能够更加顺利的进行论文研究工作,我们起面对困难和挑战,相互付出,共同进步,愿友谊天长地久。除此之外,还要对我的家人和朋友表示感谢,他们在我身后的默默支持是我一一、切,我才得专屯完成学业直前进的动力源泉,正因为有了他们所做的。最后,非常感谢各位参与我论文评审和答辩的老师。北京交通大学硕±学位论文搞要随着互联网技术的不断发展,社交网络在人们的日
6、常生活中扮演着越来越重,要的角色同时也在改变着信息的传播方式,从原来的平面媒体与电视广播相结合到现在多元化平台的改变。人们获取热口信息和自己感兴趣的信息的方式也与社交网络变得越来越密不可分。伴随而来的是通过分析大量的用户数据对用户的各种行为进行深度挖掘,从而优化信息传递效率,节约人们从海量信息中提取对自身有价值信息的时间,并挖掘其潜在的巨大的商业价值。国外社交网络Facebook与Twitter的巨大成功也在很大程度上促进了国内社交网络平台的发展。本文W国内的热口社交网络平台新浪微博的用户信息与微博信息为研究对象
7、,主要完成了W下四个方面的工作。一第,研究了目前比较流行的网络爬虫技术。通过比较和综合分析,设计并实一现了个分别对微博内容、用户信息、用户关系信息、微博关系信息等数据进行采集并存储,然后利用获取到的数据按需进行特征提取的数据采集系统。对于获取到的微博数据,根据数据之间的关联关系设计了相应的数据库。此外,在爬取数据的过程中,还Ke,不仅使用多线程技术大幅提高了爬虫的工作效率设计了多APPy复用机制,突破了新浪对API调用次数的限制,从而使爬虫系统可tU持续工作运行。第二,为了对用户的转发行为进行预测,并找
8、出对用户转发行为有重要影响的微博特征,本文通过研巧新浪微博包括用户和微博内容在内的13项特征,进行机器学习,,建立了特征分析模型找出影响徹博转发的重要因子。首次对特征因子
此文档下载收益归作者所有