欢迎来到天天文库
浏览记录
ID:13221869
大小:1.51 MB
页数:32页
时间:2018-07-21
《基于新浪微博的用户信息爬虫及分析_学位论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、目录摘要IAbstractII1引言31.1选题背景与意义31.2系统开发工具31.2.1vs200831.2.2oracle11g31.2.3boost库31.2.4GZIP压缩算法函数库31.2.5JSON格式文件转换函数库42系统需求分析与设计52.1系统需求52.1.1名词说明52.1.2系统功能需求说明52.1.3系统总体功能设计72.2系统数据库构建92.2.1数据库设计92.2.2数据库详细设计93系统详细设计与实现123.1爬虫系统详细设计123.1.1HTTP请求数据包123.1
2、.2HTTP返回数据包133.1.3数据分析与提取133.1.4AnaData类133.1.5数据入库153.2服务端详细设计163.3客户端详细设计173.3.1登录页面173.3.2注册新用户和忘记密码页面183.3.3用户关注列表查询界面193.3.4微博用户标签分类查询203.3.4发布微博并@列表框中的微博用户昵称203.3.5微博用户昵称模糊搜索213.3.6微博用户微博查询214系统部署与测试224.1系统部署图224.2系统测试225结束语29参考文献30致谢31-31-摘要随着互
3、联网信息技术的发展,在这个信息时代,数据量的增长速度已经远远超过的我们的想象。迅速的对这些数据进行处理,进行信息的提取已经成为目前计算机领域一个巨大的难题。而且无论是政府还是企业,对于大数据的掌握都可以起着至关重要的作用。数据处理技术蕴含的巨大的商业价值必将被慢慢的挖掘出来。本文以新浪微博作为信息载体。对新浪微博的用户信息进行收集和分析,对新浪微博信息数据转化成价值的可行性进行了尝试。设计出了一个可以获取新浪微博信息的数据收集系统,并进行一定的数据分析和数据展示。关键词:C++,新浪微博,数据挖掘
4、-31-AbstractWiththeInternetdevelopmentofinformationtechnology,inthisageofinformation,theamountofdatagrowthhasfarexceededourimagination.Rapidprocessingofthesedata,theextractionofinformationhasbecomeahugeprobleminthecomputerfield.Andwhethergovernmentorc
5、orporate,cangraspforbigdataplaysavitalrole.Thetremendouscommercialvalueofdataprocessingtechnologyisboundtobeslowlyexcavated.Inthispaper,SinaWeiboasaninformationcarrier.SinaWeibouserinformationcollectionandanalysistheSinamicrobloggingdataintothevalueof
6、thefeasibilityofatry.DesignonecangetthetheSinamicroblogginginformationsystemofdatacollectionanddataanalysisanddatapresentation.Keywords:c++,SinaWeibo,DataMining-31-1引言1.1选题背景与意义随着互联网信息技术的发展,目前的信息增长的速度已经进入了飞速膨胀的阶段。“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据’才是第3次浪潮的华
7、彩乐章。”著名未来学家、当今世界最具影响力的社会思想家之一托夫勒在《第三次浪潮》中说过的内容如今已将逐渐成为事实,大数据正在改变这我们的生活。IDC(国际数据公司)在2011年6月的数据统计[1],全球数据量在2011年已达到1.8ZB,在过去5年时间里数据量增加了5倍。1.8ZB是什么样的概念?1ZB等于1万亿GB,1.8ZB也就相当于18亿个1T的硬盘。有效的对这些数据处理,去噪和提取信息,将数据转换成价值的技术已成为目前市场最为广阔的研究课题。例如数据挖掘,分布式计算,机器学习等等新的信息技
8、术的产生,他们目的都是为了能够从这无比巨大的数据中,获取能够用于商业决策和企业管理的信息[2]。新浪微博于2009年正式上线,至2010年11月,新浪召开首届微博开发者大会时披露其微博用户突破5000万。2011年3月,新浪CEO曹国伟在发布财报时介绍称,其微博的注册用户总数已超过1亿。目前,新浪微博用户量已达到5亿。因此,新浪微博的数据具有极大的开发潜力。新浪微博数据平台是一个良好的数据载体。除了足够大的数据量,相比与腾讯QQ空间,百度贴吧等,新浪微博还具有其他一些优点,如:1)
此文档下载收益归作者所有