社会化网络数据获取技术研究与实现

社会化网络数据获取技术研究与实现

ID:35093294

大小:4.53 MB

页数:78页

时间:2019-03-17

社会化网络数据获取技术研究与实现_第1页
社会化网络数据获取技术研究与实现_第2页
社会化网络数据获取技术研究与实现_第3页
社会化网络数据获取技术研究与实现_第4页
社会化网络数据获取技术研究与实现_第5页
资源描述:

《社会化网络数据获取技术研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391单位代码:10183研究生学号:201於44097密级:公开戀古林大学硕女学T立论文专业単化()社会化网络数据获取技术硏究与实现studyandImplementationofDataAcquisitionTechnologyinSocialNetwork作者姓名:徐恒类别:工程硕dr领域(方向):软件工程指导教师:左万利教授培养单位:软件学院2016年4月未经本论文作者的书面授权,巧法收存和保管本论文书面版本、电子版本

2、的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限。)。否则,应承担侵权的法律责任吉林大学硕±学位论文原创性声明本人郑重声明:所呈交学位论文,是本人在指导教师的指导下。除文中已经注明引用的内,独立进行研巧工作所取得的成果容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研巧做出重要贡献的个人和集体,均已在文中W明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作

3、者签名:沒扛曰期:〇年月?曰之/6(¥社会化网络数据获取技术的研究与实现StudyandImplementationofDataAcquisitionTechnologyinSocialNetwork作者姓名:徐恒领域(方向):软件工程指导教师:左万利教授类别:工程硕士答辩日期:2016年5月28日摘要社会化网络数据获取技术的研究与实现我们生活在大数据时代,数亿人花费大量的时间在社会化网络上以史无前例的速度分享、交流、联系、互动,并且产生了海量的用户数据,这些丰富的数据为学术研究和产品开发提供了巨大的机会和潜能。对于

4、提供API社会化网络平台,我们可以方便地获取数据进行研究,对于不提供API的社会化网络平台,则需要编写爬虫程序来获取数据,这也是本文的研究内容。本文以国内最优秀的社会化问答社区知乎网为研究对象,研究知乎网爬虫的相关技术。本文主要的研究包括:对使用Ajax技术的网页的解析、爬虫爬取策略的研究、网站的模拟登录、多线程设计、URL去重设计等。本文工作如下:首先,分析知乎爬虫的主要问题并设计爬虫的主要模块。在这一部分本文介绍了爬虫设计相关的知识,如Ajax、URL去重、多线程、网页解析。也介绍了社会化网络的相关知识,如社会化网络的表示

5、方式、中心性、派系等。在这一部分,设计并实现了知乎爬虫的的主要模块,如模拟登录模块、用户解析模块、问题解析模块、话题解析模块、数据存储模块、控制模块、用户网络邻接矩阵生成模块,并且实现了爬虫的基本功能。其次,设计了知乎全网用户爬虫和知乎全网问题爬虫。在这部分主要研究了爬虫的爬取策略。对于全网用户爬虫设计了深度优先爬取策略、广度优先爬取策略和基于知乎话题结构的用户爬取策略。对于全网问题爬虫,则是通过知乎全部问题页面获取。在爬取到部分数据后,对数据进行了简单的分析,如用户的构成,问题答案数量的分布。最后,设计了知乎主题爬虫。这部分

6、主要研究了知乎主题爬虫的爬取策略,该策略是基于知乎网结构的广度优先爬虫。在选取一个主题进行爬取并得到数据后,对这部分用户进行了社会化网络分析,分析了其用户网络结构、中心性和派系,获知了知乎社区的结构特点。关键词:社会化网络;爬虫;多线程IAbstractResearchandImplementationofDataAcquisitionTechnologyinSocialNetworkWeliveintheeraofbigdata,hundredsofmillionsofpeoplespendalotoftimeontheso

7、cialnetworkinanunprecedentedspeedtoshare,exchange,contact,interaction,andgeneratedahugeamountofusers’data,Theseabundantdataprovideagreatopportunityforacademicresearchanddevelopmentofproduct.WiththeAPIsocicialnetworkingplatformsprovide,wecaneasilygetdatatostudy,somep

8、latformsdonotprovideAPI,weneedtowriteacrawlertogetdata,whichisthecontentofthispaper.Inthispaper,wetakethebestsocialonlineQ&AcommunitiesZhi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。