欢迎来到天天文库
浏览记录
ID:41327509
大小:4.25 MB
页数:31页
时间:2019-08-22
《度分离在社交网络中的验证贾溢豪组》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、六度分离在社交网络中的验证网络科学与策略机制贾溢豪黄昱恺李丽珊何林张婷Group2Part1六度分离理论背景方案论述数据获取Gephi数据处理六度分离理论验证Part2Part3Part4Part5化Part1六度分离理论背景六度分隔(SixDegreesofSeparation)哈佛大学社会心理学教授StanleyMilgram连锁信件实验任意两个人都可通过平均6个熟人联系起来“六度分割”在互联网中极具商业价值Blog、Facebook、LinkedIN信息时代对人类社会的再一次理解与探索Part1六度分离理论背景方案论述数据获取Gephi数据处理六度分离理论验证Part2P
2、art3Part4Part5化Part2方案论述中国较为主流的网络社交窗口微博、人人、空间、朋友圈Step1.捕获任意用户好友关系数据【150】Python语言编写网页爬虫Step2.绘制好友关系连接图【10w】导入Gephi绘制Step3.统计数据,计算节点间平均跳数Gephi、Excel统计化Part2方案论述核心统计参数度:节点做连接的边数,即指定用户的所拥有的好友数。离心率:从一个给定起始节点到距其最远节点的距离。紧密中心数:从一个给定起始节点到其他所有节点的平均距离。中介中心数:度量一个节点在网络中最短路径上出现的频率。Part1六度分离理论背景方案论述数据获取Gep
3、hi数据处理六度分离理论验证Part2Part3Part4Part5化Part3数据获取利用pythonHttplib2模块伪装浏览器,构造查询好友列表URL,发送HTTP请求给人人网,然后利用正则表达式解析服务器端返回的HTML文档,提取用户的好友信息Python程序核心思路化Part3数据获取从某人人用户开始,利用其登陆的cookie作为输入,作为爬虫起始点构建查询URL,伪装浏览器发送HTTP请求(需要随机更改报文头防止被屏蔽)解析服务器返回的HTML,利用正则表达式解析好友列表递归遍历起始点好友的好友列表,直到爬虫数据大小满足实验分析的要求化Part3数据获取repo_
4、mysql.py用于将解析过的好友列表和用户信息保存到mysql服务器中,提供了一些基本的好友数据的查询,插入,更新等接口函数spider.py以起始点用户的登陆cookie作为输入,遍历查询该用户的好友列表信息,并对每个好友,递归查询对应的好友列表信息,每次会从MySQL数据库中查询该用户的好友列表是否已经被检索过,从而提供了断开重连继续爬取的功能,从而形成一个好友网络查询顺序。核心模块介绍化Part3数据获取repo_mysql.py用于将解析过的好友列表和用户信息保存到mysql服务器中,提供了一些基本的好友数据的查询,插入,更新等接口函数spider.py以起始点用户的
5、登陆cookie作为输入,遍历查询该用户的好友列表信息,并对每个好友,递归查询对应的好友列表信息,每次会从MySQL数据库中查询该用户的好友列表是否已经被检索过,从而提供了断开重连继续爬取的功能,从而形成一个好友网络查询顺序。化Part3数据获取downloader.py该模块为好友数据爬虫的核心模块,提供了伪装浏览器发送请求和利用正则表达式解析返回信息的函数实现,传入参数为用户的cookie信息,用户添加在报文头中发送请求.i.浏览器报文头为了尽可能的避免爬虫程序被人人网服务器端检测并屏蔽掉,爬虫模块一方面可以通过随机时间休眠,另一方面可随机的替换报文头伪装不同的浏览器发送请
6、求化Part3数据获取ii.发送HTTP请求模块该函数接口传入参数url模式,item模式(用户信息),pageRange(可能好友列表有多页,需要多次请求获取),resend(超时重新发送请求最多次数),该模块发送url模式的请求,然后解析返回的HTML的itempattern来解析好友列表和用户配置信息化Part3数据获取iii.利用正则表达式解析HTML示例好友列表或者状态信息都会构造一个URLpattern和需要解析的数据pattern传递给ii.中的方法调用,图4给出爬取和解析好友列表的urlpattern和itempattern。化Part3数据获取选取150位用户
7、为初始节点通过人工挑选的方式选出具有代表性的用户作为爬虫的起始节点,组内5人每人挑选30人,共挑选150名人人网用户,随机挑选尽可能使用户不相关,并记录他们的人人ID2.登陆人人获取cookie用任意浏览器登陆人人,并保存登陆后的cookie用作之后的爬取。工作流程Part1六度分离理论背景方案论述数据获取Gephi数据处理六度分离理论验证Part2Part3Part4Part5化Part4Gephi图形绘制1.在Gephi中新建项目,选择“数据资料”,选择“输入电子表格”,导入data.c
此文档下载收益归作者所有