欢迎来到天天文库
浏览记录
ID:33299021
大小:8.83 MB
页数:71页
时间:2019-02-23
《基于scrapy的电子商务网络测量与网络特征分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、另妻未交通义硕士学位论文基于Scrapy的电子商务网络测量与网络特征分析Scrapy—basedCrawlingandCharacteristicsAnalysisofanE.commerceNetwork作者:王静导师:郭字春北京交通大学2011年12月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、fI_=编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说叫)学位论文作者躲
2、可释导师签签字日期:J。f,年但月/7日签字日期娥皇静如{年(胡l’8巾圈分类号TN915学校代码:10004寓级公开51。匕京交通大学匕尿父嬗大芋硕士学位论文基于Scrapy的电子商务网络测量与网络特征分析Scrapy-basedCrawlingandCharacteristicsAnalysisofanE—commerceNetwork作者姓名:王静导师姓名:郭宇春学位类别:工学学科专业:通信与信息系统学号:09120091职称:教授学位级别:硕士研究方向:网络研究与应用北京交通大学2011年12月致谢本论文的工作是在我的导师郭宇春教授的悉心指导F完成的。本文从选题、谋题研宄、论文撰写到
3、最后完成,自始至终无不凝聚着郭老师的心血。她渊博的学识、严谨的治学态度、实事求是的工作作风以及谦逊豁达、平易近人的风格深深地感染着我、激励着我,使我在人生成长道路上受益匪洼。郭老师营造的宽松民丰的学术氛围极大地激发了我的刨新意识和进取精神,役有她的指导和鼓励,这篇论文是不刈能完成的。郭老师征学习、科研上给r找很多耐心的帮助。值此论文完成之际,谨向培养、关}不和帮助我的郭字春教授致咀由衷的敬意和诚挚的感谢!胡师舜老师对于我的科研工作和论文都提出了许多的宝贵意见,在学习和生活上都给予了我很大的关心和帮助,在此向胡师舜表示衷心的感谢。在实验室工作及撰写论文期间,张竹君,闰芳、粱生敦、谭小颖、邹慧珍
4、、毕廷洋、李光伟等同学在学习过程中与我进行了许多有益的交流和讨论.感谢他们对我工作、生活和学习给予的热情帮助,对我论文中的研究工作给予了热情支持和帮助.在此特向他们表达我的感激之情。最后衷心感谢此处未能一一提到的关心和支持我的人,谨向他们表示最真诚的谢意。些噩至道厶堂墅£芏盟坠窑生堑垴壁中文摘要摘要:互联网的广泛使J=}{和互联网应Hj的不断丰富为电子商务蓬勃发展提供丫怠立『的环境和契机。目前淘宝网是我国最具实力的个人对个人的网上交易网站,关于电子商务网络特征的研宄主要集中在淘宝同上.部是以电子商务的营销为日的来剖析刚上交易行为,主要包括信用评价体制、营销策略、卖家销售参数的统计分析等。本文
5、将从图论的角度来研究电子商务网络,首先通过数据抓取技术得到个真实的刚络数据集,然后在该数据集卜分析淘宝嘲的拓扑特征及其中川户行为特点。目的是探究在线社会网络中的用户行为对网上交易的影响。主要工作包括以F三个方面:第一,由于网络规模非常庞大且网络结构非常复杂,引入抽样技术成为大规模网络数据测量巾不可缺少的环节。本文提出了一种适用于二分网络的抽样算法,该算法是通过理论推导和算法实现的适应
6、生修改将适用于普通图的抽样算法MHRW(Metropolis--HastingsRandomWalk)算法推广到二分图上。MHRW掉法是一种性能比较好的无偏的抽样算法。为了验证该算法在二分图上的抽样性能,本文分
7、别在合成图和实际网络数据集上检测MHRW算法的抽样效果。第二,本文选用Scrapy爬虫框架作为爬取数据的工具。通过对淘宝网页页面格式的深入分析,结合BFS和MHRW两种抽样方法,在5台PC上同时并发连续运行爬虫程序30天.最终得到淘宝分享网络的数据集。本文中列出了数据抓取过程中遇到的主要问题,并通过对问题本质的剖析给出了最终的解决方法。为了分析分享平台与卖家特性的关系,本文还抓取了淘宝网中服装类所有卖家的信息。分析发现:网络中的商家存在短时间内迅速崛起的现象,说明电子商务为新生的有强劲发展实力的卖家创造了良好的环境,为新创业者提供了一个较好的平台。第三,在淘宝分享平台数据集上分析用户行为特征
8、。本文给出了所得数据集的规模参数,分析了买家、宝贝、卖家三类节点的属性特征,进一步给出了卖家与相连买家的各属性之间的关系,最后讨论了在买家分享网络的特点。分析结果表明,淘宝分享网络中买家和宝贝节点的度值大部分处于1∞100之间:宝分享平台本质上是大买家为大卖家做广告的一个平台,而其他的中小买家的分享行为只是帮助大买家支撑着这个平台,中小卖家也很少从这个分享平台中获益:最后发现相似买家的分享行为会有越来越相似的
此文档下载收益归作者所有