欢迎来到天天文库
浏览记录
ID:29472986
大小:1.26 MB
页数:66页
时间:2018-12-20
《基于数据挖掘的校园社交网络用户行为分析》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、1绪论1.1选题背景社交网络,简称SNS(socialnetworkservice),在Web2.0浪潮中已发展为社会化媒体中一个主要平台。据最新的中国互联网络信息中心(CNNIC)2013年1月15日发布的第31次《中国互联网络发展状况统计报告》,截至2012年12月底,我国网民规模达5.64亿,互联网普及率为42.1%,较2011年底提升3.8个百分点。同时报告显示,社交网络应用持续呈现增长趋势,截止2012年12月,国内社交网络用户总数已达2.75亿,占到了全部网民人数的48.8%,增速保持在10%以上。与此同时在2010年之后社交
2、网络又出现两大新增长点:其一微博用户持续增长,微博用户规模在2012年达到3.09亿,较2011年底增长了5873万。虽然微博急速扩张的阶段已经结束,但年增幅仍能达到23.5%;其二用户逐渐移动化成为了社交网络用户增长的又一亮点,截至2012年12月底,我国手机网民规模为4.2亿,较上年底增加约6440万人,网民中使用手机上网的人群占比由上年底的69.3%提升至74.5%,随着手机智能化,相当一部分用户访问和发送微博的行为发生在手机终端上,为社交网站的进一步发展提供了可能。此外“社交化”已经作为一种重要的功能元素,正在全面融合到各类互联网
3、应用中。一方面,2012年涌现出大批具备社交基因的新应用,包括图片社交、私密社交、购物分享等,尤其在移动互联网领域,由于手机天生的通讯功能,2012年许多热门移动应用都具备社交功能;另一方面,搜索、网购、媒体等互联网应用正在融合社交因素,以丰富自身的功能、提升用户体验,创新服务和盈利模式。在整个互联网都走向社交化的大趋势下,传统的实名制社交网站也不断增加平台功能,在原有网站基础上融入以上新型的社交功能组件,尤其是将业务发展重点转向移动终端,进而带动了2012年社交网站用户增长,同时也为社交网络的进一步发展提供无限可能。现行网络中较为成熟和
4、流行的社交网站有国外的Facebook,twitter,Google+,Plurk,Flickr,Linked—in等,而国内也不乏人人网、开心网、豆瓣、新浪微博、腾讯微博等社交网络应用或网站。社交网站具有巨大的用户群和访问量,并早已成为网络上极其重要的组成部分。其中Facebook每月活跃人士已超过7.5亿,根据股价估值也已接近千亿级别,已经成为互联网新巨头之一。而在国内的SNS中,人人网注册人数也已经超过1.6亿,活跃用户也超过了一半,国内互联网巨头阿里巴巴更是出资5.86亿美元购得新浪微博18%股份,表现了其对社交网络发展的看好[2
5、]。来自市场研究机构eMarketer的最新数据显示:在2012年,全球超过14亿人使用社交网络,比2011年增加了19%。图1-1社交网站发展时间表1.2研究意义社交网络的流行不仅带来了信息传播技术的革命性变革,并且一步步改变着人们的生活方式、思维方式等,对于社交网络的研究也不断深入。但目前对于社交网络的主体——网络用户的行为研究仍然比较冷门,主要研究都偏向于网络用户行为研究,很少有专门对于社交网络用户行为的分析化。目前,社会科学对网络行为的研究,主要集中在以下议题:作为行为场域的网络空间的社会特性网络行为及其影响因素虽然以上研究都已比
6、较深入,但大多的都从社会学角度切入研究宏观网络用户行为,内容与社交网络契合较少并偏向理论化,方法也大多采用问卷调查等主观性较强的方式,很少有通过技术手段采集客观数据并通过软件分析等方式进行研究的文献。而本文则通过网络爬虫采集相关数据,并通过数据分析软件Weka对采集数据进行数据挖掘,通过数据寻找社交网络用户行为及其影响因素,可以说是从一个比较新颖的角度分析了社交网络用户行为。如果能够有效的提取社交网络中的各种数据并对用户行为、群体特征等进行分析,掌握用户的行为模式及其影响因素,不仅能够帮助网站运营商全面掌握用户需求从而提供更好的服务和产品
7、,还能够帮助营销商更好地了解受众群体和信息传播模式进而采取更有效的网络营销和推广手段。1.3论文主要研究内容及组织结构1.3.1主要研究内容本论文研究内容主要包括一下三个方面:社交网络及社交网络用户行为该部分主要是为最终通过分析软件对社交网络用户行为进行总结做好理论基础准备。主要对社交网络概念产生、发展过程进行阐述。并对社交网络更加具有WEB2.0时代的特点进行描述。最后对一般社交网络用户行为动机进行分析。数据挖掘中的聚类分析这一部分主要对数据挖掘的聚类分析的定义、分析过程以及主要分析手段进行描述,并分析各聚类方法优缺点,最后通过根据收集
8、所得数据特征选取合适的聚类分析方法数据采集技术——网络爬虫该部分主要确定所要爬取的网页内容,并根据网站HTTP协议与网页行为特征制定定向网页爬虫方案,然后通过python语言实行具体编码。编码
此文档下载收益归作者所有