资源描述:
《基于微博用户的行为的数学建模和数据分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
上海交通大学工程硕士学位论文摘要转发率和发现有潜在影响力的用户。由于微博平台的迅速发展,其已成为了一个重要的广告平台。在本文中,我们试图通过对微博平台上广告传播的分析,发现微博广告传播的模式特征。我们收集了一些广告信息的传播数据,并将每条信息的传播途径用一个传播树表示。针对每个传播树,我们共提取了包括传播参与者的数量、传播途径的拓扑结构和时间方面的传播特征三个方面共33个特征,并使用K-Means聚类算法对这些传播树进行了聚类。通过对结果的分析,我们揭示了微博平台上广告传播的特征,说明不同类型的广告在微博平台上的传播情况。我们验证了名人效应在信息传播中的推动作用,指出推销类广告更适合微博平台。此外,基于发现的广告传播特征,我们进一步提出了对应的指标来评价微博平台上广告传播的实际效果。关键词:社交网络分析,用户模型,用户影响力,广告传播—ii—万方数据 上海交通大学工程硕士学位论文ABSTRACTMATHEMATICALMODELINGANDDATAANALYSISBASEDONMICROBLOGGINGUSERBEHAVIORABSTRACTWeibo,microblog,isacommunicationandinformationexchangeplatformforusers.Internetuserscansetuprealtimeinformationsharingcommunitiesindividual-ly,anduploadandupdateinformationinabout140charactersthroughdifferenttypesofclients,suchasWEBandWAP.Asaformofsocialmedia,itallowsusertoselec-tivelysubscribetootherusers’information.Severalpopularmicrobloggingsiteshavegrowndramaticallyintermsoftheiruservolumeinrecentyears.SinaMicrobloghasattractedmorethan365millionregisteredusersbytheendof2012,where100millionmessagesarepostedperday.Theexplosivegrowthofmicroblogshasattractedmanycorporations,organizationsandindividualswhohaveattemptedtomarketthemselvesthroughmicroblogging.Inthisstudy,westudythemicrobloggingplatformfromtwoaspectsincludingmeasuringuserinfluenceanddiscoveringpatternsofadvertisementpropagationinmi-croblog.Measuringsocialinfluencehasdrawnmoreandmoreattentionsandhasbecomeoneofthemostimportanttasksforsocialnetwork.Socialinfluencehasbeenappliedinmanyapplicationssuchasviralmarketingandpersonalizedrecommendations.Anumberofpreviousworksmeasureuserinfluencethroughanalyzingthenetworkchar-acteristicsorbyretweetrate.Thenumberoffollowersisusuallyconsideredtobeoneofthemostimportantindicatorsofinfluence,i.e.alargenumberoffollowersindi-catehighinfluence.However,severalstudieshaveshownthatthenumberoffollowersdoesnotcorrelatewellwithinfluence.Someotherstudiesuseretweetrateasthemea-surementofinfluence.Nevertheless,retweetrateinmicroblogisofteninfluencedby—iii—万方数据 上海交通大学工程硕士学位论文ABSTRACTfactorssuchasthetypeofcontentinthemessage,popularityofmessages,andtheusers’activelevel.Retweetrateforanindividualoftenchangesovertimeanddoesnotreflecttheinherentcharacteristicoftheusers.Anothersetofpopularlyemployedmeasurementforinfluenceisbasedonthenetworkstructure.PageRankandHITSarenaturallyadoptedtorateusersinamicroblogsite.However,thescoresgivenbythetwoalgorithmsdonotnecessarilypreciselyreflecttheinfluenceofusersbecausethefollowingrelationshipdoesnotmeaninfluence.Fortheseproblems,weproposeauserinteractionmodelinmicroblog.Takingaccountofusers’personalcharacteristicsaswellastheirinteractivitymakesourmodeldifferentfrompreviousworks.Thismodelconsistsofthreekeyfactors:user’sactivelevel,user’swillingnesstoretweet,andtheinfluencebetweenapairofusers.Theestimationofinfluencethroughthismodelismoreobjectiveandaccurate.Experimentsshowthatthismodelisabletopredictinfluenceathighaccuracy.Moreover,thismodelcanbeusedtopredictingretweetrateandfindingpotentialinfluentialusers.Becauseoftherapiddevelopment,microbloghasbeenconsideredasahigh-qualityadvertisingplatform.Inthisdissertation,weattempttorevealthepatternsofadvertisementpropagationthroughanalyzingtheadvertisementpropagationinmi-croblog.Wecollectedasetofmessagecascades.Eachmessagecascadesisrepresentedbyapropagationtreeand33featureswereextracted,whichcovermainlythreeaspectsofacascade:thevolumeoftheparticipants,thetopologyofthepropagationpaths,andthepromptnessofthepropagationintermoftime.Torevealthepropagationpatterns,wethengroupthesemessagecascadesusingK-meansclusteringalgorithm.Analysisoftheresultedclustersrevealsthepatternsofadvertisementpropagation.Weillus-tratethespreadofdifferenttypesofadvertising.Weverifythecelebrityeffectinthemessagepropagation,andpointoutthattheadvertisementsthroughsalespromotionaremoresuitableforthemicrobloggingplatform.Inaddition,basedontheadvertise-mentpropagationfeaturesweproposeseveralmetricstomeasuretheeffectivenessofadvertisementinmicrobloggingplatform.KEYWORDS:SocialNetworkAnalysis,UserModel,UserInfluence,AdvertisementPropagation—iv—万方数据 上海交通大学工程硕士学位论文目录目录摘要iABSTRACTiii目录v第一章绪论11.1研究背景和意义............................11.2微博研究的概述............................21.2.1关于用户影响力计算的研究概述..............21.2.2关于信息传播特征的研究概述................41.3本文的主要工作............................61.4本文的结构安排............................71.5本章小结................................7第二章研究方法的相关算法与基础理论82.1用户影响力计算的相关算法.....................82.1.1PageRank算法.........................82.1.2HITS算法...........................112.1.3Influence-Passivity算法....................132.2微博广告传播特征分析的相关数据挖掘算法............162.2.1K-Means聚类算法.......................162.2.2因子分析算法.........................182.3本章小结................................20—v—万方数据 上海交通大学工程硕士学位论文目录第三章新浪微博数据213.1新浪微博API及数据结构.......................213.1.1API授权机制.........................213.1.2主要接口说明.........................233.1.3数据结构与属性........................243.2新浪微博数据爬取程序........................243.3本章小结................................28第四章计算微博用户影响力294.1用户交互行为模型...........................294.1.1模型理论介绍.........................294.1.2算法综述............................304.2计算用户影响力的相关实验.....................354.2.1实验数据的获取........................354.2.2预测用户间的转发率.....................374.2.3发现网络中有影响力的用户.................404.3本章小结................................43第五章发现微博平台广告传播特征455.1引言...................................455.2微博信息传播的主要类型.......................455.3信息传播数据的处理.........................475.3.1实验数据的获取........................475.3.2信息传播数据的树形表示..................485.4信息传播树的聚类...........................505.4.1特征提取............................505.4.2聚类过程与结果........................525.5微博广告传播特征的分析.......................575.5.1微博广告的传播特征.....................57—vi—万方数据 上海交通大学工程硕士学位论文目录5.5.2信息传播中的名人效应....................605.5.3微博广告传播效果的评价..................625.6本章小结................................64第六章全文总结656.1本文工作总结.............................656.2工作展望................................66参考文献67致谢73攻读学位期间发表的学术论文目录74—vii—万方数据 上海交通大学工程硕士学位论文第一章绪论第一章绪论1.1研究背景和意义微博,即微博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。它最大的特点就是集成化和开放化,用户可以通过手机、网络等方式来即时发布消息,更新自己的个人信息,同时它还允许用户有选择性地订阅其他用户的信息[1]。2006年3月博客技术先驱blogger的创始人EvanWilliams首先提出了微博的理念,不久之后JackDorsey创办了Twitter,短短几年间注册用户数就超过了1亿,成为了一个世界知名的社交网站,在某种程度上甚至改变了人们的生活方式[2]。同样,国内的新浪微博,自2009年8月推出以来,用户数量呈现级数增长,现在已有超过3.65亿的注册用户,平均每天约有1亿条信息被发布(截止至2012年8月底)[3]。如今,Twitter和新浪微博作为著名的微博平台,已经吸引了大量的企业、组织和名人,他们都希望通过微博平台来推销自己。毫无疑问,具备信息量大、种类丰富、传播速度快等特点的微博已经发展成为了当今最主要的信息发布及交流平台。当前,社交网络的各种应用种类繁多。对于社交网络的分析,也吸引了来自现代社会学、人类学、社会语言学、地理、社会心理学、计算机学、信息学、组织研究、经济学,以及生物学等多个领域研究人员的热切关注[4]。作为社交网络的一个分支,微博网络具备很多优点:网络结构简单,用户间只有关注与被关注的关系;用户行为简单,只能发布信息,或者转发、回复、评论某条信息。这些优点使得微博相较于其他社交网络平台更适合于数学建模。微博,因为其拥有的巨大用户群,已被认为是一个相当重要的媒体平台,成为了当前主要营销渠道之一。为了更好地了解信息是如何在微博平台上传播的,一个重要的任务就是计算用户的社交影响力。关于用户的社交影响力有多种解释,在本文中我们认为用户的社交影响力是指用户在交流中吸引其他听众的能力以及其传播信息的能力。用户影响力的计算在实际应用中十分重要。许多应用,如病毒营销[5]和个性化推荐[6],都需要利用那些具备高影响力的个人—1—万方数据 上海交通大学工程硕士学位论文第一章绪论来优化信息的传播。比如,一些市场营销活动可以通过最有影响力的用户(如明星)来做广告,从而实现在一个较低的成本下覆盖最大范围的用户群。近几年来出现了一些提供计算用户个人影响力的网站,如Klout[7]、PostRank[8]和PeerIndex[9]等,它们能根据用户在社交网络上的活动信息来综合计算用户的影响力。在本文中,我们基于微博用户的行为特点建立了一个微博用户交互行为模型,通过其来计算用户间的相互影响力。微博作为一个重要的推广平台,如何做到成功营销,有必要解决下面几个问题:信息是如何在微博平台上传播的?为什么有些广告能比其它广告传播得更远,覆盖更多的用户群?传统媒体平台上(如电视)的广告传播主要取决于用户的收视行为和用户间的口口相传,但是微博上的广告传播与之有着很大的不同。微博上的信息传播在很大程度上是依赖于用户间建立的关注关系。用户关系是社交网络的核心,用户通过关注其他用户来订阅信息。这种关注与被关注的关系显示着用户间的共同兴趣。因此,在某种程度上,微博平台上的广告比起其他平台更具针对性。在本文中,我们希望通过对微博平台上信息传播的分析,发现一些微博广告传播的模式特征。1.2微博研究的概述微博从一出现就因为它的开放性及便捷性吸引了大量的客户,作为社交媒体的一种形式,其承载着大量的用户信息,自然也吸引了来自各个领域的研究。早期的微博研究大多着眼于微博平台的一些基本特性。例如,Kawk等人[10]通过研究发现微博用户的粉丝数(Followers)基本上符合幂律分布(Power-lawDistribution)[11],并且他们对于用户的发帖时间习惯以及微博内容的话题分布也做了一定的研究。另外,微博数据也经常被用来预测一些现实社会中的事件,如Twitter信息曾被成功用来预测股票市场的走向[12]。除此之外,微博数据还被用来生成地震[13]和猪流感流行[14]的早期警告。可见针对微博的研究范围十分广泛。然而,如何计算用户的社交影响力以及了解微博上的信息是如何传播的仍然是当今微博研究中最重要的两个方向。1.2.1关于用户影响力计算的研究概述在研究用户影响力的计算方面,一些研究侧重于那些在社交网络中具有关键影响力的用户,他们认为用户的粉丝数量是衡量用户影响力的一个—2—万方数据 上海交通大学工程硕士学位论文第一章绪论非常重要的标准。那些与周围用户有着广泛关系链接的个人是使得信息能够在网络中传播的关键因素。这类研究通常把分析的重点放在社交网络图的特性中。例如,Ghosh等人[15]提出了一种基于网络图论特性的模型,其能预测Digg[16]上用户后期生成的投票数。他们将基于网络图论特性的用户影响力计算归纳为两种类型:一种是基于路径长短的排名计算方法,如接近中心性(ClosenessCentrality)、图的中心度(GraphCentrality)和中间中心度(BetweennessCentrality);另一种是基于拓扑特性的排名计算方法,如PageRank[17]和HITS[18]。虽然PageRank和HITS起初是为了计算网络中网页影响力而提出的算法,但是因为社交网络的基本属性与网页相似,它们很自然地被运用到了微博平台的用户排名计算上。然而,因为用户间的关注与被关注关系并不是影响力直接作用的结果,用户关注其他用户的行为可能有多种原因,例如亲戚、同事、同学等等,只有一部分是基于共同兴趣爱好的,所以这两个算法得出的用户影响力得分并无法准确地反映用户在微博网络中的实际影响力。而且,针对PageRank和HITS算法存在着一些欺骗手段,某些用户可以通过关注那些“权威”用户来提高自己的影响力得分。最近,有些研究发现用户的粉丝数量和其自身的影响力并不是很相关,其认为用户的粉丝数量并不是一个衡量用户影响力的好标准。Kwak等人[10]将Twitter上的用户根据其粉丝数量进行排名,同时也用PageRank算法进行计算,发现这两个结果十分相似。Cha等人[19]比较了Twitter上与用户影响力相关的三个指标:入度(Indegree)、转发数(Retweets)和评论数(Mentions)。他们发现,虽然用户的转发数与其评论数紧密相关,但是用户的入度与其转发数和评论数的相关性并不好。这就表示用户的粉丝数量并不能反映用户的影响力。相似的还有,Ye等人[20]提出了评价用户社交影响力的三个指标:追随者影响力、回复者影响力和转推者影响力。他们检查了这三个指标的稳定性、评估性以及三者间的相关性,指出这三个指标与用户的粉丝数量并没有关联性。Huberman等人[21]提出一个网络中所谓“朋友”的概念,这些“朋友”之间会经常交换信息。他们通过观察发现,网络中的信息数量与“朋友”数量的相关度要远高于其与粉丝数量的相关度。Kwak等人[10]检查了微博信息的传播,并研究了那些粉丝数量超过1000的用户,发现一条信息被转发后覆盖的平均用户数量并不受到信息源发者的粉丝数量大小影响。—3—万方数据 上海交通大学工程硕士学位论文第一章绪论关于用户影响力的计算,除了基于用户的粉丝数量外,另有一些研究是使用用户间的转发率作为计算影响力的主要变量[19,22,23]。其中,Romero等人[22]以用户间的转发率为基础提出了Influence-Passivity算法。他们指出微博网络中的信息传播不但取决于用户自身影响力的大小,而且也受到用户自身消极性的影响。这个算法在计算用户影响力的同时,也计算了用户的消极性。但是,微博中的用户转发率容易受到很多因素的影响,例如信息的内容、流行程度和用户自己的活跃度等。而且一个用户的转发率经常随着时间改变,无法反映用户的固有特性。在本文中,我们提出了一个微博用户交互行为模型,这个模型主要考虑了以下三个关键因素:用户的活跃程度、用户的转发意愿和用户间的影响力。之所以将用户的活跃度加入到我们的模型中,主要是受到了当前微博研究中很多关于用户活跃度研究的启发。Sysomos’InsideTwitter[24]调查报告指出,通过研究了超过1100万用户的数据,发现10%的Twitter用户贡献了超过86%的总活跃度。Agarwal等人[25]研究了在博客中寻找有影响力博主的问题,发现大多数最有影响力的用户并不是最活跃的。通过这些研究不难发现,如果要准确地计算用户影响力,用户的活跃程度是一个必须要考虑的因素。另外,在社交网络研究中也存在一些与本文工作相近的研究。Galuba等人[26]提出了一种信息传播模型,其能基于某个用户的历史活动记录来预测这个用户是否会发布某个URL的相关信息。这个传播模型同时考虑了几个关键因素:内容流行度、用户间的影响力和传播的比例。同样,Goyal等人[27]从用户的社交图和活动记录出发研究用户的影响力计算问题。他们提出了一个用于计算影响力且兼具静态和时间依赖性的模型,同时还展现了这个多态模型中的参量学习算法。此模型的主要目的是预测两个相邻用户间的影响力概率。这两项研究和我们在本文中的工作有些相似。我们的模型与其的主要区别是,我们的模型考虑了更多的用户个人基本属性,包括用户的活跃程度和其转发意愿。1.2.2关于信息传播特征的研究概述微博因为其拥有巨大的用户数量,已经被认为是最重要的广告平台之一,吸引了大量的公司、组织和个人,他们都希望能在微博平台上推销自己。因此,研究信息在微博平台上的传播特征亦是当前微博研究的一个重点。信息的内容以及作者的影响力通常被认为是影响信息传播的两个最重要—4—万方数据 上海交通大学工程硕士学位论文第一章绪论的因素。很多研究指出信息的内容[28–30]和情感[31,32]在信息的传播中起到非常重要的作用。同时,也有些研究通过计算用户影响力来分析信息的传播特征[33,34]。最近,很多理论研究工作提供了一套非常丰富的模型来解释微博平台上的信息流和社交网络结构问题。例如,Nowell等人[35]研究了互联网上有关伊拉克请愿书的连锁信。他们用三个度量标准来描述传播树:中间结点深度、宽度和每一个子结点的比例。他们发现这些连锁信在一个狭窄但非常深的树形中传播,并以此特征出发生成了数百级的传播。Roderigues等人[36]通过比较不同内容的信息传播途径形状后发现,不同于互联网上的连锁信,Twitter上的信息传播途径显得宽度更大。Yang等人[37]分析了Twitter上影响用户转发行为的几个因素,如用户、信息和时间。基于观察,他们提出了一个因子图模型,其可以用来预测用户的转发行为和一条新微博信息的传播范围。Ratkiewicz等人[38]展示了一个能跟踪Twitter上政策模因的Web服务,他们将对信息内容与时间序列的挖掘和复杂网络分析结合在一起,从而分析一些模因是如何像病毒般在网络中扩散的。除了对信息传播途径形状与结构上的分析,时间也被认为是信息传播中一个非常重要的因素。Ye等人[20]通过信息传播出去的层级数量以及转发和评论的时间周期来评价信息的传播效果。Kwak等人[10]调查了1.06亿条微博信息的传播情况。通过分析不同时间段内的流行程度及转发树中的信息扩散情况,他们发现73%的话题只有一个活跃期,在一个转发树中用户的分布情况符合幂律分布。Xie等人[39]提出了一个由兴趣主导的模型,其能模拟基本用户的通信行为和过程。他们发现个人行为中那些由突发事件引起的爆发阶段被其长期的不活动状态所分割,用户的集群行为符合重尾的幂律分布。另外还有一些关于信息传播特征的研究工作着眼于用户的标签(Hashtag)和URL链接。如Romero等人[40]针对多个被广泛采用的标签,研究了其最先转发者的子图结构,发现不同主题的标签在传播的方式上有着很大的不同。Galuba等人[26]和Rodrigues等人[36]等人跟踪了互联网用户中关于URL的口头传播情况。同样,Galuba等人[26]基于对用户活跃度和社交图的分析,提出了一个信息传播模型,来预测用户对某个URL的喜好程度。“名人效应”也被认为是影响信息传播的一个因素。例如,Bakshy等人[41]发现那些被广泛传播的信息中大多涉及一些很有影响力的用户或是一些拥护大量粉丝的用户。然而,在实际情况中,某位名人可能发布了许多信息,但其中—5—万方数据 上海交通大学工程硕士学位论文第一章绪论只有小部分得到了大范围的传播。Kawk等人[10]和Cha等人[19]通过研究也发现了类似的情况,他们指出一条信息得到的转发数和评论数与粉丝的数量并不相关。在本文中,我们也探讨了微博平台中的“名人效应”问题,在判断其是否存在的同时,也讨论了一些影响因素。1.3本文的主要工作本文完成的主要工作有:(1)针对微博平台上用户影响力计算的问题,建立了一个微博用户交互行为模型。这个模型通过研究两个用户间的信息交流行为和用户的个人行为特征来判断这两个用户之间的影响力。这个模型主要包括三个关键因素:用户的活跃程度、用户的转发意愿和两个用户间的影响力。前两个因素反映了用户的个人特性,而第三个因素就是我们希望去推断的。这个模型不但考虑了社交网络的结构属性,而且也考虑了用户的行为特征及其交互性。这使得我们的模型不同于之前那些只考虑用户的粉丝数量或是转发率的模型,能够对两个用户之间的影响力有一个比较客观且准确的估计。这个模型的另一个优点是模型的拟合只需要一个子图即可,因此可以通过分段进行。通过此模型确定用户间的影响力大小后,我们可以通过进一步计算发现网络中那些具有潜在影响力的用户。我们在新浪微博的数据集上拟合了此模型,发现该模型在准确计算用户间影响力之外,还能被用来预测用户间的转发率,以及发现一些被之前算法忽略但实际很有影响力的用户。(2)挖掘微博平台上广告传播的主要模式。我们收集了一些微博平台上广告传播数据,其中主要分为三种类型广告:产品介绍类、明星推销类和促销类。同时,我们也收集了一些其他类型的信息作为研究分析时的对比参照组,包括新闻与生活小贴士等。我们将每一条信息的传播途径表示成一个传播树,并针对每个传播树提取了33个特征,这些特征主要包括以下三个方面:传播参与者的数量、传播途径的拓扑结构和时间方面的传播特征。为了了解其传播特征,我们用K-Means方法对这些传播树进行了聚类。通过对聚类结果的分析,我们揭示了微博平台上广告传播的特征,说明不同类型的广告在微博平台上的传播情况。我们验证了名人效应在信息传播中的推动作用,指出推销类广告更适合微博平台。此外,基于发现的广告传播特征,我们进一步提出了对应的指标来评价微博平台上广告传播的实际效果。—6—万方数据 上海交通大学工程硕士学位论文第一章绪论1.4本文的结构安排本文之后章节的内容安排如下:第二章将介绍一些与本文研究工作相关的算法与基础理论,包括用户影响力计算方面的主流算法,以及在分析微博广告传播特征时用到的数据挖掘算法。第三章将介绍我们的新浪微博数据爬取程序以及数据结构和基本属性。第四章主要介绍了我们提出的微博用户交互行为模型,我们用此模型计算微博用户的影响力并预测用户间的转发率。第五章介绍了微博广告传播数据的获取及处理过程,发现不同类型的广告信息传播特征,并针对微博平台的特征,提出一套微博广告传播效果评价标准。第六章总结了本文的主要工作,并提出有待解决的问题与未来研究方向。1.5本章小结本章为绪论部分,主要阐述了本文的研究背景与意义,并对相关研究工作进行了总结。针对当前在用户影响力计算方面存在的不足,提出了自己的微博用户交互行为模型;同时,对于微博平台上广告传播特征的研究做了简要介绍。最后简单介绍了本文的主要工作以及结构安排。—7—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论第二章研究方法的相关算法与基础理论在本章,我们会针对当前微博研究中用户影响力计算方面的相关算法,另外对我们在做微博广告传播特征分析时用到的相关数据挖掘算法做一个简单的介绍,为后面章节更加深入的讨论做好铺垫。2.1用户影响力计算的相关算法上文中我们提到,当前关于微博中用户影响力计算的研究主要分为两个方向:一是侧重于社交网络中用户的粉丝数量,这类研究通常把分析的重点放在社交网络图的特性中;另一些研究是使用用户间的转发率作为计算影响力的主要变量。在本章,我们会针对用户影响力计算中几个比较典型的算法做一个简单的介绍,包括PageRank算法[17]、HITS算法[18]和Romero的Influence-Passivity算法[22]。PageRank和HITS算法是计算互联网中网页影响力的著名算法。因为社交网络的基本属性与互联网很相似,它们很自然地被运用到了微博平台的用户排名计算上。Romero的Influence-Passivity算法以用户间的转发率为基础,在计算用户影响力的同时,也计算了用户的消极性。我们在此简单介绍这几个算法的基本理论,其将会在后面章节中具体实现,并与我们模型的结果作比较。2.1.1PageRank算法PageRank,是一种由搜索引擎根据网页之间相互的超链接计算技术,被作为网页排名的要素之一,以Google公司创办人LarryPage之姓来命名[42]。PageRank是通过网络中不同网页间的超链接关系来确定一个页面的等级,得到的PageRank分值即表示某一网页在此网络中的重要程度。2.1.1.1理论与算法PageRank算法中将不同网页间的超链接认为是一种网页权威性的体现,指向某一网页的超链接被认为是对这个网页支持或认可的一种投票。例如,从页面A到页面B的链接被解释为页面A给页面B投票。一个页面的“得票数”—8—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank值是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。从某种角度来说,PageRank是一种概率分布,用来表示某一用户通过随机点击超链接进入到任何特定网页的可能性。每一个概率表示为0到1之间的一个数值。如一个网页的PageRank得分为0.5,即表示一个用户通过随机点击一个链接进入这个网页的概率为50%。假设一个由4个页面组成的小团体:A、B、C和D。忽略那些链接到自身页面的和不属于这4个页面的链接,所有4个页面的PR(PageRank)值都被初始化为0.25。如果所有页面都链向页面A,那么页面A的PR值将是页面B、C及D的和。PR(A)=PR(B)+PR(C)+PR(D)(2-1)如果页面B除了页面A以外也有链接到页面C,并且页面D也有链接到包括页面A的3个页面。因为一个页面不能投票2次,所以页面B给每个页面半票。以同样的逻辑,页面D投出的票只有三分之一算到了页面A的PageRank值上。PR(B)PR(C)PR(D)PR(A)=++(2-2)213通常,任一页面u的PageRank值是链入其每一个页面的PR值除以其链出总数的和,如下式所示:∑PR(v)PR(u)=(2-3)L(v)v∈Bu其中L(v)是页面v的链出总数,Bu为所有链入页面u的页面集。PageRank的理论认为,假设有一个虚构的上网者,会随机点击一些链接,打开一些网页,如果他不断点网页上的链接,最终到了一个没有任何链出的页面,这时候上网者会随机到另外的页面开始浏览。为了对那些有链出的页面公平,阻尼系数d(DampingFactor)的概念被引入。其意义是,在任意时刻,用户到达某页面后继续点击,链接向后浏览的概率为d,用户停止点击,随机跳到新页面的概率为1−d。(有很多研究测试了不同的阻尼系数,现在一般假设—9—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论阻尼系数d的大小约为0.85[42]。)因此,PageRank的计算被修改为下式:1−d∑PR(pj)PR(pi)=+d(2-4)NL(pj)pj∈M(pi)其中p1,p2,...,pN是被研究的页面,M(pi)是链入页面pi的页面集,L(pj)是页面pj的链出总数,N是所有页面的数量。实际计算中,PageRank值通常被表示成一个特殊矩阵中的特征向量。这个特征向量为:PageRank(p1)PageRank(p2)R=..(2-5).PageRank(pN)R是下式的计算结果:(1−d)/Nℓ(p1,p1)ℓ(p1,p2)···ℓ(p1,pN)..(1−d)/Nℓ(p2,p1).R=..+d..R(2-6)..ℓ(pi,pj)(1−d)/Nℓ(pN,p1)ℓ(pN,pN)∑N其中i=1ℓ(pi,pj)=1,如果pj不链向pi,则ℓ(pi,pj)等于0。每个页面的PR值都是通过不断地重复计算的迭代结果。首先给每个页面一个非0的随机PR值(通常为1/N),经过不断的重复计算,这些页面的PR值会趋向于正常和稳定。其迭代过程如下所示:1−dR(t+1)=dMR(t)+1(2-7)N其中Ri(t)=PR(pi;t)表示第t次迭代的PR值,1是长度为N的列向量,矩阵M定义如下:1/L(pj),ifjlinkstoiMij=(2-8)0,otherwise2.1.1.2微博中的运用因为在微博网络中,用户间的关注与被关注的关系与互联网中网页间的超链接类似。上文中提到,PageRank算法假设指向某一网页的超链接是对这个网—10—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论页支持或认可的一种投票。同样,一个用户被其他用户关注通常被认为是其影响力的一种表现。所以,PageRank算法也经常被运用到微博网络中用户影响力排名上,用户的PR值也被认为是其影响力的反映。当然,PageRank算法也存在着一些缺点。首先,旧的页面分值往往会比新页面高,即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。同样,对于微博网络中的用户也是如此,新用户的分值通常没有老用户高。这就导致了一些欺骗手段的存在,某些用户可以通过关注那些“权威”用户或者是建立很多不活跃的帐号来关注自己来提高自己的影响力得分。另外,在PageRank算法中,虽然对一个网页来说,其不同的链入网页有着不同的PR值,但是对其链出的网页来说得到的都是相同的PR值。因此,当PageRank算法运用到微博网络时,那些影响力得分高的用户基本上都是粉丝数量大的用户。然而,在实际情况中,不同用户间的影响力应该是不同的,无论是关注还是被关注。PageRank算法在这方面欠缺考虑。针对PageRank算法中将不同边的权重按平均分配的缺点,Xing等人[43]提出了weightedPageRank算法。在weightedPageRank算法中,不同点之间的边有着不同的权重。如此一来,研究用户影响力问题的核心就变成了如何确定两个用户之间的影响力。在本文中,我们通过一个微博用户交互行为模型来计算用户间的影响力,然后以此为权重,使用weightedPageRank算法。实验结果表明其明显优于传统的PageRank算法。2.1.2HITS算法HITS算法(Hyperlink-InducedTopicSearch),同PageRank类似,是一个由JonKleinberg提出的网页之间相互的超链接计算技术,通过网页的入度(该网页的链入数)和出度(该网页的链出数)来衡量该网页的重要性[44]。HITS算法认为,如果一个网页的重要性很高,则其所指向的网页的重要性也高,一个重要的网页如被另一个网页所指,则表明指向它的网页重要性也会高。基于此,HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权—11—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论威度越高。因此,HITS算法提出通过两个评价权值,内容权威度(Authority)和链接权威度(Hub),来对网页质量进行评估。那些Hub值高的网页可能实际上并没有很多权威的信息,但是因为有汇集大量信息的目录,经常被用来引导用户链入其它权威网页,而Authority值高的网页通常被很多Hub值高的网页所链入。HITS算法中Hub和Authority值的计算是一个相互递归的过程。某个网页的Authority值是其所有链入网页的Hub值总和,而这个网页的Hub值是其所有链出网页的Authority值总和。如下式所示:∑Authority(p)=Hub(v)(2-9)v∈Bin∑Hub(p)=Authority(u)(2-10)u∈BoutHub和Authority分值的具体计算过程如下:1.将所有结点的Hub值与Authority值初始化为1;2.更新所有结点的Authority值;3.更新所有结点的Hub值;4.归一化,将Hub值除以所有结点的Hub值的平方和,Authority值除以所有结点的Authority值的平方和;5.如有必要从上述第二步起重复上述操作然而,和PageRank算法一样,HITS算法完全将网页内容排除在外,仅考虑网页之间的链接结构来分析页面的权威性。与现实网络中的权威页面相比,HITS算法表现出明显的不足。当HITS算法被运用到微博网络中时,它同样忽略了用户间的互动性,只考虑了用户间的关注关系。当运用HITS算法计算微博用户影响力时,用户的Authority值与用户的粉丝数量间表现出很高的相关性,这个现象和PageRank算法的相同,对此我们也将在后面的实验中具体实现。虽然HITS算法有着这些缺点,但是不同于PageRank算法的只有一个分值,它提出了Hub和Authority两个不同的指标来描述网页的特性,从而更加—12—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论具体地反映了网页的权威性。受到此想法的启发,Romero等人[22]以用户间的转发率为基础提出了Influence-Passivity算法。他们指出微博网络中的信息传播不但取决于用户自身影响力的大小,而且也受到用户自身消极性的影响。因此这个算法不但计算了用户影响力,同时也计算了用户的消极性,通过这两个评价指标来评估用户在微博网络中的权威性。下面我们将简单地介绍一下Influence-Passivity算法。2.1.3Influence-Passivity算法社交网络中的用户权威性一般可以通过两个方面来体现:一是那些选择订阅该用户信息,与其建立关注关系的粉丝;另一方面是这些粉丝个人的影响力,表现为他们发布的内容在网络中实际传播的情况。这种影响力受到很多因素的影响,例如内容的新颖性、转发或回复者对信息的响应程度,以及发布信息的质量与频率。然而,Romero等人[22]认为网络中用户的消极性也同样重要,其会阻碍信息在网络中的传播。因此,同时计算用户的消极性与影响力在了解信息传播特征、用户观点、病毒市场营销及发现社会热点话题方面都十分有用。受到HITS算法[18]的启发,Romero提出通过影响力和消极性两个方面来评价用户在社交网络中的作用,并基于此建立了一个微博网络用户影响力计算模型。这个模型同时考虑了社交网络的结构属性和用户间的行为差异,因此所得到的用户影响力不但取决于用户的权威粉丝数量,而且也考虑了他们的消极性。微博被很多用户当作一个用来传播观点、知识或状态的工具。一个很有趣且重要的问题就是是否有可能识别那些擅长传播信息的用户,这些用户不仅仅是将信息传播给他们的粉丝,而是传播到网络中一个更大的范围。在现实中,两个用户之间的影响力信息比较容易获得。例如,可以通过计算用户B转发用户A信息的次数来判断用户A对用户B施加的影响力。然而,利用这种两个用户间的影响力信息来准确获得整个微博网络中用户间的相对影响力却十分困难。为了解决这个问题,Romero等人[22]提出了Influence-Passivity算法,其能计算整个网络中每个用户的相对影响力得分及其消极性得分。他们通过对微博网络中用户行为的观察分析,对这个模型做了如下假设:•一个用户的影响力得分取决于受影响的用户数量,以及他们的消极性;—13—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论•一个用户的影响力得分取决于受影响用户对其的专注程度,而专注程度的大小通过比较该用户对其和对其他用户的关注量(转发数量)得到;•一个用户的消极性得分取决于那些关注其但没有受其影响的用户的影响力大小;•一个用户的消极性得分是通过比较其拒绝的用户影响力大小与其他所有人拒绝的用户影响力大小得到。与PageRank和HITS算法类似,Influence-Passivity算法也是通过重复的迭代,同时计算影响力和消极性得分,具体过程如下:首先,确立一个带权重的有向图G=(N,E,W),其中N是点(用户),E是边(用户间的关注关系),W是边的权重。每条边e=(i,j)的权重wij表示用户i对用户j的实际影响行为占用户i对用户j施加的全部影响行为的比重,实际计算中采用的是用户j对用户i的转发率。Influence-Passivity算法的一个输出I:N→[0,1],表示用户在整个网络图中的相对影响力得分;另一个输出P:N→[0,1],表示用户的相对消极性得分。Romero定义了一个概念,对于每一条边e=(i,j)∈E都有一个接受率wijuij=∑,其表示为用户j对用户i影响力的接受度占用户j接受的网k:(k;j)2Ewkj络中所有用户影响力的比重,接受率也可以看作用户j对用户i的专注程度或忠诚度。此外,还定义了另一个概念,对于每一条边e=(i,j)∈E还有一个拒1−wji绝率vij=∑(1−w)。因为1−wji是用户i对用户j影响力的拒绝程度,k:(j;k)2Ejk所以vij表示用户i对用户j影响力的拒绝度占用户i拒绝网络中的所有用户影响力的比重。该算法中I和P的迭代过程如下:∑Ii←uijPj(2-11)j:(i;j)∈E∑Pi←vjiIj(2-12)j:(j;i)∈E上式中,第一个式子是关于Ii的更新,其中Pj的概念对应了上文的模型假设中第一条假设,uij对应了第二条假设;同样,上述第二个式子是关于Pi的更新,其中Ij的概念对应了模型假设中第三条假设,vji对应了第四条假设。—14—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论Influence-Passivity算法以带权重的有向图G为输入,经过m次迭代,计算和输出用户的影响力得分I和消极性得分P。其具体过程如Algorithm1所示。Algorithm1TheInfluence-Passivityalgorithm|N|I0←(1,1,…,1)∈R;|N|P0←(1,1,…,1)∈R;fori=1tomdoUpdatePiusingthevaluesIi−1;UpdateIiusingthevaluesPi;forj=1to|N|doIjIj=∑;k2NIkPjPj=∑;k2NPkendforendforReturn(Im,Pm)Influence-Passivity算法虽然在形式上和HITS算法有些相近,如影响力得分I和HITS算法的Authority得分都是用户权威性的反映。但是,Influence-Passivity算法的运算是建立在有权重的有向图上面的,在考虑网络结构特性的同时,也考虑了用户间的互动特性,如用户间对于影响力的接受率和拒绝率。这样一来,通过Influence-Passivity算法计算得到的用户影响力更符合实际情况。在下文的实验中,我们也将实现Influence-Passivity算法,实验结果显示其计算的用户影响力与用户的粉丝数量间的相关性要明显地小于PageRank和HITS算法。然而,Influence-Passivity算法也有其不足的地方。主要是关于边的权重问题,Influence-Passivity算法中采用用户间的转发率作为边的权重。但是,微博中的用户转发率容易受到很多因素的影响,例如信息的内容、流行程度和用户自己的活跃度等。而且一个用户的转发率经常随着时间改变,无法反映用户的固有特性。最终导致Influence-Passivity算法计算出的用户影响力会在短时间内变得很大。我们认为用户影响力相比较转发率来说应该更具有持久性,不会在短时间内迅速变化。因此,在计算用户影响力的时间,除了网络结构特性、用户间的—15—万方数据 上海交通大学工程硕士学位论文第二章研究方法的相关算法与基础理论互动特性外,也应该考虑用户的个人特性。我们根据此原则提出了一个微博用户交互行为模型,其中考虑了用户的活跃程度和用户的转发意愿这两项用户个人特征。实验结果表明我们模型的结果要明显优于上述三种算法。后文中我们将具体介绍此模型。2.2微博广告传播特征分析的相关数据挖掘算法数据挖掘(DataMining),又称数据库知识发现(KnowledgeDiscoverinDatabase),是目前人工智能和数据库领域研究的热点问题。所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是本身一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,从而帮助做出正确的决策。数据挖掘通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。通常被用来做关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等[45]。在本文中,我们通过采用数据挖掘技术来发现微博平台上广告传播的一些特点。我们主要是通过数据挖掘技术中的聚类分析方法来研究微博平台上广告传播的特征和模式。所谓聚类就是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系[46]。下面我们将就之后微博广告传播特征分析实验中用到的K-Means聚类算法和因子分析算法做简单的介绍。2.2.1K-Means聚类算法K-Means聚类算法[47]是一种最经典也是使用最广泛的聚类方法,时至今日任然有很多基于其的改进模型提出。K-Means聚类能把n个对象根据他们的属性分为k个分割(k01.70241.33831.26181.22540.9811≥51.68121.32521.24871.21230.9679≥101.65231.30381.22721.19070.9461≥201.62291.29441.21731.18070.9355≥301.60901.28681.20951.17270.9263≥501.59181.27701.19991.16240.9139≥701.58161.27381.19801.16030.9100≥1001.49301.26631.19721.15950.90934.2.3发现网络中有影响力的用户发现网络中有影响力的用户对于社会学或是病毒营销来说都十分重要。然而,因为有垃圾帐号和不活跃帐号的存在,那些拥有很多粉丝的大众用户不一定是具有影响力的用户。Cha等人[19]发现那些具有影响力的用户并不是自发或是突然获得影响力的,而是通过对某一话题的一些微博在网络传播中产生共鸣而得到的。因此,通过计算用户在网络拓扑结构中的入度数对于发现有影响力的用户帮助不大。基于我们获取的实验数据集,我们建立了一个带有权重的有向图G=(N,E,W),并将通过我们的微博用户交互行为模型计算得到的用户间影响力fij作为这个有向图中边的权重。前文中我们提到过,因为在微博网络中,用户间的关注与被关注的关系与互联网中网页间的超链接类似,PageRank算法也经常被用来发现有影响力的用户[17,58]。因此,针对我们建立的有向图G,我们以模型计算的用户间影响力为权重,以用户间的关注关系为边,使用weightedPageRank算法[43]来计算每个结点的影响力分值。在这个实验中,因为使用了新的权重计算方式使我们发现的有影响力用户结果不同于之前的一些工作。为了将我们的结果与其它方法作比较,我也在实验数据集上使用了PageRank算法[17]、HITS算法[18]和Romero的Influence-Passivity算法(下文简称IP算法)[22]。—40—万方数据 上海交通大学工程硕士学位论文第四章计算微博用户影响力表4-6不用算法的用户影响力排名结果,包括PageRank算法、HITS算法、Romero的IP算法和weightedPageRAnk算法Table4-6TheRankbyDifferentAlgorithmsValuesIncludingPageRank,HITS,Remero’sIPAl-gorithmandWeightedPageRankNamewightedPageRankHITSIP#Mess-#Foll-PageRankauthinfluenceagesowers新浪科技11226457452330安卓汇216421984239659977新周刊312393878220何炅4211193811441王晓渔5902596591418382艺龙旅游网656324670042390潘石屹7351736455919全球新鲜资讯854461386051731潮混搭9941351828018728头条博客106121630733512微天下11202464210662447毕成功128417710904338469马尔代夫-13285531713026030驻华大使馆冯绍峰141031420676284Vista看天下1531313241632025谢星1618745275481656219新浪尚品172602773812521372凤凰网新闻181552542374723409美食频道193912071183104492南方周末20583713894133表格4-6显示了我们通过运用weightedPageRank算法发现的实验数据集中最有影响力的20个用户,和这些用户在其它几个算法下的排名,以及这些用户的发布信息数量和粉丝数量。如表格4-6所示,一些有名的组织或名人,如新浪科技、新周刊、何炅、潘石屹、冯绍峰、Vista看天下和南方周末,他们无论—41—万方数据 上海交通大学工程硕士学位论文第四章计算微博用户影响力是哪种算法排名都很高。然而,有一些用户我们的结果认为其在实验数据网络中很有影响力,但是在其他算法的结果中排名却很低。例如,马尔代夫驻华大使馆,它是一个经过官方认证的用户,但是只有30个粉丝,发布的信息数量也只有60条,远小于其他用户。众所周知,马尔代夫是一个著名的旅游胜地,而且由马尔代夫驻华大使馆这个微博用户发布的信息大部分都是对于当地景点的介绍。我们发现这些信息的转发数量相当大,而且在网络中传播得很广。即使有些用户并没有关注马尔代夫驻华大使馆这个用户,但是他们也可以通过其关注的用户来获得有关马尔代夫的最新信息。另一个例子是在我们结果中排名第二的安卓汇。安卓汇这个用户只有77个粉丝,也只发不过599条信息,都远小于榜单中的其他用户。但是,安卓汇其实是一个关于安卓(Android)平台应用的发布者。Android平台是当今最流行的移动操作系统,而且安卓汇这个用户发布的信息都是关于当前一些最热门Android应用软件的介绍和下载链接。在微博网络中,有很多的用户通过安卓汇发布的信息来分享Android应用软件。对于某些用户来说,即使他们没有关注安卓汇这个用户,也很容易通过其他渠道了解其发布的信息,分享这些应用软件。造成上述情况的主要原因是由于新浪微博对于其用户的关注数量有个上限限制。在新浪微博中,每个用户能关注的最多用户数量是2000。(Twitter也同样有这种限制。)这样一来,有些用户就可能选择不关注类似马尔代夫驻华大使馆或是安卓汇这样的用户,因为他们完全可以通过其他用户来获得他们的信息。虽然马尔代夫驻华大使馆和安卓汇这样的微博用户缺乏粉丝,但是像他们这样的用户毫无疑问是具有很大影响力的用户。然而,之前的那些方法无法发现这类用户,他们通常被忽略,但是通过我们的微博用户交互行为模型可以发现他们。另外,经过观察实验结果,我们发现像马尔代夫驻华大使馆和安卓汇这类用户发布的信息通常都非常单一,集中在某一个很小的领域。而对于大多数微博用户而言,当他们需要通过关注其他用户来获取资讯时,他们大多时候会选择那些信息量大、资讯范围广的用户。为了进一步显示我们的方法和之前那些工作的不同,我们计算了用户信息数量、粉丝数量和不同算法结果之间的Pearson相关系数。如表格4-7所示,用户的粉丝数量与PageRank算法和HITS算法的结果相关度很高,达到0.9118和0.9872。这是因为这两个算法只考虑了用户关系网络结构属性,忽略了用户的行为特征。这个结果也正好验证了Kwak等人[10]的研究,他们将Twitter的用户按照其粉丝数量排名,同时也计算了PageRank算法的结果,发现这两种—42—万方数据 上海交通大学工程硕士学位论文第四章计算微博用户影响力表4-7用户信息数量、粉丝数量和不同算法结果之间的Pearson相关系数Table4-7PearsonCorrelationCoefficientamongTheMeasures:TheNumberofMessageandFollowers,TheValueofPageRank,HITS,Remero’sIPAlgorithmandWeightedPageRank#Message#FollowersPageRankHITSIPwightedauthinfluencePR#Message10.17190.15570.15360.15320.0731#Followers0.171910.91180.98720.73090.2740PageRank0.15570.911810.90240.65770.3104HITSauth0.15360.98720.902410.69690.2683IPinfluence0.15320.73090.65770.696910.2947wightedPR0.07310.27400.31040.26830.29471排名十分相似。虽然Romero等人[22]在其Influence-Passivity算法中使用用户间的转发率作为权重,其结果和用户的粉丝数量仍然有着较高的相关度,其值达到了0.7309。这说明Influence-Passivity算法仍是一个强调微博网络结构入度数的方法。虽然在微博中用户关注另一个用户是一个非常重要的行为,体现了这两个用户之间的某些相似,但是基于共同兴趣而确立关注关系的用户只是一部分,用户间的关注与被关注关系并不是衡量用户影响力的唯一标准。因为我们使用了微博用户交互行为模型计算出来的用户间影响力为权重,其在很大程度上能真实反映促使用户间建立关系的影响力程度。所以通过我们方法计算得到的用户影响力得分与用户的粉丝数量之间的相关系数只有0.2740,这远远小于其它方法。这是因为通过我们的方法,能很大程度上减少不受影响用户、机器用户和不活跃用户的影响。另外,由于我们在考虑网络结构的同时也考虑了用户的个人属性,使得我们的算法能发现那些之前被忽略的有影响力的用户。4.3本章小结在本章中,我们根据微博平台上信息传播特征建立了一个微博用户交互行为模型。这个模型主要考虑了以下三个关键因素:用户的活跃程度、用户的转发意愿和用户间的影响力。通过这个模型我们计算了用户间的影响力,并以此为基础进一步计算了每个用户在微博网络中的影响力得分。我们的用户影响力计算过程不但考虑网络结构属性,也考虑了用户的行为特征和交互性。相比较—43—万方数据 上海交通大学工程硕士学位论文第四章计算微博用户影响力其它方法,我们的微博用户交互行为模型有几个优势。首先,我们的方法能减少机器用户和不活跃用户的影响,从而发现用户的潜在影响力。其次,通过我们模型得到的用户间影响力得分比起用户间的转发率显得更具稳定性,这也更符合对影响力的一般定义。通过几个实验,我们发现用户间影响力得分可以来预测用户间的转发率,也可以用来发现有影响力的用户。在这两个实验上,我们的模型都有很好的表现。特别是我们能发现一些被之前方法忽略的,却实际上很有影响力的用户。—44—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征第五章发现微博平台广告传播特征5.1引言在本章中,我们将通过对微博平台上广告传播的分析,发现微博广告传播的模式特征。我们收集了一些广告信息的传播数据,并将每条信息的传播途径用一个传播树表示。针对这些传播树,我们提取各种特征并使用K-Means聚类算法进行聚类。通过对结果的分析,我们揭示了微博平台上广告传播的特征,说明不同类型的广告在微博平台上的传播情况。我们证实了名人效应在信息传播中的推动作用,指出推销类广告更适合微博平台。此外,基于发现的广告传播特征,我们进一步提出了对应的指标来定量地评价微博上广告传播的实际效果。5.2微博信息传播的主要类型微博这几年的发展非常迅速,吸引了大量的用户,已经被认为是一个非常重要的媒体平台。例如,新浪微博中的一个用户姚晨,其粉丝数量已经超过了2亿,这个数字要超过很多报纸或电视节目的用户数量。很多企业、组织和个人都希望通过微博平台来推销自己,因此了解广告在微博平台上的传播特征显得尤为重要。然而,微博平台上的广告传播和其它媒体平台(如电视和广播)有着很大的不同,主要是因为微博网络上的用户关系特征。在微博中,一个用户获取其他用户信息的主要途径就是选择关注他人,因此关注他人这个行为也可以理解成订阅他人的信息。用户间的关注与被关注关系在某种程度上是用户间相同兴趣的体现,这也使得微博平台上的广告传播比起其它媒体平台来更具针对性。广告信息是如何在微博平台上传播的?为什么有些广告能比其它广告传播得更远,覆盖更多的用户群?微博平台上的信息传播是否也存在“名人效应”?哪种类型的广告更能吸引用户?如何评价一个广告的传播效果?为了回答上述这些问题,我们从新浪微博上爬取了一些广告的传播数据作为研究对象。这些广告主要包括三种类型:产品介绍类、明星推销类和促销类。同时,我们也收—45—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征集了一些其他类型的信息传播数据作为研究分析时的对比参照组,包括新闻与生活小贴士等。我们将每条信息的传播途径表示成一个传播树。通过观察可以很容易发现,微博平台上的信息传播有着很明显的拓扑结构特征。如图5-1所示,我们根据其拓扑性质,将这三种类型称之为:恒星型、星座型和星云型。(a)Thestartype(b)Theconstellationtype(c)Thenebulartype图5-1信息传播的拓扑结构特征Fig5-1TheTopologyPatternsofMessagePropagation为了进一步发现微博平台上广告传播的特征,下文中我们尝试使用聚类算法来分析已爬取的信息传播数据。首先,我们将每条信息传播途径表示成一个传播树。针对每个信息传播树,我们设计并提取了33个特征,这些特征主要包括以下三个方面:传播参与者的数量、传播途径的拓扑结构和时间方面的传播特征。为了解决这些特性变量中有些变量之间的相关度非常高的问题,我们使用因子分析算法将这些特征变量降维到一些互不相关的因子。然后,我们使用用K-Means聚类算法对这些传播树进行了聚类。通过对聚类结果的分析揭示了微博平台上的广告传播特征。—46—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征5.3信息传播数据的处理5.3.1实验数据的获取本文中的微博平台信息传播数据是我们通过新浪微博提供的公开API[56]采集的。由于在微博中绝大部分的信息没有得到任何的转发、回复或评论,因此我们手工选择了一些信息,这些信息都至少得到了500次以上的转发、回复或评论。除了广告传播数据,我们也有意收集了一些其他类型的信息传播数据作为研究分析时的对比参照组,包括新闻与生活小贴士等。另外,为了在之后的研究中分析不同因素对信息传播的影响,我们特意挑选了一些具有相同内容但是不同源发者的信息。我们使用新浪微博API跟踪微博内容中的‘//@’标签来追溯每条信息的转发、回复或评论。在这个实验数据中,我们一共爬取了261条信息的完整传播途径,其中共包括749,384条信息和656,903用户。表格5-1显示了我们爬取的传播数据中每条信息所包含的字段及其说明。表5-1新浪微博传播数据中信息包含的字段Table5-1Fieldsinamessageofacascade字段ID字段说明User_id用户的唯一标识User_name用户名Content微博信息内容In_reply_to_user被此条微博转发的源用户IDTime_stamp此条信息发布的时间Level_of_retweet此条信息所处的转发层级#_of_followers用户的粉丝数量因为研究需要,我们手动地将这些微博传播数据标注为六个大类:产品介绍类广告(AdvertisementsShowingProducts)、明星推销类广告(AdvertisementswithCelebrity)、促销类广告(AdvertisementsthroughSalesPromotion)、新闻类(News)、生活小贴士类(Knowledge)和其他(Others)。表格5-2显示了我们实验数据集中的信息种类分布情况。—47—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征表5-2实验数据集中传播信息的种类分布Table5-2TheDistributionoftheLabelsfortheSetofMessageCascadesLabel#oforiginalpostsNews73Advertisement(product)40Advertisement(celebrity)31Advertisement(salespromotion)23Knowledge15Others795.3.2信息传播数据的树形表示我们将实验数据集中每个信息的传播途径都表示成一个传播树的形式。其中树的结点是用户,树的根结点就是这条信息的初始原创者。假设有条方向线从结点A指向结点B,则表示用户B转发或评论了用户A的信息。如果这条线段是双向箭头的,则表示这两个用户有相互转发或评论的行为。因为微博中用户也可以自己转发自己的信息,所有我们在每个结点的旁边(括号内)标记了用户转发自己的次数。考虑到两个用户间可能存在着聊天的情况(即双方多次转发对方的信息),也有可能一个用户转发或评论另一个用户很多次,因此我们在传播树中每条边的旁边记录了这两个用户之间的转发或评论次数。图5-3是我们建立的微博信息传播树的一个例子。其中结点O表示的是信息初始原创者,Ui是参与信息转发的用户,ni是两个相邻结点之间转发或评论的次数,mi是用户自己转发自己信息的次数。O.n3n1n2...u1(m1)u3(m3)...u2(m2)n8n4n5n7......n6u5(m5)u6(m6)...图5-2新浪微博中信息传播树的一个例子Fig5-2AnExampleoftheMessagePropagationTreeinSina-Microblog—48—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征5.3.2.1信息传播树的拓扑结构特征如图5-1所示,我们通过肉眼观察信息传播树的拓扑形状可以发现三种很有趣的拓扑结构特征。我们将这三种类型称之为恒星型、星座型和星云型。恒星型的传播树是微博中最常见的拓扑结构特征,其大部分的转发都是源自信息源发者的,之后的转发层级上转发数量很少。而且这种类型中的大部分信息是由粉丝数量超过100万的用户发布的,这些用户大多是名人明星或是著名机构。星座型的传播树相对来说比较少见,其中大部分主要表现为一小群用户彼此间的聊天讨论。这种类型中的信息通常无法得到很多的转发或评论。因为在本次的信息传播研究中我们选取的都是那些转发(或评论、回复)数量超过500的信息,所以在我们实验数据集中只有2个信息传播树属于星座型。星云型的传播树在每一个转发层级都有很多转发,因此被认为是微博平台上信息成功传播的特征之一。在这次研究工作中我们发现大部分这种类型的信息是新闻资讯,尤其是一些突发事件新闻。在实践中,我们很难为这三种类型的传播树设立准确的区分边界,毕竟这是一个非常主观的定义。然而,我们不难发现星座型传播树具有一个非常独特的特征就是其传播树中边的数量要远大于结点数量,通常边与结点的比值要大于2。相比较而言,星云型传播树的边与结点的比值要稍小于星云型传播树的,而恒星型传播树中边与结点的比值要更小,通常接近于1。5.3.2.2信息传播的时间特征除了信息传播树的拓扑结构特征,信息传播时间方面的特征也是与信息能否成功传播息息相关的一个重要因素。图5-3(a)显示了我们的实验数据集中转发(或回复、评论)信息数量的累计分布,其中关于时间轴的定义,我们以信息源发者的发布时间为时间轴起点,记录转发时间与起点的时间差。根据图5-3(a)所示,当信息发布90个小时后,几乎就无法再得到任何转发(或回复、评论)了。50%的转发(或回复、评论)发生在信息发布后的6个小时内,78%发生在1天内,90%发生在2天内。另外,图5-3(b)显示基于时间的转发数量分布基本上符合幂律分布[11]。—49—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征10.90.80.70.6CDF0.50.40.30.20102030405060708090time(hour)(a)CumulativeDistributionofRetweets7data6.5fitting65.554.5#ofretweets(log)43.5300.511.522.53time(log)(b)DistributionofRetweets(log-log)图5-3新浪微博中信息传播的时间特征Fig5-3TimelineofPropagation5.4信息传播树的聚类5.4.1特征提取我们希望通过对微博信息传播树的聚类来发现微博平台上信息传播的特征。首先是对信息传播树的特征提取,通过上文的介绍可以发现拓扑结构和时间方面都是信息传播中非常重要的特征。因此,我们根据以下三个方面来提取—50—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征信息传播树的特征:传播参与者的数量、传播途径的拓扑结构和时间方面的传播特征。共有7个特征用来表示传播参与者的数量。有4个特征直接反映信息传播树的大小,包括信息传播树的边数量npEdge、信息传播树的总结点数量totalNode、信息传播树的叶子结点数量leafNode和信息传播树的父结点数量parentNode。其中信息传播树的父结点数量parentNode等于总结点数量totalNode减去叶子结点数量leafNode。由于信息传播树中的一条边可能表示两个用户之间相互多次的转发,因此我们使用特征变量weightEdge来表示传播树中所有边的权重和。另外,我们也考虑了用户自己转发自己的情况,用特征变量selfRetweet来表示信息传播树中所有用户自己转变自己的数量和。在传播途径的拓扑结构方面,考虑到几乎所有的转发信息都发生在以源发者为中心的10级转发层以内,因此我们提取了10级内不同转发层级上转发信息数量占总转发信息数量的比重level1p-level10p。另外我们也提取最大转发层级maxLevel和转发深度depth这两个特征变量。其中特征变量maxLevel和depth之间的区别有点类似于上面特征变量npEdge和weightEdge之间的区别,转发深度depth这个特征变量会将用户的自我转发行为和用户间的多次相互转发行为考虑在内。为了计算在一条信息传播中起到关键作用的用户数量,我们计算了贡献转发数量超过总转发数70%的最小用户数量。也就是说,在一条信息传播中这些用户被其他用户转发的数量占这条信息的总转发数量70%以上。在计算过程中,我们首先将参与某条信息转发所有用户按照其转发贡献度做降序排序,然后选取那些转发贡献度超过70%的用户。我们将这个计算结果作为一个特征变量bigNode。特征变量bigNode的值越大说明参与信息传播的用户越多。除此之外,我们还计算了parentNode与leafNode的比值plRatio、parentNode与totalNode的比值ptRatio以及bigNode与totalNode的比值bigNodeRatio。另外,我们定义一条微博信息的传播时间跨度(小时)为timeArraySize,每小时的平均转发数量为avgRt,以及单位小时内最大的转发数量为maxRt。此外,我们还将一条微博信息的传播时间跨度分成了三个阶段,并将每个分段的时间长度分别定义为3个特征变量:沉默时间silenceTime、爆发时间expTime和延续时间followupTime。沉默时间silenceTime和延续时间followupTime分别是整个传播时间跨度的开始阶段和结束阶段,在这两个阶—51—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征段内的单位小时转发数量小于最大转发数量maxRt的20%。这两个阶段之间的时间段就是爆发时间expTime。换句话说,沉默时间silenceTime是话题内容的预热时间,爆发时间expTime是主要转发行为发生的时间,延续时间followupTime可以认为是话题的冷却期。除了用特征变量表示这三个时间阶段外,我们也计算了这三个时间段在总时间跨度timeArraySize中的比重,分别定义为特这变量silenceTimeRatio、expTimeRatio和followupTimeRatio。我们一共为每个信息传播树定义并爬取了33个特征变量。表格5-3总结了我们定义的这些微博信息传播树的特征变量。5.4.2聚类过程与结果我们发现在提取信息传播树的特征变量中间有一些变量之间的相关度非常高。表格5-4显示了一些和传播树规模有关的特征变量之间的Pearson相关系数。不难发现它们之间的相关度非常高,这些高相关度的变量会影响聚类结果的客观性。因此,我们对这33个特征变量使用因子分析算法(FactorAnalysis),从而将这些变量降维到一些彼此间互不相关的因子,使这33个传播树的特征变量可以表示成这些因子的线性组合。在本文中,关于因子个数的确定,我们选择特征值λ≥1所对应的因子,最后共得到9个因子。我们使用通过因子分析算法得到的9个因子对微博信息传播数据进行聚类,用的是K-Means聚类算法,其中不同集群间的距离标准是欧式距离(EuclideanDistance)。在使用K-Means聚类算法中,一个很重要的参数就是集群数量k的选择。在本文中,关于聚类的集群数量k,我们尝试了很多值,最后选择了使不同集群间互信息增益(MutualInformationGain)[50,60]最大时的那个值。如下式所示:()∑∑p(x,y)I(X;Y)=p(x,y)log(5-1)p(x)p(y)y∈Yx∈X其中X为我们之前对微博信息进行手工标注的类别,Y为K-Means聚类算法分类后的集群类别。图5-4显示了不同聚类集群数量所对应的互信息增益。基于我们的实验结果,我们最终将聚类的集群数量k设为20。此时所有集群间的平均距离是2.87,互信息增益为1.4527。通过忽略那些信息数少于5条的集群,我们最后—52—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征表5-3信息传播树的特征变量Table5-3TheVariablestoRepresentaMessageCascade特征变量变量说明totalNode总结点数量leafNode叶子结点数量parentNode父结点数量plRatioparentNode与leafNode的比值ptRatioparentNode与totalNode的比值bigNode转发贡献度超过70%的最少用户数量bigNodeRatiobigNode与totalNode的比值weightEdge传播树中边的权重和npEdge传播树中边的数量nptEdgeRationptEdgeRatio与totalEdge的比值selfRetweet总的用户自我转发数量timeArraySize传播时间跨度(小时)silenceTime传播开始的沉默时间(小时)expTime传播中的爆发时间(小时)followupTime传播结束阶段的延续时间(小时)silenceTimeRatiosilenceTimeRatio与timeArraySize的比值expTimeRatioexpTimeRatio与timeArraySize的比值followupTimeRatiofollowupTime与timeArraySize的比值avgRt每小时的平均转发数量maxRt单位小时内的最大转发数量maxLevel最大转发层级depth传播树中最长链路长度level1p−level10p每个转发层级的转发数量所占比重tweetLength信息内容长度得到了8个集群。表格5-5显示了这8个集群的一些基本特征,包括集群的大小、每个集群内信息间的平均距离及信息间距离的方差。对于得到的每个集群,我们画出了其离集群中心最近的那个信息传播树,并将其作为每个集群的代表,具体见图5-5。其中,我们使用蓝色的方形结点—53—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征表5-4有关传播树规模的特征变量之间的Pearson相关系数Table5-4PearsonCorrelationCoefficientoftheVariablesaboutSizeweightEdgetotalNodeleafNodeparentNodenpEdgeselfRetweetmaxRt1.000.961.963.816.965.758.795.9611.000.995.8821.000.732.792.963.9951.000.832.995.724.786.816.882.8321.000.880.669.708.9651.000.995.8801.000.742.794.758.732.724.669.7421.000.633.795.792.786.708.794.6331.0001.51.41.31.21.11mutualinformationgain0.90.8101520253035404550numberofclustercentroids图5-4不同聚类集群数量所对应的互信息增益Fig5-4TheMutualInformationGainforDifferentNumberofClusters表示参与此信息传播的用户,其大小正比于此用户在传播树中的中间中心度(Betweenness)。另外我们还提供了此信息的话题、源发者、转发数量、转发深度和第一转发层级所占的比重。这里有一点需要指出,虽然我们提供了每个集群中信息传播树代表的话题,但这并不表示此集群内只包括这一种话题。通过观察不难发现,如图5-5(b)(d)(e)(f)所示,在这些信息的传播过程中,大多数都是转发自信息源发者的,其传播树中第一层级内的转发数量占全部转发数量的70%以上。与之相反的是,图5-5(a)(c)(h)中的传播树,其发生在第一—54—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征(a)ClusterA(PersonalUpdate,(b)ClusterB(Advertisement(c)ClusterC(News,人PFG骑士,994,8,43%)aboutanIceCreambrand,可在耶鲁,405,9,27%)爱多,2987,7,98%)(d)ClusterD(Joke,姚晨,(e)ClusterE(Personal(f)ClusterF(SalesPro-9225,9,78%)Update,蔡卓妍,1640,5,motion,团美妆,1224,4,85%)92%)(g)ClusterG(Scandal(h)ClusterH(LiveCommen-aboutcelebrity,头条新闻,tary,新浪视频,639,4,33%)4324,11,61%)图5-5每个集群中的信息传播树代表,其中蓝色的方形结点表示参与此信息传播的用户,其大小正比于此用户在传播树中的中间中心度,另外括号内包括此信息的话题、源发者、转发数量、转发深度和第一转发层级所占的比重Fig5-5RepresentativePropagationTreesoftheEightSelectedClusters.Thebluesquarenodesrepresenttheusersinvolvedinthecorrespondingmessagecascadeandthesizeofeachnodeisproportiontothebetweennessofthecorrespondinguserinthegraph.Thetopicoftherepresen-tativemessagecascade,itsoriginalposter,thenumberofmessages,thedepthofthetree,andtheproportionoflevel-1messagesarenotedintheparenthesis—55—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征表5-5集群的基本特征Table5-5TheBasicCharacteristicsoftheClustersClusterSizeAverageVarianceof(Percentage)intra-clusterintra-clusterdistancedistanceClusterA32(13.67%)1.6170.256ClusterB12(5.13%)1.8070.379ClusterC21(8.97%)1.8060.375ClusterD10(4.27%)1.0960.092ClusterE80(34.19%)1.0540.122ClusterF19(8.12%)1.5230.244ClusterG19(8.12%)1.5790.436ClusterH41(17.52%)1.1910.292层级内的转发数量少于50%,其余大部分的转发或评论源自一些关键用户的贡献。因为通过因子分析算法计算得到的因子是传播树特征变量的线性组合,所以这些因子的意义不太容易解释。基于此,我们挑选了16个特征变量,这几个特征变量的因子变量得分大于0.5。下面我们将通过这16个特征变量来分析得到的聚类集群。如图5-6所示,基于这16个特征变量,聚类集群呈现出明显的区别。集群A的信息在第2到第10层级上拥有比第1层级更多的转发数量。集群B的信息拥有最长的传播时间跨度,说明其信息更具生命力。集群C的信息拥有最大的特征变量bigNodeRatio,说明相比较其它集群,此集群内有更多的用户参与到了信息的传播中。集群D中的信息拥有最大的转发用户群,但是其特征变量bigNodeRatio却是所有集群中最小的,另外在这个集群中有超过80%的信息源发者其粉丝数超过50万。因此这个集群可以认为是微博平台上“名人效应”的一个典型例子,下文中我们将具体讨论。集群E中信息数量占实验数据集中信息总量的34%,是所有集群中规模最大的一个,因此这个集群的特征也是与整体微博信息传播特征最接近的。集群F中的信息传播时间跨度是所有集群中最短的,但是其拥有相对较大的爆发时间expTimeRatio,说明这些信息都是对时间十分敏感的,后面的深入讨论中会发现,这些信息绝大多数是促销类广告。集群G无论是各转发层级的比重结构还是特征变量—56—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征bigNodeRatio都和集群C比较相近。但是,相较于集群C,在集群G中有超过73%的信息源发者其粉丝数超过50万。集群H的信息在第2转发层级上比起其它集群拥有最多的转发数量。根据图5-6(d),集群B、D、E和F的拓扑结构比较接近我们之前提到的恒星型,集群A、C、G和H比较接近卫星型。其中集群H内的信息传播树显示出一种二级现象,在集群H中的转发信息主要源自两个关键用户。另外,集群C拥有相对较大的bigNodeRatio和较小的totalNode,这表示此集群中的信息传播被限制在一个很小的范围内。通过观察其传播树结构可以发现,其信息的传播主要归功于几个关键用户,且这几个用户的贡献度相当。5.5微博广告传播特征的分析信息传播树的聚类结果显示出了微博平台上信息传播的一些特征,接下来我们将从三方面来进行分析:微博广告的传播特征、信息传播中的名人效应和微博广告传播效果的评价。5.5.1微博广告的传播特征在爬取的实验数据集中,我们发现有85.4%的信息传播树(261个传播树中的223个)其特征变量沉默时间silenceTime的值为0。另外,通过调查可以发现所有传播数据的平均沉默时间silenceTime约为17分钟。我们认为造成这种现象主要是由于微博服务的特点。在微博上,绝大部分的用户只会看其主页上第一页的信息。考虑到微博上每分钟都有大量的信息被发布(新浪微博上平均每分钟约有7万条信息发布),如果一条广告在发布后的20分钟内没有得到任何转发,则它很有可能被大部分的用户忽略,之后再得到转发的概率很小。然而,即使一条广告在发布后及时得到了转发,但是它能否得到进一步地传播,能否传播得更远需要依赖很多其它因素,包括之后会讨论的名人效应。一般来说,一条成功的广告不但能吸引大量的用户转发,做到广度传播,而且能够吸引用户关系图上比较远的用户,做到深度传播。表格5-6显示了不同集群内的信息类别分布,其中每个类别的百分比指的是其在全部数据中百分比。从表格5-6可以发现,大部分的明星推销类广告属于集群E,这类广告吸引的用户转发数量要低于平均值,而且大部分的转发发生在传播树的第一和第二层级。根据上面对成功广告的定义,明星推销类广告在微博平台上的传播效果—57—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征totalNodebigNodeRatio120000.05100000.0480000.0360000.0240000.01200000meanABCDEFGHmeanABCDEFGH(a)ThetotalNode(b)ThebigNodeRatiosilenceTime100%100%level1pexpTimelevel2pfollowupTimelevel3p80%level4−10p80%60%60%40%40%20%20%0%meanABCDEFGH0%meanABCDEFGH(c)TheCompositionofTime(d)TheProportionofLevelstimeArraySize25002000150010005000meanABCDEFGH(e)ThetimeLength图5-6不同聚类集群的特征变量特点Fig5-6TheCharacteristicsofEachClusterbySelectedFeatures—58—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征显得并不是很好。另外,大部分的促销类广告属于集群F。虽然促销类广告本身的属性导致其对时间是相对敏感的,但是从图5-6(a)可以发现集群F所吸引的转发数量是集群E的两倍左右。这种现象说明,虽然在微博平台上明星通常有着大量的粉丝,但是,比起明星的推销,微博用户对商品的折扣更感兴趣。从表格5-6我们可以发现,大部分的新闻类信息属于集群C、E、G和H,这说明新闻类的信息比其它类型的信息更能吸引那些有影响力的用户,传播方面显得更加成功。表5-6不同族群内的信息类别Table5-6TheClassificationofMessagesinEachClusterAdsAdsAds(salesNewsKnowledgeOthers(product)(celebrity)promotion)ClusterA2.99%2.99%1.71%0.43%0.00%5.56%ClusterB0.00%0.00%0.85%0.43%0.00%3.85%ClusterC5.13%0.43%1.71%0.00%0.43%1.28%ClusterD0.00%0.00%0.00%1.28%0.85%2.14%ClusterE7.26%6.84%5.56%1.71%1.71%11.11%ClusterF0.85%0.85%1.28%4.27%0.43%0.43%ClusterG5.98%0.43%0.43%0.43%0.00%0.85%ClusterH6.84%3.42%0.85%0.43%1.71%4.27%我们从实验数据集中挑选了3条广告传播的数据,这3条广告都是由同一个广告用户LYNX发布的,内容也都是关于同一个产品LYNX香水。这3条广告分别采用了3种不同的策略:产品介绍、明星推销和促销。我们发现使用产品介绍方法的那条广告属于集群H,使用明星推销方法的那条广告属于集群E,而促销方法的那条广告属于集群F。图5-7比较了下这3条广告中的一些特征变量,其中这几个特征变量都根据它们中的最大值进行归一化。通过比较可以看出,促销方法的那条广告似乎是这3条广告中最成功的,它所吸引的用户转发数量远比另2条广告多。考虑到邀请一个明星来做广告推销的成本通常是相当高的,因此在微博平台上做明星推销类的广告其投资回报率可能比较低。换句话说,在微博平台上做促销类的广告可能是一个比较好的选择。—59—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征totalNode100%timeArraySize90%depth80%70%60%50%40%30%20%10%0%AdsAds(SalesAdsCelebrityPromotion)Product图5-7不同类型的广告传播案例比较Fig5-7ComparisonofDifferentAdvertisements5.5.2信息传播中的名人效应名人通常都拥有大量的粉丝,也被普遍认为对其粉丝的一些决定有着很大的影响力。如新浪微博上的姚晨,其粉丝数量已经超过了2亿,这个数字要超过很多报纸或电视节目的用户数量。因此,在现实生活中,很多公司都利用名人的影响力在推销自己的产品。然而,微博中对于名人的定义和现实生活中会有所不同。现实生活中的名人通常指那些具有较高媒体曝光率的人,如体育明星或娱乐明星。而在微博平台,所谓的名人是指那些具有大量粉丝的用户,这些用户可能是现实中的某些人或组织,也可能只是个存在于网络中的虚拟用户。我们研究的所谓微博平台上的名人效应是指,一条信息如果是由名人发布或者是由名人帮助转发的,则就会获得大量的转发、回复或评论。一般认为,名人效应在微博平台中是存在着的,而且是社交网络中一种主要的影响力形式。下面我们将通过对实验数据集的分析,了解微博平台中信息传播的名人效应。从之前的分析数据中不难发现,集群B和F中的转发信息大部分都是转发自信息源发者的,体现着信息源发者巨大的影响力。这个现象就是典型的名人效应例子。相似的情况还有,集群D的信息拥有着实验数据集中最多的转发数—60—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征量。在图5-5(d)中显示的那个例子,其信息源发者就是姚晨。通过检查我们的实验数据集,可以发现大部分的转发、回复或评论都是归功于那些粉丝数量超过50万的用户。在我们提取信息传播树中,特征变量totalNode与粉丝数量超过50万的用户数量之间有着很高的相关度,经计算得到其Pearson相关系数为0.7866。另外,我们的实验数据集是由656,903个用户发布的749,384条信息组成,但其中的4785名用户就贡献了超过70%的转发、回复和评论。这些用户占全部用户的比例只有7.284h。很明显,在微博平台上存在着名人效应。100%followerstotalNodetimeArraySize80%bigNodeRatio60%40%20%0%TopTudouTBOneChenduSouthernAndyNewscomEveningWeekly图5-8相同内容的信息因为发布者不同而产生的不同传播特征Fig5-8MessageCascadesoftheSameContentMayDemonstrateDifferentPropagationPatternsDuetoDifferentUsersInvolved我们从实验数据集中挑选了6条具有相同内容的信息传播数据,并比较了它们的传播树特征。这6条信息都是关于一起地铁故障事件的,属于突发新闻类。这6条的源发者分别为头条新闻(TopNews)、土豆网(Tudou.com)、TBOne、成都晚报(ChengduEvening)、南都周刊(SouthernWeekly)和Andy。其中头条新闻和土豆网是两家媒体平台网站,成都晚报是新闻报纸,南都周刊是杂志,TBOne和Andy是两名普通的微博用户。头条新闻的信息传播树属于集群E,土豆网、TBOne和成都晚报的传播树属于集群G,南都周刊和Andy的属于集群H。图5-8比较了这6个信息传播树的特征变量followers、totalNode、timeArraySize和bigNodeRatio,其中每个变量都根据它们中的最大值进行了归一化。如图5-8所示,头条新闻拥有最多的粉丝,但是其获得—61—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征的转发数量totalNode却不是最大的,甚至是这6条中最小的几个之一。相比之下,虽然成都晚报的粉丝数量没有头条新闻的多,但是其获得了的转发数量是最大的。我们发现,粉丝数量followers与转发数量totalNodes之间并没有表现出较高的相关度。如成都晚报、土豆网和TBOne虽然其粉丝数量相对较少,但是在传播结果上要相对成功。通过检查这6条信息的具体传播数据,我们发现在传播过程中起到关键作用的是名人的参与转发。其中参与的名人越多,最终获得的转发数量越大。因此,一条信息的源发者粉丝数量和最终的转播结果关联不大,反而名人的参与才是信息传播的关键。5.5.3微博广告传播效果的评价用户间的口口相传一直被认为是传统媒体平台上(如电视)广告传播的主要方式,但是微博上的广告传播与之有着很大的不同。微博上的广告传播可以被认为是一种受限的口口相传。对于传统广告,其广告排名、产品销售量和点击率通常被用来评价广告投放的效果。然而,这种传统广告的评价标准无法直接用来评价微博上广告传播的效果。在微博平台上,用户对某条广告的反应仅限于转发、回复或评论,但是他们对于这条广告的实际评价却并不清楚。因此,为了能定量地评价微博中广告传播的效果,我们尝试提出一套针对微博广告传播效果的评价标准。首先,我们检查了以下5个可能的微博广告传播效果评价指标:最大覆盖度MaxReach、千人转发率FPM(ForwardPerM),以及传播树的特征变量totalNode、bigNodeRatio和timeArraySize(这3个特征变量在因子分析计算过程中的因子变量得分均大于0.7,而且都比较容易获得)。最大覆盖度MaxReach是广告传播中关于量的一个评价指标,其值等于所有转发用户的粉丝数量之和。最大覆盖度MaxReach表示一条广告在传播中能覆盖的最大用户数。千人转发率FPM是广告传播中关于质的一个评价指标,其值等于每1000个粉丝中的平均转发数量。一条广告越成功意味着有越多的用户参与转发,其千人转发率就越大。用户对于广告的反应体现着他们对其的兴趣。我们选取的这3个特征变量,其中变量totalNode是广告传播中涉及的用户数量,变量bigNodeRatio来反映在广告传播过程中名人效应造成的影响大小(变量bigNodeRatio的值越小,说明在传播过程中名人效应的影响越大),变量timeArraySize反映的是广告的生命力。表格5-7显示了我们提出的5个广告传播效果评价指标之间的Pearson相关系数。其中特征变量totalNode与最大覆—62—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征盖度MaxReach和千人转发率FPM之间表现出比较高的相关度,因此我们将变量totalNode剔除了评价标准。剩下四个指标相互之间的相关度都很小,而且能很好地反映广告传播效果的各个方面,包括受众数量、内容认可度、名人参与度和广告生命力,所以我们推荐使用这四个指标来评价微博平台上广告传播的效果。表5-7评价广告传播效果的5个指标间的Pearson相关系数Table5-7PearsonCorrelationCoefficientamongFiveMeasuresbigNodetimeArrayMaxReachFPMtotalNodeRatioSizeMaxReach1.166.484-.174-.089FPM.1661.825-.119.070totalNode.484.8251-.129.031bigNodeRatio-.174-.119-.1291.003timeArraySize-.089.070.031.0031表格5-8显示了实验数据集中三种不同类项的广告传播评价指标的平均值。从中可以看出,无论是哪个指标,促销类广告的传播效果都是最佳的。因此,促销类广告要比其它类项的广告更适合微博平台,取得的效果也最好。对很多公司来说,不同于传统的媒体平台,在微博平台上通过促销来推广自己的产品可能是个更好的选择。表5-8实验数据集中广告评价指标的平均值Table5-8TheMeanValuesofAdsinMetricsSystemMaxReachFPMbigNodeRatiotimeArraySizeAds(Products)178799649710.01918279Ads(Celebrity)228986138080.00878379Ads(SalesPromotion)293508372360.00356479我们提出的这四个评价微博广告传播效果的指标彼此之间是相互独立的,它们反映了广告传播效果的不同方面。在某些情况下比较难以分辨明确的优劣时,公司可以通过这四个指标,根据自身的不同需求采用不同的营销策略。我们从实验数据集中某一经营旅游产品的用户那里挑选了3条广告。这3条广—63—万方数据 上海交通大学工程硕士学位论文第五章发现微博平台广告传播特征表5-9某旅游广告的传播效率评价指标Table5-9ExamplesAdsofMetricsSystemMaxReachFPMbigNodeRatiotimeArraySizeTourism#174601761927.710.00080170Tourism#21437789322942.690.00005943Tourism#347247726425.430.00018372告使用了完全不同的策略,我们将其分别标记为:Tourism#1(产品介绍类广告)、Tourism#2(促销类广告)和Tourism#3(明星推销类广告)。表格5-9显示了这3条广告的传播效果评价结果。不难发现,Tourism#2除了在广告生命力timeArraySize方面上有所欠缺,其它方面显示其更受微博用户的欢迎。但是Tourism#1和Tourism#3这2条广告的生命力要更强,其传播的时间跨度大约是Tourism#2的两倍。至于选择哪种类型的广告则需要看公司自身具体的需求了。5.6本章小结在本章中,我们主要研究了微博平台上广告的传播特征。首先,对从新浪微博上爬取的实验数据集,我们将其每条信息的传播途径表示成一个传播树,并根据以下三个方面提取了33个特征:传播参与者的数量、传播途径的拓扑结构和时间方面的传播特征。然后,我们使用因子分析算法将这些特征变量降维到一些互不相关的因子,接着通过K-Means聚类算法我们得到了8个特征明显的集群。通过比较这些集群,我们发现了一些微博平台上广告传播的模式与特征。通过对广告传播中不同特征的分析,我们指出明星推销类的广告实际效果并不如预期般的好,反而是促销类广告最受微博用户欢迎。此外,我们验证了名人效应在信息传播中的推动作用。最后,我们提出了一套能定量地评价微博广告传播效果的标准,其中四个指标涵盖了广告传播效果中的几个主要方面,包括受众数量、内容认可度、名人参与度和广告生命力。—64—万方数据 上海交通大学工程硕士学位论文第六章全文总结第六章全文总结6.1本文工作总结微博,作为当前最热门的社交网络平台之一,在吸引了大量用户的同时,也吸引了来自各个领域的研究。在本文中,我们针对微博平台的研究工作主要可以分为两部分,一是针对微博平台上用户影响力计算的问题,建立了一个微博用户交互行为模型;另一个是探讨了微博平台上广告传播的特征。首先,我们通过研究微博平台上两个用户间的信息交流行为和用户的个人行为特征,建立了一个微博用户交互行为模型。这个模型主要包括三个关键因素:用户的活跃程度、用户的转贴意愿和两个用户间的影响力。通过这个模型我们计算了用户间的影响力,并以此为基础进一步计算了每个用户在微博网络中的影响力得分。由于我们的模型不但考虑了社交网络结构属性,也考虑了用户的行为特征和交互性,使得我们能够对两个用户之间的影响力有一个比较客观且准确的估计。通过此模型得到的用户间影响力得分比起用户间的转发率显得更具稳定性,也更符合对影响力的一般定义。这比起之前的一些只考虑网络结构或是用户间转发率的算法做出了很大的改进。这个模型的另一个优点是模型的拟合只需要一个子图即可,因此可以通过分段进行。根据实验,我们发现此模型的用户间影响力得分可以被用来预测用户间的转发率。在发现有影响力的用户实验中,通过和PageRank、HITS和Influence-Passivity算法的比较,我们的用户交互行为模型可以减少机器用户和不活跃用户的影响,发现用户的潜在影响力,从而找到一些被之前方法忽略的却实际上很有影响力的用户。其次,关于微博平台上广告传播特征的研究。我们从新浪微博平台收集了一些信息的传播数据,其中包括各种类型的广告和一些其他类型的信息。通过对信息传播数据的树形表示,设计并提取特征,特征降维和聚类等一系列处理,我们得到了8个特征明显的集群。通过比较,我们发现了微博平台上广告传播的一些特征。我们证实了微博中名人效应的存在,指出促销类广告最受微博用户欢迎。另外,我们还提出了一套能定量地评价微博广告传播效果的标准,其中四个指标涵盖了广告传播效果中的几个主要方面,包括受众数量、内容认可度、名人参与度和广告生命力。—65—万方数据 上海交通大学工程硕士学位论文第六章全文总结6.2工作展望虽然本文的微博用户交互行为模型在用户影响力计算方面取得了较好的实验结果,此外我们也通过数据挖掘算法发现了一些微博广告传播的特征,但是我们的工作中仍然存在着不足,有很多地方值得进一步的研究与提高。总的来说可以从以下几个方面展开:(1)在描述用户间的转发行为过程中,我们的模型只考虑了用户的个人行为特征和用户间的影响力。然而,在实际情况中,仍有很多因素影响着用户间的转发行为。例如,信息的内容方面,或是内容的情感取向,两个用户是否都对此内容拥有同样的兴趣;信息发布的时间和用户活跃的时间也会对转发造成影响。我们考虑在之后的模型中添加信息内容和时间等因素,使其更符合实际情况。(2)本文中我们主要是通过聚类算法对实验数据进行分类来研究微博上广告传播特征的。虽然此方法发现了一些特征,但并不全面,而且主要是针对广告的。在之后的工作中,我们考虑采用LDA、用户感染模型等其它数据挖掘算法对微博上的信息传播特征进行更加全面的研究。(3)微博作为一个新兴的社交媒体,对于其的研究方向很多。本文中我们只是讨论了其中的两个方向。在未来的研究工作中,我们希望进行更多方面的研究,例如用户推荐、热门话题预测等。—66—万方数据 ᜧắᦻ¨ὃᦻÒ?ὃᦻA[1]ÀÁ[OL].http://weibo.com.[2]KaplanAM,HaenleinM.Theearlybirdcatchesthenews:Ninethingsyoushouldknowaboutmicro-blogging[J].BusinessHorizons,2010,54(2):1-9.[3]Michelle,Uking.Special:Microblog’smacroimpact[EB/OL].RetrievedNovember20,2012fromtheWorldWideWeb:http://www.chinadaily.com.cn/china/2011-03/02/content_12099500.htm.[4]AbrahamA,HassanienAE.ComputationalSocialNetworkAnalysis:Trends,ToolsandResearchAdvances[M].USA:Springer,2009:8.[5]RichardsonM,DomingosP.Miningknowledge-sharingsitesforviralmar-keting[C]//TheEighthACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD’02).Edmonton,Alberta,Canada:ACM,2002:61-70.[6]SongX,ChiY,HinoK,etal.Informationflowmodelingbasedondiffusionrateforpredictionandranking[C]//The16thInternationalConferenceonWorldWideWeb(WWW’07).Banff,Alberta,Canada:ACM,2007.[7]Klout[OL].http://klout.com.[8]PostRank[OL].http://analytics.postrank.com.[9]PeerIndex[OL].http://www.peerindex.com.[10]KwakH,LeeC,ParkH,etal.Whatistwitter,asocialnetworkoranewsmedia?[C]//The19thInternationalConferenceonWorldWideWeb(WWW’10).Raleigh,NC,USA:ACM,2010:591-600.[11]ClausetA,ShaliziCR,NewmanMEJ.Power-lawdistributionsinempiricaldata[J].SIAMReview,2001,51(4):661-703.——67——万方数据 ᜧắᦻ¨ὃᦻÒ[12]BollenJ,MaoH,ZengXJ.Twittermoodpredictsthestockmarket[J].ComputationalScience,2010,2(1):1-8.[13]SakakiT,OkazakiM,MatsuoY.Earthquakeshakestwitterusers:real-timeeventdetectionbysocialsensors[C]//The19thInternationalConferenceonWorldWideWeb(WWW’10).Raleigh,NC,USA:ACM,2010.[14]RittermanJ,OsborneM,KleinE.Usingpredictionmarketsandtwittertopredictaswineflupandemic[C]//TheFirstInternationalWorkshoponMiningSocialMedia(WSM’09).Beijing,China:ACM,2009.[15]GhoshR,LermanK.Predictinginfluentialusersinonlinesocialnetwork-s[C]//KDDworkshoponSocialNetworkAnalysis(SNA-KDD’10).Washington,DC,USA:ACM,2010.[16]Digg[OL].http://digg.com.[17]PageL,BrinS,MotwaniR,etal.Thepagerankcitationranking:Bringordertotheweb[J].StanfordDigitalLibraryTechnologiesProject,1999,66.[18]KleinbergJM.AuthoritativeSourcesinaHyperlinkedEnvironment[J].JournalofACM,1998,46:668-677.[19]ChaM,HaddadiH,BenevenutoF,etal.MeasuringUserInfluenceinTwitter:TheMillionFollowerFallacy[C]//TheFourthInternationalAAAIConferenceonWeblogsandSocialMedia(ICWSM’10).Washington,DC,USA:AAAI,2010.[20]YeS,WuF.Measuringmessagepropagationandsocialinfluenceontwit-ter.com[C]//The2ndInternationalConferenceonSocialInformatics(SocIn-fo’10).Lausanne,Switzerland:EPFL,2010.[21]HubermanBA,RomeroDM,WuF.Socialnetworksthatmatter:Twitterunderthemicroscope[J].FirstMonday,2009,14(1).[22]RomeroDM,GalubaW,AsurS,etal.InfluenceandPassivityinSocialMedia[C]//The20thInternationalConferenceonWorldWideWeb(WWW’11).Lyon,France:ACM,2011.——68——万方数据 ᜧắᦻ¨ὃᦻÒP3]YuA,HuCV,KilzerA.KHYRank:UsingRetweetsandMentionstoPredictInfluentialUsers[EB/OL].RetrievedNovember20,2012fromtheWorldWideWeb:http://cvhu.org/files/khyrank_paper.pdf.[24]ChengA,EvansM.InsideTwitter:AnIn-depthLookInsidetheTwitterWorld[R].Toronto,ON,Canada:SysomosInc.,2009.[25]AgarwalN,LiuH,TangL,etal.IdentifyingtheInfluentialBloggersinaCom-munity[C]//TheFirstACMInternationalConferenceonWebSearchandDataMining(WSDM’08).Stanford,CA,USA:ACM,2008:207-218.[26]GalubaW,AbererK,ChakrabortyD,etal.OuttweetingtheTwitterers-PredictingInformationCascades[C]//The2010Microblogs3rdWorkshoponOnlineSocialNetworks(WOSN’10).Boston,MA,USA:USENIX,2010.[27]GoyalA,BonchiF,LakshmananLVS.LearningInfluenceProbabilitiesInSocialNetworks[C]//TheThirdACMInternationalConferenceonWebSearchandDataMining(WSDM’10).HongKong,China:ACM,2010.[28]CheongM,LeeV.AStudyonDetectingPatternsinTwitterIntra-topicUserandMessageClustering[C]//The20thInternationalConferenceonPatternRecognition(ICPR’10).Istanbul,Turkey:ICPR,2010:3125-3128.[29]HeY,SuW,TianY,etal.SummarizingMicroblogsonNetworkHotTop-ics[C]//The2011InternationalConferenceonInternetTechnologyandApplications(iTAP’11).Wuhan,China:iTAP,2011:1-4.[30]ZhangD,LiuY,LawrenceRD,etal.ALPOS:AMachineLearningApproachforAnalyzingMicrobloggingData[C]//The2010IEEEInternationalConferenceonDataMiningWorkshops(ICDM’10).Sydney,Australia:IEEE,2010:1265-1272.[31]CelikyilmazA,Hakkani-TurD,FengJ.ProbabilisticModel-basedSentimentAnalysisofTwitterMessages[C]//The2010IEEEInternationalConferenceonSpokenLanguageTechnologyWorkshop(SLT’10).Berkeley,California,USA:IEEE,2010.——69——万方数据 ᜧắᦻ¨ὃᦻÒContagiononTwitter[C]//The20thInternationalConferenceonWorldWideWeb(WWW’11).Lyon,France:ACM,2011.[41]BakshyE,HofmanJM,MasonWA,etal.Everyone’sanInfluencer:QuantifyingInfluenceonTwitter[C]//TheFourthACMInternationalConferenceonWebSearchandDataMining(WSDM’11).HongKong,China:ACM,2011.[42]BrinS,PageL.Theanatomyofalarge-scalehypertextualWebsearchengine[J].ComputerNetworksandISDNSystems,1998,30:107-117.[43]XingW,GhorbaniA.WeightedPageRankalgorithm[C]//TheSecondAnnualConferenceonCommunicationNetworksandServicesResearch(CNSR’04).Fredericton,N.B.,Canada:IEEE,2004:305-314.[44]KleinbergJM.Hubs,Authorities,andCommunities[J].ACMComputingSurveys,1999,31(4).[45]HanJ,KamberM.ᦪ¢ᭆ±ᢈ [M].I:Åe᱐Õ,2007:3-25.[46]Romesburg,ClarlesH.ClusterAnalysisforResearchers[M].USA:KriegerPub.Co.,2004:2-9.[47]HartiganJA,WongMA.AlgorithmAS136:AK-MeansClusteringAlgorith-m[J].JournaloftheRoyalStatisticalSociety,1979,SeriesC,28(1):100—108.[48]DempsterAP,LairdNM,RubinDB.MaximumLikelihoodfromIncompleteDataviatheEMAlgorithm[J].JournaloftheRoyalStatisticalSociety,1977,SeriesB,39(1):1-38.[49]MacQueenJ.Somemethodsforclassificationandanalysisofmultivariateobser-vations[C]//The5thBerkeleySymposiumonMathematicalStatisticsandProbability.Berkeley,USA:UniversityofCaliforniaPress,1967:281-297.[50]ChurchKW,HanksP.Wordassociationnorms,mutualinformation,andlexi-cography[J].ComputationalLinguistics,1990,16(1):22-29.——71——万方数据