《基于时间限制的影响传播方法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
馨L硕±研究生学位论文基于时间限制的影响传播方法研究与实现申请人:曲思桐4学号:214131培养单位:计算机科学献学院:计算机技术,学科专业;/I研巧方向:数据挖掘气、?奇指导教师:刘勇副教授'弟V完成財间:2016年3月25,.片,I_■S;1VJ—'.‘’...V;巧■-广,..‘?.心■4*?气'<???;古 分类号UDC密级公开硕士研究生学位论文基于时间限制的影响传播方法研究与实现申请人:曲思桐学号:2141341培养单位:计算机科学技术学院学科专业:计算机技术研究方向:数据挖掘指导教师:刘勇副教授完成时间:2016年3月25 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的硏究工作及取得的硏巧成果。据我所知,除了文中特别加,1^标注和致谢的地方外论文中不包含他人己经发表或撰写巧的研巧成果,也不包含为获得黑龙江大学或其他教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研巧所作的任何贡献均已在论文中作了明确地说明并表示谢意。学位文作者签名嗦教炯签字日期;許月^曰学位论文版权使用授权书本学位论文作者完全了解黑龙江大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交抢文的复印件和磁蟲,允许论文被查阔和借阅。本人授权黑龙江大学可抖将学位论文的全部或部分内容编入有关数据库进行检索,可^式采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后适用于本授权书)(学位论文作者签名-:、导师签名:M狗句f'签字日期:么91月(>日签字日期:6月日|7年6础i年占学位论文作者毕业后去向:工作单位::电话:通讯地址:邮编 黑龙江大学硕士学位论文中文摘要近年来,社会网络上的影响传播受到了越来越多的关注,而病毒性的市场营销作为社会网络影响传播方向最主要的问题之一,也得到了广泛的研究。在影响传播的问题中我们将社会网络拟作图结构,将社会网络中的人拟作图中的节点,通过从图中大量的节点中寻找到一小部分节点,它们可以通过自身的影响力影响到最大范围的节点,也就是使得最大范围的人接受并购买新的创意或产品,最终在社会网络中实现产品的传播最大化,这就是影响最大化问题。现如今随着社会的不断发展,大众需求不断更新改变,许多不同的营销模式应运而生,比如更注重时效性、利益最大化等方面,而这些营销方式的出现和变化也促使我们需要在影响力传播这一领域考虑更多的新问题,本文主要针对社会网络中基于时间限制的影响传播问题进行研究,主要研究内容有:一、在一般的营销过程中,商家经常会规定一个期望的时间,通过一定的营销手段,来达到在期望时间内实现产品影响最大化的目的。本文根据这个背景,提出了不同营销模式中基于时间的影响传播算法,主要包括基于真实时间的影响力最大化问题和饥饿营销方式的种集最小化问题。主要分为三个步骤:1、基于真实用户动作日志,确定用户之间的有效传播时间区间。2、提出基于时间的影响力分配模型。3、提出了基于真时间的影响力最大化问题和饥饿营销方式的种集最小化问题,并分别提出了有效的近似算法。最后在多个真实社交网络数据集上验证了算法的有效性和高效率。二、在影响传播的过程中,容易发现个人的影响力和人与人之间的影响概率也会受到时间的影响。本文根据这一现象,结合人文学科中影响力传播公式:影响力=活跃度+传播力+社会联系,提出了基于真实时间的影响概率优化算法。主要分为三个步骤:1、定义个人影响力项-活跃度、传播力、社会联系的求解方法并进行规范化。2、给出基于时间的独立传播模型TIIC并在给定数据集上学习模型参数。3、根据期望时间,提出动态更新影响概率的优化算法。最后在多个真实社交网络-II- 中文摘要数据集中进行实验,并应用在问题一中进行比较,证明了本文提出的基于时间的影响力优化算法的有效性。关键词:数据挖掘;社会网络;影响传播;营销时间-III- 黑龙江大学硕士学位论文AbstractInrecentyears,moreandmoreattentionhasbeenattractedtothestudyofinfluencepropagationinsocialnetworks,amongwhichoneofthefundamentalproblemsisviralmarketingalsohasbeenextensivelystudied.Intheproblemofinfluencepropagation,wetreatthesocialnetworkasagraphstructure,andusersinthenetworkasthenodesofgraph.Influencemaximizationistheproblemoffindingasmallsubsetofnodes(seednodes)inasocialnetworkthatcouldmaximizethespreadofinfluencethatisthemaximumnumberofpeoplewhoadoptanewideaorbuyanewproduct.Nowwiththecontinuousdevelopmentofsociety,thedemandsofpublicconstantlyupdateandanumberofdifferentmarketingmodelsareemerging,suchastheonesthatpaymoreattentionstotheeffectivenessandothersmaywanttogainthebiggestbenefit.Andwiththeappearanceofthesemarketingmodels,weshouldconsidermoreissuesinthefieldofinfluencepropagation.Inthispaper,wefocusontheproblemofTime-awareInfluencepropagationinSocialNetwork,themaincontentsarefollowing:First,inthegeneralmarketingprocess,businessmenachievethegoalthattheirproductsmaygainthemaximuminfluencebysetanexpectedtimeandaspecialmarketingrules.Basedonthisbackground,weputforwardatime-basedpropagationalgorithmunderadifferentmarketingmodelincludingtime-basedinfluencemaximizationandseedminimizationproblemunderhugermarketingmodel.Thealgorithmismainlydividedintothreesteps:1.determinetheeffectivepropagationtimeintervalbetweenusersbasedonrealuseractionslog.2.proposeatime-baseinfluenceallocationmodel.3.proposetwoproblemsoneofwhichistime-awareinfluencemaximizationproblemandanotherisseedminimizationproblemunderhugermarketingmodel,andproposeeffectiveapproximationalgorithms.Experimentalresultsonseveralrealsocialdatasetsdemonstratetheeffectivenessandefficiencyofthealgorithms.Second,intheprocessofinfluencepropagation,itiseasytofindthatpersonalinfluenceandtheinfluencebetweenpeoplearealsoaffectedtime.Basedonthisphenomenon,weproposeatime-basedprobabilityoptimizationalgorithmcombined-IV- AbstractwithinfluencepropagationequationsinHumanities:Influence=Activity+thepowerofpropagation+socialtie.Thealgorithmismainlydividedintothreesteps:1.Giveaformaldefinitionofthepersonalinfluenceitem-activity,thepowerofpropagation,socialtie.2.Proposeatime-basedindependentcascademodelandlearntheparametersofthemodelunderthedatasets.3.Accordingtothedesiredtime,proposetheoptimizationalgorithmwhichcandynamicallyupdatetheinfluenceprobability.Wetestouralgorithmonmanyreal-worlddatasetsandcomparewiththeproblemproposedabove,theresultsshowtheeffectivenessofthetime-basedinfluenceoptimizationinthispaper.Keywords:Datamining;Socialnetwork;Influencepropagate;Marketingtime-V- 黑龙江大学硕士学位论文目录中文摘要IIAbstractIV第一章绪论.................................................................................................................11.1.研究目的和意义..............................................................................................11.2.国内外研究现状及发展趋势..........................................................................31.3.本文主要研究工作..........................................................................................51.4.章节安排..........................................................................................................6第二章课题研究基础知识.........................................................................................72.1.社会网络的定义..............................................................................................72.2.社会网络中的影响传播..................................................................................82.2.1.传播模型................................................................................................82.2.2.算法评价指标........................................................................................92.2.3.贪心算法和启发式算法........................................................................92.3.基于时间的影响力传播................................................................................102.4.本章小结.........................................................................................................11第三章不同营销模式中基于时间的影响传播算法...............................................123.1.引言................................................................................................................123.2.传播模型及问题定义....................................................................................143.2.1.有效传播时间区间获取方法..............................................................143.2.2.影响力分配模型..................................................................................163.2.3.问题定义..............................................................................................193.3.基于真实时间的T-INF和HM-INF算法....................................................203.3.1.建立链表,计算节点初始影响力增益..............................................223.3.2.利用CELF优化选择具有最大影响力增益的节点..........................233.3.3.Co-influence算法-计算节点的影响力增益.......................................24-VI- 目录3.3.4.更新影响力..........................................................................................253.3.5.复杂性和近似比..................................................................................263.4.实验结果与分析............................................................................................273.4.1.数据集及实验环境..............................................................................273.4.2.比较方法..............................................................................................283.4.3.营销时间及种子个数对影响范围的影响..........................................293.4.4.时间及种子个数对运行时间的影响..................................................313.4.5.饥饿营销时间对种子个数和运行时间的影响..................................333.4.6.验证用有效传播时间区间删减图结构的作用..................................353.4.7.传播有效时间区间MMW和AVSW方法的准确性....................353.4.8.HM-INF算法联机近似比证明...........................................................363.5.本章小结........................................................................................................37第四章基于真实时间的影响概率优化算法...........................................................384.1.引言................................................................................................................384.2.影响传播项的形式化定义............................................................................394.2.1.影响传播项的形式化表示..................................................................394.2.2.综合影响概率形式化定义..................................................................404.3.基于真实时间的影响概率优化算法............................................................414.3.1.基于真实时间的影响概率求解算法TAIP.........................................414.3.2.学习影响项参数算法..........................................................................424.4.实验结果与分析............................................................................................434.4.1.数据集及实验环境..............................................................................434.4.2.比较方法..............................................................................................444.4.3.不同时间对影响传播项的影响..........................................................454.4.4.营销时间对参数的影响......................................................................464.4.5.利用优化算法后的影响范围比较......................................................474.4.6.验证传播项的有效性..........................................................................48-VII- 黑龙江大学硕士学位论文4.4.7.参数对整体影响范围的影响..............................................................494.4.8.测试集中验证参数有效性..................................................................514.5.本章小结........................................................................................................51结论52参考文献54致谢59攻读硕士学位期间发表的学术论文及参加的科研项目............................................60-VIII- 第1章绪论第1章绪论1.1.研究目的和意义数据挖掘是指利用大量的数据并通过算法挖掘隐藏于大数据中信息的一种过程。近几年来,数据挖掘在计算机行业乃至全社会引起了极大的关注,人们开始利用规模非常大的数据,并且在这些大量数据中发现对生活或学术研究有用的信息。通过这些获取的信息,我们可以将从这些信息挖掘的潜在规律等广泛的应用于各种行业。总的来说,我们可以由于需求的不同而使用这些挖掘到的信息,并可以利用这些信息用于信息管理及查询。因此,数据挖掘这一领域是很重要的前沿学科之一。而近几年来随着计算机科学的不断发展,各类基于社交关系的网站大批量涌现出来,人们开始对诸如微博、facebook等社交网站广泛使用。而淘宝、亚马逊等电子商务类网站也开始普及,在其平台上提出的大量的营销需求也彻底颠覆了传统的信息传播的模式。数据挖掘在这些社会网络领域中则起到了不可替代的巨大作用。例如,比较多的,就是关于信息在社会网中的传播以及传播后对于大量数据的整理和分析。社会网中产生大量的数据,我们通过对这些数据的分析找到其中蕴含的大量潜在信息,然后可以利用这些潜在信息得到有用的数据,并将其应用到生活中不同场景和各种领域。在社会网上一个比较经典的问题就是影响力传播,影响力传播是社会网信息挖掘领域的一个重要问题。在研究中,我们通常将社会网络拟作图结构,而社会网络图是由网络上的节点和边组成,每一个节点都代表社会网络中的一个个体,每一条边则代表个体与个体间的关系,通常象征朋友关系,在这里两个节点之间的边可能是有向边也可能是无向边,这样我们就把具体的社会网络转化成了一个大规模的图结构,尽管社会网络是虚拟的,但是其中每个节点都会受到该网络中其他人或周围邻居的影响。社会网络就这样通过个体与个体之间的信息传播来实-1- 黑龙江大学硕士学位论文现影响的传播。社会网上影响传播的主要问题是病毒性的市场营销,也就是通过寻找一小部分的具有大的影响力的节点,从而影响最大范围的人接受并购买新的创意或产品,最终实现产品的传播最大化。这也就是影响力最大化的问题定义:通过对社会网上大量数据的分析,找到最具影响力的N个种子节点,从而使这N个种子节点可以影响社会网中最大范围的人群。但是其实在过去的很长一段时间里,传统的市场营销都是以口耳相传的方式来进行。简单来说,当一个人接受了一种新的创意或产品,他可能会传播给自己的朋友,当他的朋友也同样接受了这种创意或产品,我们就说影响力在他和朋友之间进行了传播,而朋友还可以影响朋友的朋友,以此类推。而在互联网这种形式的社会网络的平台上,无论是传播速度、规模或是最终影响的范围都要比传统的方式好很多。社会网络能够更快捷方便的加速产品的营销,而且使用户更能清楚地分辨和挑选产品。相对传统的面对面营销,社会网络提供的平台能够面向更多更广的用户,而且更加让人信任,因此在社会网络中,我们可以将一个信息、想法或是产品在很短的时间内就传播给大量的用户,从而使大量的用户可以接受并应用这些新的创意或产品。而这时,我们挑选哪些用户作为最初始接受信息的载体就变得至关重要,这也会直接影响到最后的影响范围,即产品的营销效果。现如今随着社会的不断发展及大众需求的改变,许多不同的营销模式也应运而生,除了传统的发放免费或可观的优惠以达到影响力最大化以外,更出现了如饥饿营销等以“供不应求”为销售手段的营销模式,试图引起更多的用户关注,从而达到商品营销的最大化。比如商家会更注重营销的时效性从而让自己能达到利润的最大化,或者商家会利用减少供给来影响用户心理从而更多的宣传自己的产品等等。而这些营销方式的不断改变也促使我们在影响力传播这一领域考虑更多的新问题。综上所述,影响力的传播技术研究在社会网的领域中具有极其重要的意义和应用价值。-2- 第1章绪论1.2.国内外研究现状及发展趋势影响力最大化问题的雏形首次被提出是在2001年,DomingosandRichardson[1]提出在社会网上通过寻找具有重要影响力的用户进行产品营销的问题。而在2003年,Kempe将影响力最大化的问题定义为一个离散优化问题,他们首次把社会网络拟作图结构拟,节点代表用户边代表用户之间的关系,而人与人之间的影响则是依据一定的传播模型来进行传播,kempe提出的主要的传播模型有IC模型,即[2]独立瀑布模型,LT模型即线性阀值模型,同时Kempe也证明了影响力最大化问[3,4]题是NP-Hard问题,并提出了贪心算法解决影响力最大化问题,贪心算法具有1-1/e-ε近似比。然而虽然近似比较好,但是kempe运用了蒙特卡洛模拟法来进行影响过程的模拟,通过大量的循环迭代得出了较准确的结果,导致运行时间过长,[5]并不能很好地适应于大兴的社会网络。而在2007年,Leskovec提出了一种懒惰向前的高效计算影响力的方法--CELF优化方法对kempe提出的贪心算法进行了改进,非常好的提高了贪心算法的效率,得到了提升700倍效率的结果。WeiChen在2009年提出了Degreediscount启发式算法,Degreediscount算法调整节点的度从而获得有效的节点影响范围,Degreediscount算法有很高的扩展性,运行速度非[5-7]常快,并获得了与贪心算法相近的影响范围。而传统的影响传播研究都是假设社会网络边上的概率为固定的,这显然不符合[8-30][31-41]生活实际。在生活中显然是需要通过历史行为来进行分析更为准确,文献考虑到了一些概率的变动,但是还是没有基于真实数据。2012年,AmitGoyal提出了基于数据的方法,利用用户的行为日志进行影响力最大化问题的计算,通过[42]分析真实的动作日志,每个用户和用户之间边上不同的概率都有不同,从而大大提高了问题的准确性,也将影响力最大化这一领域越来越多的扩展到真实生活的应用层面。近年来,社会网络上的影响传播研究加入了各种生活中的实际因素,这也使得应用场景更合理,信息挖掘更加准确有价值。遵从感知的影响力最大化问题-3- 黑龙江大学硕士学位论文[43]HuiLi2013年提出了出遵从感知的影响力最大化问题,在传统的影响力最大化问题上添加了遵从性的因素,简单来说,遵从感知的影响力最大化问题不止考虑到了影响者具有的影响力的大小,同时也考虑被影响者接受其他人影响的能力的大小,使得概率更准确,影响范围更加精准。JieTang同年提出了同时考虑个人本身影响力、朋友互相的影响力以及群组关系中的影响力的影响传播最大化问题,结合生活实际我们也不难发现,一个人的影响力收到很多其他因素的影响,JieTang[43]综合考虑到了社会网中个体,朋友之间及社团之间的影响力关系,得到了更精确的实验结果。基于地理感知的影响力最大化问题2014年,GuoliangLi提出了基于地理感知的影响力最大化问题,在影响力最大化问题中加入了用户和用户之间的地理信息因素,具体化到将用户的地理信息分块分区,然后考虑距离关系对于两个人之间影响力的影响。并将加入地理因素[44]的问题具体化。实验结果证实地理因素的确会对个人的影响能力和最终的影响范围造成一定的影响,这也是符合生活实际的。基于时间感知的影响力最大化问题2014年,ShanshanFeng提出了新奇衰减的影响力最大化问题,在这个问题中,添加了时间因素对影响力大小的影响,不难想象的,时间对于营销的过程是非常重要的因素之一,随着时间的不断变化,个人影响力、营销的利润等都会受到不同程度的影响并作出相应的变化,ShanshanFeng考虑到了时间因素对于影响力大[45]小的影响,并提出了动态的更新模型来更好的计算影响力的大小。基于主题感知的影响力最大化问题2014年NicolaBarbieri提出基于主题的影响力最大化问题,将问题更细化到不[46]同的主题分布上。其中考虑到了不同商品在不同主题上有不同的概率分布,不同的用户在不同的主题上也有不同的兴趣,通过综合考虑这两种因素,当给出一件商品时,针对商品及用户的历史行为求得准确的综合概率值作为边上的影响概率,再进行影响力最大化等影响传播研究的计算。基于个人属性的影响力最大化问题-4- 第1章绪论2014年KaiyuFeng提出了基于技能覆盖的影响力最大化问题,考虑到了个人属性在影响力传播研究中的应用场景,在现实生活中,经常会有需要覆盖个人技能的场景,同时技能也会有偏序关系出现,而在影响力传播的领域也同样存在互[47]相的影响传播同时还需要考虑技能的覆盖,这也更接近真实的情景。近几年关于社会网上影响传播的问题被越来越广泛的研究,加入了主题、地理、[48-62]技能等许多其他的考虑因素,使的求得的影响力最大化问题的结果更准确,更有针对性并更有实际的应用价值。1.3.本文主要研究工作本文主要针对基于时间限制的影响传播方法研究与实现进行研究,主要内容包括以下几个方面:1、不同营销模式中基于时间的影响传播算法通过生活中的营销方式我们不难发现,现如今的市场营销通常都和时间有着密不可分的关系,商家都希望在一定的时间内达到营销的预期效果,同时我们在研究过程中也发现,影响范围的增长比例是随着时间不断变化的,直观的,营销开始的阶段,影响范围增长较快,而到达一定时间后,影响范围的增长变得缓慢,这也是符合生活规律的。本文就不同营销模式中基于时间的影响传播进行研究,主要包含以下两个问题:(1)基于真实时间的影响力最大化问题。(2)饥饿营销方式的种集最小化问题。解决问题的主要步骤如下:(1)基于真实用户动作日志,确定用户之间的有效传播时间区间。(2)提出基于时间的影响力分配模型。(3)提出了基于真时间的影响力最大化问题和饥饿营销模式中种集最小化问题,并分别提出了有效的近似算法。最后在多个真实社交网络数据集上验证了算法的有效性和高效率。2、基于真实时间的影响概率优化算法在真实的传播过程中,人与人之间的影响受到很多因素的影响,其中就包括时间的影响,一个人对另一个人的影响是有一定时间限制的,研究发现,这种影响基本呈正态分布。本文根据这一现象,结合社会学科中的影响力传播公式,即影-5- 黑龙江大学硕士学位论文响力=活跃度+传播力+社会联系,提出了基于真实时间的影响概率优化算法。算法主要步骤如下:1、定义活跃度、传播力、社会联系的求解方法并进行规范化。2、给出基于时间的独立传播模型TIIC并在给定数据集上学习模型参数。3、根据期望时间,提出动态更新影响概率的优化算法。最后在多个真实社交网络数据集中进行实验,并应用在问题一中进行比较,证明本文提出的基于时间的影响概率优化算法的有效性。1.4.章节安排本文主要研究内容及其他章节安排如下:第2章介绍社会网络影响传播的相关定义和特性。第3章提出不同营销模式中基于时间的影响传播方法,包括基于真时间的影响力最大化问题和饥饿营销模式中种集最小化问题。第4章利用社会学影响力公式提出了基于真实时间的影响概率优化算法。最后是结论。-6- 第2章课题研究基础知识第2章课题研究基础知识2.1.社会网络的定义在社会学的意义上,社会网络是指社会中的成员因为互动等行为而形成的一种稳定的关系,如朋友关系等等。社会网络是一种关注人与人之间互动和联系的体系,而这种互动行为就会发生人与人之间的影响行为的变化。在研究中,我们通常把社会网络拟作一种图结构,以此来代替表现这种社会结构,其中会有很多点,这代表每一个社会网络中的个体。而点与点之间的边则表示一种社会关系,比如a和b是朋友,那么a到b则有边,经由这种模拟,将社会网络拟作一个可以形式化并方便挖掘信息及计算的图结构体系。如图2-1为facebook上社会网络图结构的实例。图2-1社交网络FacebookFig.2-1Facebook-7- 黑龙江大学硕士学位论文社会网络大致主要分为两种。其中一种如图2-1所示的Facebook,在这类社交网站中,用户的朋友关系是需要双方都给予确认的,所以这类的社交网络可以用无向图来表示,即两个用户代表两个顶点,而连接两个顶点的是一条无向边。另一种是如Twitter这类网站,和facebook相反的,Twitter中用户的朋友关系是单向的,是一种关注的社会行为产生的关系,因此可以用有向图来代表。社会网络可以形式化的定义为图结构G=(V,E),其中V是图G中的节点集合,E为边的集合。W是边上权值的集合,也就是概率的集合。其中用n=|V|和m=|E|分别表示网络中节点数量及边的数量。一般的,我们用链表或邻接矩阵来储存图G。2.2.社会网络中的影响传播在社会网络的图结构中,个体和个体之间由于有互动等行为产生了社会关系的纽带,所以具有社会关系的两个个体之间会产生不同程度的相互影响,这就激发了影响力的传播问题。在这一节,我们分几个角度来介绍社会网络中的影响传播问题。2.2.1.传播模型首先,个体和个体之间的影响是通过具体的影响传播模型来进行传播的,在影响力传播领域中最经典的传播模型就是IC模型(独立瀑布模型)和LT模型(线性阀值模型)。IC(IndependentCascade)模型IC模型(独立瀑布模型)是一种基于概率的传播模型。在IC模型中,社会网络图G中的每个节点只有“激活”和“未激活”两个状态且状态不可逆,也就是说当一个节点被激活,它便不能再转为未激活状态,整个传播过程中,一个节点只能被激活一次。LT(LinearThreshold)模型-8- 第2章课题研究基础知识LT模型,即线性阀值模型,与IC模型相似的是,LT模型中的每个点也遵从激活状态不可逆的规则。但在LT模型中,图G中的每个点v∈V都带有一个非常小的阀值,其中(0,1),阀值代表了节点能够受到影响的程度,当阀值越大,说明当前节点越不容易受到其他节点的影响。当一个节点的邻居节点对其的综合影响力超过当前节点阀值,该节点变为激活状态,并继续尝试激活其他未激活节点。2.2.2.算法评价指标从评价指标来看,影响力传播问题主要的评价指标有以下几个:1、算法复杂性,即运行算法所需时间,通常用运行时间衡量,我们希望求得算法复杂度低,运行时间快同时又能满足近似比要求的算法来解决影响力传播问题;2、影响范围,即期望输入的k个节点影响的范围,通常用影响的节点数衡量。3、准确度,即通过在训练集中求得的种集,在测试集中验证种集的真实影响范围,从而验证算法的准确度。4、算法近似比,验证算法是否能求得最优解的重要指标,通常在贪心算法中,我们可以求得算法近似比,使得计算结果拥有近似比保证。2.2.3.贪心算法和启发式算法从算法实现的方法来看,主要有两种,分别为贪心算法及启发式算法。贪心算法贪心算法是指在对一个问题进行求解时,总是作出当前情况下最好的选择,贪心算法是一种不从整体上考虑最优解而是每次都考虑局部最优解的一种算法。其中最重要的是贪心策略的选择。在影响力传播问题中,在任意一轮求解中,我们通常将能够带来最大影响收益的节点放入种集,之后再通过k次循环求得能够影响最大范围节点的种集S,|S|=k。kempeetal.就影响力问题提出了贪心近似算法,近似比在(1-1/e)之内。启发式算法启发式算法是相对于最优化的算法提出的,启发式算法的运行速度要远远的快-9- 黑龙江大学硕士学位论文于贪心算法,但是由于启发式算法并不是利用所求问题的每个实例来求得最优解,启发式算法通常是基于经验或者直观来构造的,导致了它并没有近似比的保证,虽然运行速度极为可观,但其结果与最优解的近似程度是不能够保证和预计的。在影响力传播问题中,由于图结构庞大,贪心算法的运行时间过长,在一些研究中,启发式算法也得到了了广泛的应用。2.3.基于时间的影响力传播本节主要介绍本文的研究重点,即基于时间的影响力传播。时间因素对影响力的影响传统的影响力传播问题并不考虑时间因素对其结果的影响,这显然是不合理的,在真实的社会网络传播行为中,个人的影响力、人与人之间的相互影响、营销的效果都受到时间因素的影响。一个简单的例子,淘宝网的商家想要通过网络营销的方式促销一件新的产品,促销的商品一定是有一定的成本的,所以促销一定会有一个最合适的时间,既能影响到更多的人,又能够平衡成本,这就是时间对营销效果的影响。又比如,商家第一天发放了免费或者非常低价格的商品给用户,如果这个用户在这段时间表现活跃,那么他就有更大的可能性去传播到更多的人,那么这类用户就是商家着重要挑选发放试用或免费商品的,因为他们可以使影响范围尽可能增大,这就是时间对于用户个人影响力的影响。之后种子用户开始向自己的朋友传播商品或创意,这时候有的人可能要3天就能够进行传播并且能够让朋友接受,有的人则可能需要用10天的时间,这就是时间对于人与人之间相互的影响力的影响。在实验中我们发现,真实的传播行为时随着时间的增长由快至慢增长最后趋于平稳,考虑我们之前说的时间因素对影响力的影响,我们也发现规定的传播时间不同,求得的最佳的种子节点集合也是不同的。因此,将时间因素加入影响力传播问题是有一定的现实意义的。除了传统的营销方式,近年来在市场营销等领域中更是涌现出了越来越多的营销方式的变体,如我们熟知的捆绑销售、饥饿营销等等,这些营销方式也越来越重视时间对于营销-10- 第2章课题研究基础知识效果的影响,如在饥饿营销的过程中,商家不再像传统的营销方式一样控制免费商品数量,他们力求用最少的免费商品造成一定的影响而非最大的影响,举个例子,我们都知道在小米手机的销售过程中,商家一周只发放定量的手机,也就是说,在饥饿营销的方式中,影响范围是固定的,商家希望在一定的时间内达到期望的影响范围,同时能让自己的成本最低,这些不同于传统营销模式的市场营销方式更多的强调了时间对于问题本身的影响。因此根据营销时间确定最合适的种集有助于帮助商家制定最优的营销策略。所以基于时间的影响力传播问题具有重要的理论意义和广泛的应用价值。2.4.本章小结本章较为详细的介绍了社会网络的特性及其形式化定义,并同时对社会网络中的影响力传播问题进行了简要的说明,对影响力传播的经典模型IC模型和LT模型进行了介绍。最后重点讨论了本文的研究重点,即基于时间限制的影响力传播问题。详细描述了时间关系在影响力传播过程中的重要性。-11- 黑龙江大学硕士学位论文第3章不同营销模式中基于时间的影响传播算法3.1.引言影响力最大化是在数据挖掘这一领域中重要的研究问题之一,简单来说,影响力最大化问题就是在社会网络中找到k个人,在一定的传播模型下,能够传播到尽可能多的人,使得影响力达到最大。影响力传播在市场营销领域中有着非常重要的应用价值,尤其是在产品或创意推广的前期阶段,商家希望能够找到最合适的初始用户来宣传自己的产品从而直接获取好的产品口碑和高质的后期销量。现有的影响力研究中,往往忽略了以下几个问题:1、不考虑两个用户之间的传播时间有效性。在实验前期,我们对大量的真实动作日志进行了分析,其中包含用户行为和用户关系,实验结果证明用户和用户之间是存在一个具有有效性的传播时间的,在这里我们成为传播的有效时间区间。简单的说,a和b是朋友,由于两人的工作都比较忙,基本上四天以上才能有一次通话聊天,但是每个周日他们都一定会在一起用餐,那么我们很容易的可以看出,由于信息在传播过程中受到时间的限制,a和b在一件商品或者创意上的传播时间一定大于4天,而且基本都会小于7天。真实日志的大量数据也帮助证实了这个结论,表3-1是在音乐评论网站Last.fm的动作日志中提取的几个用户的行为信息。在用户关系上,表中的V1和V2是朋友,V3和V4是朋友,所有时间相对时间(以0时刻为基准),如(V1,a)=2表示在2这个时刻,用户V1的行为为a。表3-1在Last.fm数据集上V1V2V3V4四个用户执行动作的时间Table.3-1thetimeofV1V2V3V4todoactionsinLast.fmdatasetabcdefg时间区间V12548634[4,13]V261291519910V31386597[3,11]V44121815161713通过表中数据我们不难发现,V1和V2的传播时间区间为[4,13],这也就是说-12- 第3章不同营销模式中基于时间的影响传播算法在V1V2的朋友关系里,如果营销时间不超过4,那么传播基本不会发生,基本上概率小到可以忽略不计;若营销时间在4-13之间,则应根据两人的历史行为进行分析再动态的调整V1和V2的传播概率;那么显然的,当营销时间大于13时,则应以最终平稳的传播概率(即V1,V2在13这个时刻的传播概率)进行事件的传播。我们通过对真实网站的历史动作日志进行分析和标准化,确定了用户之间的传播的有效时间区间,然后根据给定的营销时间来判断影响传播概率,进行影响力大小的分配。2、不考虑种集的选择受到真实的营销时间影响在实验中,我们还发现了这样一个有趣的现象同样支持本文的观点,那就是营销时间不同,相应的具有最大影响力的种集也是不同的。表2同样是在音乐评论网站Last.fm行为日志上进行实验的结果(用本文提出的T-INF算法,设种集个数为3),其中T表示设置的时间(单位时间),S表示当前具有最大影响力的3个节点的种集。很明显的,从表3-2我们可以看到,在营销时间不同的情况下,种集也并不相同。因此,本文提出的根据营销时间的不同来动态的分配影响力是符合生活实际场景的。表3-2在Last.fm数据集上不同的营销时间vs种集(k=3)Table.3-2thetimeTvsseedsetinLast.fmdataset(k=3)T10203040506012732621543142314231423S1543553147498498166656750926217416661473、营销方式的不断更迭,传统的影响力最大化方法已经不能适用于特定的营销方式。同时这类新型的营销方式更注重时间因素现如今营销方式不断改变,我们考虑生活中现在常见的一种营销方式--饥饿营销。饥饿营销指在一段时间内,商品的供应者提供固定量的商品,在市场上制造一种供小于求的现象,以期待商品长期拥有较高利润率的营销方式。在饥饿营销的一次过程中,商家固定了营销时间,同时也固定了商品供应量,即影响范围。这也就有别于传统的影响力最大化问题了,在这个场景下,我们可以找出能达到-13- 黑龙江大学硕士学位论文商家期望影响范围的最小的种集以满足商家要求。针对这一饥饿营销场景,本文提出了饥饿营销中基于时间的种集最小化问题。基于以上三点,本章提出了基于时间的影响力传播的两个子问题,分别为基于时间的影响力最大化问题和饥饿营销方式的种集最小化问题。其中我们首先提出了一个TIIC模型进行影响力的分配,基于TIIC模型进行了T-INF和HM-INF问题的求解,本章提出的方法在基于真实时间的基础上,更好更准确地进行了影响力的计算,在真实网络数据集中进行的实验表明了T-INF和HM-INF算法解决基于时间的影响力最大化问题及饥饿营销方式的种集最小化问题的有效性。3.2.传播模型及问题定义在本节中,首先我们给出了两种获取传播的有效时间范围的方法,其次,我们提出了一个TIIC模型进行影响力的分配,最后,我们给出了基于时间的影响力(TIM)最大化问题和饥饿营销方式的种集最小化问题(HMTSM)的形式化定义,并证明了TIM和HMTSM问题均为NP-hard问题。3.2.1.有效传播时间区间获取方法在3.1节我们提到了用户和用户之间是存在有效传播时间的,这个时间一般是一段区间,当传播发生在区间中,则应按照用户历史行为动态的确定两个用户之间的影响概率。如果传播发生在区间范围前,那么我们认为它传播概率可忽略,如果传播发生在区间范围后,那么我们认为它以平稳的恒定概率进行传播。这一节我们提出了有效时间区间的获取方法,我们给出了两种方法,一种为最大最小值法(MMW),一种为均值标准差法(ASW)。最后我们通过真实数据集上的实验来比较这两种方法的有效性。在这一节的方法中,我们给定一个图G,一个历史动作日志A,动作日志A中记录着用户、用户执行动作、用户执行动作时间。我们利用日志A中的行为关联性来计算用户之间的有效传播时间的区间。(1)最大最小值(MMW)直观的,最大最小值法就是直接通过分析历史传播事件的时间的最大时间-14- 第3章不同营销模式中基于时间的影响传播算法间隔和最小时间间隔作为两个用户之间的传播的有效时间的区间。两个用户之间所有传播行为的最小和最大时间间隔可以直接体现两个用户间动作传播的有效传播时间。具体定义如下:א݁ٿሻሻݐᇱݐሺٿܣאሻᇱݐ,ܽ,ݒሺٿܣאሻݐ,ܽ,ݑሺሺܽ|ݐെᇱݐሼnimൌݐܧሽ(3-1)௨,௩௨,௩א݁ٿሻሻݐᇱݐሺٿܣאሻᇱݐ,ܽ,ݒሺٿܣאሻݐ,ܽ,ݑሺሺܽ|ݐെᇱݐሼnimൌ୶ୟݐܧ(3-2)௨,௩௨,௩其中݁௨,௩אܧ表示从u和v是朋友,在图G中有一条有向边,从u指向v。而最后ݐ,ݐ]间区的成组୶ୟݐ和ݐୟ୶]就是u传播一条信息到u的传播的有效时间的௨,௩௨,௩௨,௩௨,௩区间。(2)平均值+标准差(ASW)MMW方法虽然直观的利用用户之间的最大最小传播时间定义了传播的有效时间的区间,但是由于MMW方法可能会含有一些异常项,比如某一个动作u传播到v用了30天,原因可能是u出差了,但是我们并不能认为,u到v的最大传播时间可以达到30,因为它是一个特殊情况。由此我们又提出了平均值+标准差(ASW)法来更准确计算两个用户之间的传播的有效的时间区间。定义如下:ݐൌߤെߜ(3-3)௨,௩௨,௩௨,௩ݐୟ୶ൌߤߜ(3-4)௨,௩௨,௩௨,௩其中ߤ௨,௩和ߜ௨,௩表示平均值和标准差,为u所有传播到v的行为动作,即u和v所有的相同行为中,u在v之前执行的所有行为的时间间隔的均值和标准差,ߤ௨,௩、ߜ௨,௩定义如下:∑ሼ࢚‘ି࢚|ࢇ൫ሺ࢛,ࢇ,࢚ሻא࢜,࢛ࢋٿ൯ሻ௧வ’࢚ሺٿאሻ‘࢚,ࢇ,࢜ሺٿאࡱሽߤ௨,௩ൌ(3-5)|ࢇ|ሺ࢛,ࢇ,࢚ሻא࢜,࢛ࢋٿ௧வ’࢚ٿۯאሻ‘࢚,ࢇ,࢜ሺٿۯאࡱ|ට∑ሼሺ࢚‘ି࢚ିఓೠ,ೡሻ|ࢇ൫ሺ࢛,ࢇ,࢚ሻאٿሺ࢜,ࢇ,࢚‘ሻאٿሺ࢚’வ௧ሻ൯ሽߜ௨,௩ൌ(3-6)|ࢇ|ሺ࢛,ࢇ,࢚ሻא࢜,࢛ࢋٿ௧வ’࢚ٿۯאሻ‘࢚,ࢇ,࢜ሺٿۯאࡱ|如MMW方法一样,[ݐ,ݐୟ୶]即为u到v的传播的有效时间区间。௨,௩௨,௩图3-1是一个边上含有传播的有效时间的例子。-15- 黑龙江大学硕士学位论文在图中我们可以看到,每一条有向边上都有两个用户之间传播的有效时间区间,如v1到v5的边上显示它们之间的传播的有效时间区间为ݐ௩ଵ,௩ହൌሾ5,10ሿ,也就是说,一个动作如果想在它们之间传播,则一定是在5时刻之后才能进行传播,而当营销时间超过10这个时刻,则应该保持两人之间的固定传播概率进行动作的传播,当营销时间恰好在二人之间传播的有效时间区间内,则根据给定的营销时间来决定此时二人之间的影响概率。图3-1.带有传播的有效时间区间的社会网Fig.3-1thesocialnetworkwiththeeffectivepropagatetimeinterval3.2.2.影响力分配模型本节给出了一个有效的基于时间分配影响力的模型TIIC,利用我们在3.2.1节求得的传播的有效时间区间,根据给定的营销时间,更有效的为每个节点分配影响力。首先我们用给定的营销时间对原始的图ܩൌሺܸ,ܧሻ进行处理,在3.2.1节中我们提出,当营销时间小于用户之间传播的有效时间区间的最小值,我们认为传播几率非常小,可以忽略不计。那么,对于图G中每一条边上的两个点u和v,当给定营销时间小于ݐ时,我们就认为u->v的这条边上并不能构成传播行为,所௨,௩以,我们可以首先将所有传播的有效时间区间最小值大于给定营销事件的边删掉,这样我们就得到了一个有效的新图ܩԢൌሺܸ,ܧԢሻ,所以对于图ܩԢൌሺܸ,ܧԢሻ中的所有边-16- 第3章不同营销模式中基于时间的影响传播算法eאܧԢ,我们都可以认为是在给定的营销时间T之内可能有传播行为发生的边,那么接下来我们的模型就在图ܩԢ中进行,这样其实是将原有的图缩小了,同时可以减少运行时间,提升运行速度,具体的有效性我们将在3.4节进行验证。那么我们现在有有向图ܩԢൌሺܸ,ܧԢሻ,给定的营销时间T,一个记录用户历史动作的日志A。下面详述TIIC模型是如何进行影响力分配的。影响力分配的过程如下:在给定营销时间T内,图ܩԢ中存在有向边ݒ՜ݑ,u将某些行为动作通过边ݒ՜ݑ传播到节点v,当v收到影响执行了相同的动作,那么v就可以反过来为u分配影响力,这也同时影响了u的祖先节点的影响力,所以v同时也要为u的祖先节点分配这次传播带来的影响力。那么我们就可以直接得到,在给定的营销时间T的范围内,v的父亲节点,也就是能够直接向v进行动作传播的节点集合为ܰൌሼݑ|݁ᇱאܧԢሽ,也就是说当前节点v要向ܰ集合中的每௩௨,௩௩一个父亲节点u分配当前一轮传播带来的影响力,我们将v向u分配的影响力定义为ܫ்݊݀,并且v向所有父亲节点分配的影响力满足∑ܫ்݊݀1。被分配的௩,௨௨אேೡ௩,௨影响力ܫ்݊݀的有很多种标准化的方式,在本节中,我们根据给定的营销时间T和௩,௨行为动作日志中u和v执行及传播的动作数给出定义如下:்|ሺ࢛,ࢇ,࢚ሻٿࡱא࢜,࢛ࢋٿ࢜אሻ‘࢚,ࢇ,࢜ሺ|࢛אሺ࢚’ି࢚ሻழ்|ܫ݊݀௩,௨ൌ(3-7)ೠ其中分母ܣ௨表示节点u所有执行了的动作的总数,而分子表示在给定时间T内,v收到u影响而执行的动作的总数,对于v向父亲节点分配的影响力我们需要保证∑ܫ்݊݀1,所以我们对ܫ்݊݀进行了规范化,给出定义如下:௨אேೡ௩,௨௩,௨ூௗ்ೡ,ೠܫ݊݀௩,௨ൌ(3-8)∑ೠאಿೡூௗೡ,ೠ公式(8)给出的是v向其父亲节点分配的直接影响力,那么接下来我们定义v向其祖先节点分配的间接影响力,我们将其定义为ܫ்݊݀,形式化定义如下:௩,௪ܫ்݊݀ൌ∑ܫ்݊݀כܫ்݊݀(3-9)௩,௪௨אேೡ௩,௨௨,௪很显然的,ܫ݊݀௨,௨ൌ1。那么,对于每个图ܩԢ中的节点u,我们都要计算一个最终的综合影响力,也就是把在给定时间内u的所有子孙节点向其分配的影响力进行聚集。记为ܫ்݂݊,也就是u在给定营销时间T时间内的综合影响力.定义如下:௨-17- 黑龙江大学硕士学位论文ܫ்݂݊ൌ∑ܫ்݊݀(3-10)௨௩א௩,௨那么,对于当前具有最大影响力的种集S(ܵكܸ),根据公式(3-10),我们也可以根据给定的营销时间T,定义出种集S收到节点v分配的影响力,定义如下:ܫ்݊݀ൌ∑ܫ்݊݀כܫ்݊݀(3-11)௩,S௨אேೡ௩,௨௨,ௌ在种集S中的每个节点אݑS,那么ܫ்݊݀ൌ1,那么种集的综合影响力,我们௨,ௌ定义为ܫ்݂݊,具体定义如下:ௌܫ்݂݊ൌ∑ܫ்݊݀(3-12)ௌ௩א௩,ௌ我们利用一个例子来说明TIIC模型.假设有向图ܩൌሺܸ,ܧሻ如图3-2所示,给定营销时间T=5,图2对应的历史动作日志为:Aൌሼሺv1,a,0ሻ,ሺv2,a,1ሻ,ሺv3,a,2ሻ,ሺv4,b,2ሻ,ሺv3,b,3ሻ,ሺv1,b,5ሻ,ሺv2,c,7ሻ,ሺv4.c,6ሻ,ሺv4,d,7ሻሽ根据我们给出的TIIC模型,首先我们发现ݐൌ6ܶ,所以我们直接删除v௩ଵ,௩ସ1->v4这条边,然后我们就得到了每一条边都可以进行传播行为的图ܩԢ,根据图ܩԢ构造的邻接链表如图3-3所示,接下来我们进行分配过程的计算。v1[3,6][6,8]V2[4,8]V4[2,5][1,4]V3图3-2.带有时间区间的图结构图3-3.在T=5时对应的分配链表结构Fig.3-2thegraphwiththetimeintervalFig.3-3thestructureoflinklistwhenT=5首先我们计算v2节点的影响力,通过对动作日志的分析,v2的祖先节点v1共执行了2个动作,而由v1传播到v2的动作为1个,所以首先更新v2被分配的影响力为1/2。下面我们计算v3的综合影响力,首先我们先找到v3影的父亲节点ܰൌሼݒ向ݒ看再们我后然,3/1ൌ்݀݊ܫ,的显明很么那。ሽݒ,ݒ,ݒ分配的影௩ଷଵଶସ௩ర,௩యଷଶ响力,通过动作日志很直观的看到,ݒଶ共执行了1个动作,ݒଷ接受ݒଶ传播的动作-18- 第3章不同营销模式中基于时间的影响传播算法也只有1个,那么ܫ்݊݀ൌ1,但是由于ݒ还有祖先节点ݒ,所以还需要向祖先௩మ,௩యଷଵ节点分配间接地影响力,根据公式(3-9),ܫ்݊݀ൌ1/3+1/3*1=2/3,其他节点也是௩భ,௩య,同样的方法进行计算。最终计算结果如图3-4所示,由此更新了在给定时间T的条件下,图结构对应邻接链表上的所有的节点分配的影响力。图3-4.经过影响力分配后的邻接链表Fig.3-4thelinklistforallottingtheinfluence3.2.3.问题定义本节在TIIC传播模型的基础上提出了基于时间的影响力最大化问题(TIM)及饥饿营销中心基于时间的种集最小化问题(HMTSM)的问题定义,并证明了两个问题均为NP-hard问题。一、基于时间的影响力最大化问题(TIM)输入:有向图ܩൌሺܸ,ܧሻ,动作日志A,种子个数k,营销时间T输出:在营销时间T内能够达到最大影响范围的种集S(|S|=k)定理3-1:基于真实时间的影响最大化问题(TIM)是NP-hard问题.证明:如果我们假设给定的营销时间T是整个图ܩ中所有边上所求传播的有效时间区间的最大时间ݐୟ୶,那么我们提出的TIIC模型也就等价于CD影响力传播௩,୳[11]模型,那么CD传播模型解决的影响力传播问题就是TIM问题的一个子问题,即当时间趋向于无穷大时,求解影响力最大化问题,CD模型解决影响力最大化问-19- 黑龙江大学硕士学位论文题已经被证明为NP-hard问题,所以TIM问题也是NP-hard问题。□二、饥饿营销中基于时间的种集最小化问题(HMTSM)输入:有向图ܩൌሺܸ,ܧሻ,动作日志A,期望影响范围Q,营销时间T输出:在营销时间T内能够达到影响范围Q的最小种集S(|S|>0)定理3-2:饥饿营销中基于时间的种集最小化问题(HMTSM)是NP-hard问题.证明:这里使用反证法进行证明,首先我们假设HMTSM问题不是NP-hard问题,那么根据NP-hard问题的定义,HMTSM问题一定存在一个在多项式时间内可以解决的算法,在这里我们定义为算法A,此时我们设HMTSM问题中的期望影响范围取值是从最大影响范围到最小进行变化,那么我们不难发现,对于HMTSM问题的每一组实例,运行算法A我们都能得到一个大小为k的种集S,那么显然的,S也是在TIM问题中,给定种集大小为k时的最优解。也就是说,TIM的求解也是在多项式时间内可以完成的,但是在定理1中我们证明了TIM问题为NP-hard问题,不存在一个在多项式时间内可以完成的算法能够对TIM问题进行求解,所以,假设是错误的,HMTSM也不存在一个多项式算法,所以HMTSM问题是NP-hard问题。□3.3.基于真实时间的T-INF和HM-INF算法本节给出了两个有效算法T-INF和HM-INF分别来求解基于时间的影响力最大化问题(TIM)和饥饿营销模式中的种集最小化问题(HMTSM)首先我们详述两个算法的核心过程及结构,给出有向图ܩൌሺܸ,ܧሻ,动作日志A,在解决TIM和HMTSM问题时,我们首先要输入一个营销时间T(T的单位为单位时间,以0时刻为基准),T根据具体的应用场景来确定具体单位。接下来我们利用TIIC模型对图ܩൌሺܸ,ܧሻ进行处理,根据输入的时间T和ݐ୧୬对比然后从௩,୳图ܩൌሺܸ,ܧሻ将传播的有效时间区间最小值大于T的边从图ܩൌሺܸ,ܧሻ中删除得到图ܩԢൌሺܸ,ܧԢሻ,此时图ܩ的规模被缩小,可以减少运行时间成本。之后我们根据图ܩԢൌሺܸ,ܧԢሻ建立邻接链表ܫ݊݀݁_݈݅ݏݐ用来分配影响力,邻接链表利用每个节点的入度节点建立,即每个节点的链表中存储该节点的父亲节点。对-20- 第3章不同营销模式中基于时间的影响传播算法于邻接链表中的每个节点利用TIIC模型进行影响力的分配,建立优先级队列ݍݑ݁ݑ݁,并将每个节点的影响力增益加入优先级队列,最后我们采用CELF优化来进行每一轮的种子节点选择,并在每一次选择后更新其他节点相对于当前种集的影响力增益。下面给出T-INF算法的伪代码,算法描述如算法3-1所示。算法3-1基于时间的影响力最大化TIM算法输入:社会网ܩൌሺܸ,ܧሻ,历史动作日志A,营销时间T,正整数k输出:T时间内,具有最大影响范围的种集Sሺ|S|ൌkሻ1)Foreach(u,v)אܧ2)计算用户的有效传播时间区间[ݐ,ݐ௫];௨,௩௨,௩3)If(ݐ>T)௨,௩4)删除边(u,v);5)最后得到的图记为ܩᇱൌሺܸ,ܧᇱሻ;6ሻሺInde_list,queueሻൌparentslinkሺG’,Aሻ;7)ܵ;8)While(|ܵ|
此文档下载收益归作者所有