《基于Petri网的电商平台用户访问行为相似度分析及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
AnalysisandApplicationofE-commercePlateformUserAccessBehaviorsSimilaritywithPetriNetByPANLiHuaUndertheSupervisionofMABingXianAThesisSubmittedtotheUniversityofJinanInPartialFulfillmentoftheRequirementsFortheDegreeofMasterofEngineeringScienceUniversityofJinanJinan,Shandong,P.R.ChinaJune,2018 济南大学硕士学位论文目录第一章绪论.........................................................................................................................11.1课题研究背景与意义..................................................................................................11.2相关研究工作..............................................................................................................21.3主要研究内容与创新点..............................................................................................41.4论文组织结构..............................................................................................................4第二章相关理论技术分析.....................................................................................................72.1Petri网及其性质..........................................................................................................72.2日志建模技术...............................................................................................................92.2.1Log4J..................................................................................................................92.2.2AOP....................................................................................................................92.3相似度计算方法...........................................................................................................92.4聚类的主要方法........................................................................................................102.5小结............................................................................................................................11第三章基于Petri网的电商用户访问行为相似度分析.....................................................123.1概述.............................................................................................................................123.2单用户访问行为Petri网...........................................................................................123.2.1使用Petri网的缘由.......................................................................................123.2.2单用户访问行为Petri网的构建...................................................................133.3相似度评估算法.........................................................................................................133.3.1相关定义.........................................................................................................133.3.2相似度评估流程设计.....................................................................................153.4两种相似度计算方法................................................................................................163.4.1用户标签特征相似度计算方法.....................................................................163.4.2用户行为特征相似度计算方法.....................................................................173.5用户访问行为相似度算法........................................................................................173.5.1算法描述..........................................................................................................173.5.2实例分析.........................................................................................................183.6小结............................................................................................................................22I 基于Petri网的电商平台用户访问行为相似度分析及应用第四章群体用户访问行为Petri网的构建.........................................................................234.1概述.............................................................................................................................234.2H-K算法相关概念描述.............................................................................................234.2.1整体相似度......................................................................................................234.2.2轮廓系数..........................................................................................................244.3H-K聚类算法实现过程.............................................................................................244.4群体用户Petri网模型的构建..................................................................................254.4.1相关概念..........................................................................................................254.4.2群体用户访问行为Petri网生成算法............................................................264.5实例验证....................................................................................................................274.5.1聚类结果评价机制..........................................................................................274.5.2实验结果..........................................................................................................284.6小结............................................................................................................................29第五章群体用户访问行为分析的Petri网方法.................................................................305.1概述............................................................................................................................305.2模型间一致性分析....................................................................................................305.3用户行为状态合法性分析........................................................................................365.4用户行为相关性分析................................................................................................385.5用户行为与标签数据集关联关系分析....................................................................425.6模型结构设计及应用测试案例................................................................................435.6.1模型结构设计.................................................................................................445.6.2应用测试案例.................................................................................................445.7小结............................................................................................................................48第六章结论与展望...............................................................................................................496.1全文总结....................................................................................................................496.2展望............................................................................................................................49参考文献...................................................................................................................................51致谢.......................................................................................................................................55附录.......................................................................................................................................56II 济南大学硕士学位论文摘要随着互联网的普及以及电子商务的快速发展,网购逐渐变成人们生活中不可或缺的一部分。用户在电子商务平台进行购物的过程中留下的操作痕迹存储于系统的数据库中,而且在系统的运行时间不断增加的基础上,大量的用户访问行为的痕迹信息被存储在后台数据库中,企业掌握着如此海量的宝贵的数据资源,如何从这些资源中发掘出有价值的内容并加以应用变得十分重要。本文以电子商务用户的访问行为的相似度分析为基础,研究了电商平台用户行为分析的Petri网方法,主要内容如下:(1)首先通过系统后台日志数据对单用户访问行为Petri网建模完成后,基于单用户的访问行为Petri网,提出两个用户行为的相似度度量算法。该算法分别计算用户模型的相似度和用户标签数据的相似度,如年龄、性别、访问时间等,将这两种相似度进行综合,共同评价两个用户的相似程度。(2)在得到两个用户的相似度度量标准后,利用H-K聚类算法,对用户访问行为的Petri网模型进行聚类,然后通过本文提出的群体用户访问行为Petri网模型的构造算法,对属于同一类群体的用户进行模型合并,生成群体用户访问行为Petri网模型。(3)针对电子商务用户访问行为的分析,在得到单用户访问行为Petri网模型,群体用户访问行为Petri网模型的基础上,通过Petri网理论中的可达性、公平性、同步距离等性质,分别研究了上述不同类别Petri网模型间的一致性分析方法,用户访问行为状态合法性的分析方法,用户访问行为间关联关系分析方法及用访问户行为与数据间的关联关系分析方法。主要基于群体用户访问行为Petri网解决用户异常行为检测,用户访问行为预测等问题。本文工作将Petri网的理论与方法引入到基于系统后台日志的用户访问行为描述与分析领域,为将Petri网应用于数据分析领域相关问题进行了有益的尝试和探索。关键词:Petri网;相似度度量;H-K聚类;访问行为分析III 济南大学硕士学位论文AbstractAstheInternetisspreadingandrapiddevelopmentofe-commerce,onlineshoppinghasbecomeanindispensablepartofpeople'slife.Thegeneratedbehaviorinformationofusersduringshoppingisusuallystoredinthebackgrounddatabaseofthesystem.Moreover,withthecontinuousrunningofthesystem,alargeamountofuserbehaviordatawillbeaccumulated.Enterprisesgraspsuchahugeamountofvaluabledataresources,howtodigoutmeaningfulinformationfromthemandmakefulluseofthemisbecomingmoreandmoreimportant.Thisthesisfocusesonanalysisofe-commerceusers'accessbehaviorswithPetrinet.Thekeycontributionsinclude:Firstly,basedonsystemeventslogdata,singleuseraccessbehaviorismodeledwithPetrinet,andthenweproposedasimilaritymeasurementalgorithmfortwousersaccessbehaviorPetrinet.Thealgorithmcalculatesthesimilaritybetweenusermodelandusertagdatarespectively,suchasage,sex,visittime,etc.Andthen,wecombinethetwosimilaritiestoevaluatethesimilaritydegreeoftwousers.Secondly,afterobtainingthesimilaritymeasureoftwousers,theH-KclusteringalgorithmisusedtoclusterthePetrinetmodeloftheuser'saccessbehavior.Thenthroughtheconstructionalgorithmofthegroupuser’saccessbehaviornetworkmodelwhichisproposedinthispaper,themodeloftheusersbelongingtothesamegroupismergedandthegroupuseraccessbehaviorPetrinetmodelisgenerated.Finally,accordingtotheanalysisofuseraccessbehaviorine-commerce,onthebasisofobtainingsingleuseraccessbehaviorPetrinetmodel,groupuseraccessbehaviorPetrinetmodelandoriginalsystemmodelwithPetrinet,byusingthepropertiesandmethodsoflegitimacyanalysis,fairnessandsynchronizationdistanceinPetrinettheory,westudiedconsistencyanalysismethod,analysisofstatelegitimacy,analysisoftherelationshipbetweenusers'behavior,analysisoftherelationshipbetweenuserbehavioranddata.Itprovidesasolutionforuserbehaviorpredictionanduserabnormalbehavioridentification.Inthisthesis,PetrinetrelatedtheoryandmethodsareusedtodescribeandanalyzeuserbehaviorbasedonuserbehaviorlogofsystemwhichisanusefulattemptandexplorationtoapplyPetrinettostudyrelatedproblemsofdataanalysis.V 基于Petri网的电商平台用户访问行为相似度分析及应用KeyWords:Petrinet;Similaritymeasure;H-Kclustering;AccessbehavioranalysisVI 济南大学硕士学位论文第一章绪论1.1课题研究背景与意义在互联网技术飞速发展的今天,随着电商、社交网络以及各种传统行业的网络应用的快速增多,人们越来越多的参与使用各种网络平台尤其电商平台。电商平台的良性发展必然要求其能够及时了解和掌握用户的兴趣、访问规律等,以便有针对性的进行业务优化和服务配置优化,相关的决策自然需要根据用户访问系统平台的情况进行有效的分析。用户访问电商平台的过程中,平台会记录下访问者的相关数据及信息,对这些数据及信息进行有效利用,包括如何建立合适的数学模型,并基于此模型分析用户尤其群体用户访问行为的主要特征[1-3],已成为国内外学术研究的热点。电商平台在其快速发展过程中积累了大量的用户群体。CNNIC发布的第41次《中国互联网络发展状况统计报告》[4]指出截至2017年年底,我国网购用户数已超过5亿人,全年交易额达到7千多亿元,人们在网上购物的同时留下了大量的个人行为信息,如浏览、收藏、购买、添加购物车等和时间、地点等数据相关联的行为轨迹。分析用户行为数据可以:(1)了解用户兴趣,即用户喜欢购买和浏览的产品;(2)分析用户使用系统的操作习惯、偏好功能等;(3)分析该系统用户群体的关注热点;(4)识别用户的异常行为(如盗号或者异地(设备)登录),发现异常用户,避免造成不必要的损失。对用户行为数据的深入分析,能够让我们更好的发现用户的习惯,并基于此考虑如何优化系统业务流程、服务配置等方面的工作,增加用户使用体验,使平台提供的服务更加优质。从而提高平台运营效率,更好的为用户服务。但是目前很多研究只是片面的挖掘和分析与用户行为相关的信息,没有深入的探索用户在互联网上的行为受到哪些关键因素的影响。面对如今互联网世界如此庞大繁杂的数据集,如何构建有效的模型分析用户的行为,从而预测用户的访问行为及发现用户的兴趣所在对电商平台的运营和发展有着非常大的意义。就单个用户而言,对其进行行为建模分析能够描述用户的兴趣和行为模式,并发现用户的潜在行为模式;就群体用户而言,对其进行行为建模分析则可以1 基于Petri网的电商平台用户访问行为相似度分析及应用得到大量用户在系统上的行为的一种倾向,可用于对系统平台业务流程的评价和优化。面对如今复杂多变的互联网环境、激增的用户数量和信息量,用户行为分析变得尤其的重要。用户的行为是用户如何使用系统的真实反映,与之相关的是用户操作的流程路径,用户每一步操作对应的输入输出,对这些数据的分析有利于我们还原用户系统使用场景,相应的在不同场景下是否会有不同的用户行为,以上问题的分析有利于业务流程优化和平台服务配置优化,进而提高用户体验。本文将在获取用户与电商平台交互数据的基础上,从平台运营者的角度出发,分析用户的访问行为特征,为平台提供系统服务优化和业务流程优化的决策支持,具体将利用Petri网的相关分析方法应用于用户行为分析,在构建得到用户访问行为Petri网的基础上对平台用户访问行为的可达性,即基于群体Petri网的状态合法性分析、用户访问行为间的关联程度、用户访问动作与平台相关服务数据间的关联性等进行分析,开展相关方法的研究。1.2相关研究工作随着近年来互联网技术的飞速发展,越来越多的人关注用户行为分析的方法和应用研究。文献[5]指出,随着信息技术和数据存储技术的快速发展,传统企业逐步转向互联网模式,因此越来越多的企业关注用户的数据,这对于企业的发展和技术革新有着重要的意义。文献[6]通过研究用户在网上的购买行为,发现用户在购买物品的过程中,使用网上购买服务的体验直接影响到该用户再次使用的频率。文献[7]通过对用户在使用可视化系统时留下的“痕迹”进行建模,分析用户与系统的交互行为,从而提升该系统的交互模式设计。当前对用户行为分析主要有面向内容偏好、功能使用、页面流量及使用路径等不同方面的方法。内容偏好主要是通过用户的使用行为来识别,比如用户收藏夹内容、购物车列表、浏览搜索的内容等。文献[8-9]通过对移动客户互联网访问偏好内容的分析,对相关业务进行优化与重组,进而精确营销以获得更高的用户满意度。功能使用的分析主要集中在用户对于功能的使用状况,这是系统功能开发和设计人员最关注的问题,通过分析找出最受用户欢迎的功能,以及用户使用的过程中偏好的业务流程,从而有助于后期系统的优化开发。比如支付宝中有很多功能是隐藏的,需要一层一层的寻找,通过对用户行为的分析,可以针对不同的用户,将其常用的功能放在利于发现的位置上,这种贴心的个性化服务,不仅提升了用户的使用体验,留住老用户,吸引新用户,而且对于2 济南大学硕士学位论文系统方面的开发和维护也提供了有效的策略。页面浏览主要分析用户在某一页面逗留的时长和页面转换情况,从而分析用户浏览内容是否有兴趣,有多大的兴趣。文献[10-12]通过对用户浏览网页的时长,页面跳转平均数量的分析发现用户的浏览习惯。使用路径主要分析用户在系统中操作流程的次序关系,比如用户进入电商平台,可能首先浏览下页面推荐,然后进行商品查询,添加购物车,这一系列的操作就可以看做用户的使用路径。通过分析用户使用路径,可以了解用户对系统设计的业务流程或者服务组合的认可接受程度,从而进一步对业务进行评价和优化。文献[13]根据用户在网页上“走过”的路径分析用户的行为。目前为了更加准确地发现用户行为规律,将以上几种分析方法进行综合利用是该领域的研究趋势,例如文献[14]通过Web日志提取的用户路径和页面跳转信息来综合分析用户的浏览行为。目前主要的用户行为分析方法有统计分析方法、聚类分析法、关联分析法、决策树法、神经网络、时序数据挖掘等[15]。文献[16-17]通过统计分析的方法分析了用户在社交网络或者论坛上评论发帖行为的规律,并对比了中、西方网民在表达观点时所存在的差异性。在文献[18]主要讲了一种发现用户异常行为发现的方法,相较于统计分析方法,基于聚类分析的方法能够更加精确地挖掘出用户的频繁行为模式,辨别用户的异常行为,提升了在线交易异常识别的精确度。文献[19]通过计算用户搜索意图的相似度进行聚类,生成用户的搜索意图表,使得该算法能够更加精确的捕捉用户的搜索目标。文献[20]提出了基于主题聚类的Web资源个性化推荐算法,这一方法实时获取用户的浏览行为计算用户的偏好,通过用户偏好的动态演化,实现了动态推荐算法。[21]将关联关系应用于数字图书馆领域,在多个维度分析借书行为,为图书馆客户提供了个性化的推荐服务。文献[22-23]利用决策树对用户的行为进行了分析。[24-27]通过构造时序序列,并用于挖掘用户行为特征。基于挖掘事件日志的算法较多,同时数据挖掘目的的差异往往也影响算法的构造。当前基于日志的数据挖掘,海内外学者的关注点集中以下两部分:一是采取序列模式算法发掘用户的浏览行为,在得到用户最频繁访问的路径集的基础,根据用户当前的操作状态预测用户接下来的行为,进而达到改善站点内容、架构设计等目的;二是对单用户的浏览的页面、相关的停留时间和频率等综合应用,实现对用户行为的聚类分析,把具有相似访问操作的用户进行归类,达到准确的广告投放、业务推荐等。例如[28-32]通过用户浏览日志挖掘得到用户的兴趣所在,并最终达到优化网站结构,提高用户体验的目的。3 基于Petri网的电商平台用户访问行为相似度分析及应用尽管当前对用户行为进行分析的方法研究和相关的工具已经非常广泛,但较多仍集中于片面的页面流量分析或者用户路径分析方面,缺少对用户与系统之间交互行为(用户访问行为)的深度分析,无法将用户行为与其所访问的平台行为进行有效的联系。Petri网[33]作为形式化描述与分析的工具,在系统行为分析方面已经取得较好的研究成果,并在流程建模和分析领域得到广泛的应用。如文献[34-35]利用系统日志作为原始数据,通过数据挖掘得到工作流模型,但该工作较多集中于系统行为分析方面,如何进一步发挥Petri网的优势,使其应用于用户行为分析相关问题的研究是本文的出发点,通过Petri网更为有效的描述和构建用户访问行为模型,将Petri网相关的理论应用于用户访问行为分析,在相关的技术和方法上做出有益的尝试。1.3主要研究内容与创新点本文将Petri网与用户访问行为分析有效结合,研究了基于Petri网的电子商务用户访问行为相似度的分析及应用的相关问题,主要研究内容及创新点如下:(1)基于用户访问日志,构建得到用户访问行为Petri网,研究得到分析两个用户行为的相似度比较方法。具体将系统后台的用户日志作为分析数据源,通过获取用户行为的相关数据,构建得到用户访问行为Petri网,进一步分别分析用户访问行为Petri网模型和用户标签数据的相似度,并将两者综合起来共同评价用户访问行为的相似程度。(2)研究了在聚类的基础上如何构建群体用户访问行为Petri网模型。通过H-K聚类算法得到系统用户的划分类别,定义了不同用户访问行为Petri网间的最大、最小变迁匹配集,并基于此设计了群体用户访问行为Petri网的构建(生成)算法。(3)基于群体用户访问Petri网的用户行为分析方法。首先研究了群体用户访问Petri网与系统Petri网之间存在的模型一致性问题,从而分析得到用户行为偏好等信息,进一步将Petri网的可达性、公平性、同步距离等理论应用到用户访问行为分析问题的求解,为将Petri网应用于用户访问行为分析提供了新的思路。1.4论文组织结构本文主要章节安排及内容关联如图1.1所示,第二章介绍了本文相关的理论知识,第三章的主要介绍了单用户访问行为Petri网的构建以及两个用户访问行为Petri网模型的相似度比较方法,为第四章的聚类提供了基础。通过第四章的聚类构建群体用户访问行为模型,进而引入Petri网的相关方法对群体用户的访问行为进行分析,即第五章的4 济南大学硕士学位论文主要内容。整体而言,以上主要研究内容以用户行为间的相似度分析为基础,通过进一步的聚类,将相似度的计算方法用到群体用户行为Petri网的生成,并最终实现基于Petri网的用户行为分析。图1.1论文内容组织结构本文内容具体安排如下:第一章是本文研究背景的介绍,探讨了本文选题的意义和研究的必要性。然后针对当前选题的相关研究现状与不足,提出了本文的研究工作和主要研究方法。最后介绍了课题主要研究内容、论文主要创新点和论文组织结构。第二章为本文研究相关的理论知识的介绍,包括Petri网、用户访问行为Petri网构建、相似度分析以及聚类的理论知识。第三章介绍了基于Petri网的用户访问行为相似度度量分析方法,包括构建用户访问行为Petri网,用户标签特征相似度计算和用户访问行为Petri网模型相似度计算。第四章介绍了基于Petri网的用户访问行为模型聚类算法以及群体用户访问模型的生成算法。基于第三章两个用户的相似度计算方法,采用H-K聚类算法,划分系统用户的种类,根据本文提出的群体用户访问行为Petri网算法,生成群体用户访问行为Petri网模型。第五章表述了基于群体用户访问Petri网模型的用户行为分析方法。结合第四章生成的群体用户访问模型与原系统网模型,系统性的分析了用户行为的整体过程。并设置5 基于Petri网的电商平台用户访问行为相似度分析及应用具体场景验证了本文提出的分析策略的可行性与正确性。第六章对本文工作进行了总结,提出本文研究内容的不足与改进之处,并指出了此后研究重点和方向。6 济南大学硕士学位论文第二章相关理论技术分析本章简要介绍与本文研究有关的理论与分析方法,具体请参见引用文献。2.1Petri网及其性质本小节介绍Petri网及其性质[33]。定义2.1(Petri网)一个三元组PN=(S,T;F)是一个Petri网,当且仅当:(1)ST;(2)ST;(3)F(ST)(TS);(4)dom(F)cod(F)ST。其中,S表示库所元素;T表示变迁元素;F为网PN的弧元素,表示库所与变迁之间的流关系,并且dom(F){xST|yST:(x,y)F};cod(F){xST|yST:(y,x)F}。定义2.2(前集/后集):Petri网系统为PN=(S,T;F),对于xPT,令(1)x{yyPT(y,x)F};(2)x{yyPT(x,y)F}。其中:x定义为x的前集或输入集,x定义为x的后集或者输出集。定义2.3(标识Petri网):一个标识Petri=(S,T;F,M),当且仅当:(1)PN=(S,T;F)是一个Petri网;(2)M:S{0,1,2,},其中M0是初始标识。定义2.4(变迁激发规则):Petri网系统的变迁激发规则满足:(1)对于tT,如果sS:stM(s)1(t表示变迁t的前置条件集),则说明t在标识M处被激发,记为M[t>,即如果变迁所有的前置库所中标识(token)数均大于等于1,该变迁具有激发权。7 基于Petri网的电商平台用户访问行为相似度分析及应用(2)若M[t>,则变迁t在标识M下可以被激发,并到达一个新的标识M(记为M[tM),对sS:M(s)1,若sttM(s)M(s)1,若stt(2.1)M(s),其他变迁(transition)库所(place)标识(token)图2.1包含变迁发生规则的Petri网S和T是两个不相交的集合,由它们构成网的基本元素的集合,T由矩形表示,S由圆形表示,变迁和变迁之间不可直接相连,同理库所和库所之间也不存在有向边连接,变迁和库所之间由有向边连接,具体的图形化表示方法如图2.1所示。图2.1中T0的前置条件集S1,S2中各有一个(token),所以T0在此处可以被激发。激发后,转换为箭头后面的状态。定义2.5(关联矩阵):设PN=(S,T;F,M0)为一个Petri网,S={s1,s2,…,sm},T={t1,t2,…,tn}。则Petri网PN的结构(S,T;F)可以用一个n行m列矩阵A=[aij]n×m来表示,其中aijaijaij,i{1,2,,n},j{1,2,,m}1,若(ti,sj)F,i{1,2,,n},j{1,2,,m}aij0,否则1,若(sj,ti)F,i{1,2,,n},j{1,2,,m}aij0,否则(2.2)称A为网PN的关联矩阵。关联矩阵是Petri网结构的数学表达形式,由此即可引入线性代数的数学方法对Petri8 济南大学硕士学位论文网的性质进行分析。2.2日志建模技术本小节介绍日志建模的相关技术[36]。2.2.1Log4JLog4J[37]是Apache组织下的一个开源项目,通过Log4j的使用,可以对信息的输出方式进行灵活的控制,例如控制台、文件;也可以控制每一条日志信息的输出格式;在给每一条日志制定级别的基础上,能够精细地把控日志信息的产生流程;可以通过配置文件进行灵活设置,而不必改变应用程序代码。目前支持的配置文件主要有两种格式:xml文件和properties文件。2.2.2AOPAOP[38-40]通过将核心焦点和横切焦点分离,应用对象只负责实现业务层面的逻辑,例如日志或事务支持。SpringAOP将日志等与业务逻辑不相关的任务抽取出来,联合Log4J,可单独设计成系统之外的应用。在需要的时候可以为系统提供服务,例如日志记录、性能统计等,在不需要的时候可以直接从系统中脱离出来。2.3相似度计算方法在计算两个单用户的访问行为Petri网的相似度的基础上,根据计算结果可以将相似度值大的一类用户归为为一类,形成群体用户访问模型,常见的相似度计算方法主要有欧氏距离、余弦相似度、Jaccard系数,皮尔森相关系数,曼哈顿距离等[41]。欧氏距离、曼哈顿距离和余弦相似度是相似度计算中经常用到的三种方法。欧氏距离也称为欧几里得距离,衡量的是多维空间中各个点之间的绝对距离,反映的是对象间真实位置之间的距离。当数据很稠密并且连续时,这是一种很好的计算方式。其计算公式为:2sim(Ui,Uj)(pk(Ui)pk(Uj))(2.3)k曼哈顿距离也称为城市距离,是两个点在坐标系中的绝对轴距离的总和,其计算公式为:9 基于Petri网的电商平台用户访问行为相似度分析及应用sim(Ui,Uj)pk(Ui)pk(Uj)(2.4)k余弦相似度是向量间夹角的余弦值计算的相似值,例如一大一小相同的对象,使用绝对距离计算差异会很大,但是余弦相似度更关注方向上的差别,其结果会更准确。其计算公式为:pk(Ui)pk(Uj)sim(Ui,Uj)22(2.5)kpk(Ui)pk(Uj)kk2.4聚类的主要方法本文构建的单用户行为Petri网是图的形式,因此本节主要介绍图聚类相关的知识。目前,针对图的聚类有很多种方法,此处主要介绍与本文相关的两种方法[42]:(1)基于划分的方法该方法通过划分准则,将需要聚类的N个数据划分为K个分类,即在相似度计算的基础上,数据集被划分为K个簇,属于同一个簇的数据紧凑度更强,每个簇之间的分离度高是评价划分的一个标准,每个簇中最少有一个数据点,每个数据集最少被分成一类,基于这一思想提出的聚类算法里面,K-means是最有代表性[43-45]。K-means算法主要流程如下[46]:1)选择k个聚类中心,计算彼此的距离,将距离最小的对象重新进行划分;2)重新计算每个新的聚类结果的均值;3)重复1),2)操作,直到每个结果的中心均值不再改变;(2)基于层次的方法根据相似度的计算,将数据一层一层的进行聚类,最初先计算数据集中两两对象的相似度,然后将相似度高的两个对象聚成一类,再对这些聚集成簇的数据集进行相似度的计算,重复此过程,我们会得到不同层级的聚类子集,这些子集构成一棵树状图,最终所有的数据聚成一类,是这棵聚类树的根节点。这种聚类算法叫做层次聚类[47-49],通常会作为其他聚类算法的初始算法用来选取最佳的初始簇的数目。层次聚类流程主要如下:1)把每个用户看成一个类;2)根据相似度度量公式,将相似度程度最高的两个类Ci,Cj进行合并,然后重新计算中心值;10 济南大学硕士学位论文3)根据聚类初始设定的条件,判断算法是否满足该条件,如果满足该条件,停止聚类;否则,继续步骤2)。如图2.2所示,分别计算11个点间的距离,将每一步的计算结果以树状图的形式展现出来就是层次聚类树。最底层是原始的11个数据点。计算得到这些点的相似程度的值,组成聚类树的第二层。重复上面的步骤直到组成一棵完整的层次聚类树。图2.2层次聚类状态图2.5小结本章简要介绍了Petri网的基本概念,用户系统日志构建Petri网的主要工具,以及与本文相关的相似度计算常用方法和关于模型常用的聚类方法,这些相关技术方法是本文研究工作的理论和基础。11 基于Petri网的电商平台用户访问行为相似度分析及应用第三章基于Petri网的电商用户访问行为相似度分析3.1概述分析用户访问行为的首要问题是如何构建用户行为模型,目前对于用户行为的建模过程多依赖于用户本身,如用户操作的浏览痕迹序列、位置、偏好等,体现不出用户与系统之间的交互行为,分析此类的用户行为模型进行,对系统本身业务流程进行训练和优化的作用是不足的。因此本章首先介绍了本文在研究的过程中选择Petri网对用户行为进行建模和分析的原因。其次,构建完成单用户访问行为Petri网模型,就应进一步关注使用该系统的群体用户,群体用户行为的分析需要从不同的维度对用户之间的相似度度量进行评估,然后通过合适的聚类算法将具有相同特征的用户分成同一个族类。因此如何选择一个适当的相似度计算方法评估两个用户间相似程度是进行聚类计算的前提。根据本文需要解决的问题以及获取的用户数据特点,本章提出了一种基于Petri网的用户访问行为相似度计算方法。3.2单用户访问行为Petri网本节主要介绍了本文使用Petri网对用户访问行为进行建模的原因,以及通过获取的系统后台日志构建单用户访问行为Petri网的方法。3.2.1使用Petri网的缘由Petri网作为并发、分布式系统的建模和分析工具,对系统的性质和行为分析具有强大的理论基础支持,在业务流程建模分析和优化方面也有广泛的应用。电商平台作为网络应用平台,可以利用Petri网进行很好的建模与相关结构及性质分析,同时电商平台用户在访问平台过程中必然与系统交互,而用户与系统平台的交互往往反映出用户对平台提供服务的兴趣和关注程度,例如用户访问过程中有哪些规律,用户在访问平台的时候路径习惯是怎样的,多个用户的访问行为有哪些共同之处。因此用户访问行为分析无疑对评价和优化平台的业务流程、服务设置等有直接且重要的价值。基于本文要解决的问题,在已有电商平台系统Petri网模型的前提下,可将用户访问平台的行为通过系统12 济南大学硕士学位论文Petri网的运行进行描述,而系统事件日志分析技术为获取到用户一次的访问行为序列提供了可行的技术实现,但与已有的单纯依赖多序列的用户行为分析不同,如何能够对用户行为进行综合性的描述和分析,无疑需要有效的模型和方法支持,Petri网建模方法完全满足这一需求。同时,本文尝试将单用户行为的Petri网描述进一步扩展到对不同用户的Petri网描述间的相似度对比,目的是利用传统的聚类思想,综合考虑不同用户访问行为模型间的相似度,从而得到群体用户访问行为模型,而不是停留在多序列的比对层面,面向电商平台大量的用户访问行为,得到电商平台群体用户访问行为的Petri网描述,进而考虑将Petri网的现有分析方法有选择地应用于用户访问行为分析,从用户访问行为对应的Petri网与系统Petri网间的对比,发现群体用户的行为规律或特征,从而可以对系统的业务流程进行评价,提供优化的依据,并发现新的业务模式,提高平台的服务性能。整体而言,本文是在利用Petri网对用户行为建模的基础上,最终目的是探究将Petri网相关理论与方法应用于实际系统的用户行为分析领域,不是仅仅停留在系统层面上的建模、分析阶段,而是在相关的技术和方法上进行探索和研究。3.2.2单用户访问行为Petri网的构建基于系统后台日志构建用户访问行为Petri网的流程:(1)利用AOP结合Log4J技术收集用户事件日志信息;(2)通过过滤器处理用户的系统日志,按照用户的id从日志信息中抽取用户的行为名称、行为间的邻接关系及行为发生频次,并且以用户行为矩阵的形式进行存储;(3)依据用户行为矩阵通过mxGraph[50-51]可视化出用户行为网络,然后基于Petri网的平凡扩展[33]将行为网络扩展成用户访问行为Petri网。3.3相似度评估算法本节主要介绍相似度评估算法的相关概念,单个用户访问行为Petri网的构建,以及具体的算法流程描述和实例验证。3.3.1相关定义根据采集数据特点以及Petri网的定义,给出了用户访问行为Petri网的有关定义。定义3.1(用户访问行为Petri网):设某电商平台系统的Petri网PN=(S,T;F),则13 基于Petri网的电商平台用户访问行为相似度分析及应用用户访问行为Petri网UPN=(US,UT;UF),其中:1)USS,为用户执行相关的输入输出对应的库所元素;2)UTT,为用户执行行为对应的变迁元素;3)CS为空库所,当两个用户行为对应的变迁的前置及后置集合满足:(•Ti∪Ti•)∩(•Tj∪Tj•)=ø或者(•Ti∪Ti•)∩(•Tj∪Tj•)=(•Ti∩•Tj)∪(Ti•∩Tj•)≠ø,则增加一库所元素(称为空库所);4)UFF,变迁元素之间在系统Petri网PN中的流关系;5)CF(US∪CS×UT)∪(UT×US∪CS);图3.1用户访问行为Petri网示例如图3.1所示,T1,T2,T3等变迁对用的就是用户的行为序列,s为对应的用户输入输出库所元素。定义3.2(用户行为矩阵):设用户访问行为Petri网为UPN=(US,UT;UF),用户行为对应的变迁序列为σ,相邻行为执行的次数(频次)为权值w,用户行为之间的关系定义为一个n阶方阵A=[aij],i∈{1,2,...n},j∈{1,2,...n},其中:(1)aij=w,若tj紧随ti发生,且发生次数(频次)为w;(2)aij=0,若tj与ti的发生不存在相邻关系。称A为用户行为矩阵。定义3.3(用户标签集合):用户的标签集合定义为D=(d1,d2,...dt),t>=1对应为一个用户行为输入输出值。用户标签集合中每一个标签对应的具体数据C=(c1,c2...,ct),t>=1。如图3.2所示,用户行为发生的时候,会产生很多数据,时间,地点,日期等,我们将这些数据整理成用户数据标签集合,作为用户的一种数据特征进行保存。14 济南大学硕士学位论文图3.2用户数据标签集实例3.3.2相似度评估流程设计我们常常通过给用户打标签的方法更深层次的观察用户。事实上,行为数据本身已变得越来越有价值,系统后台日志记录的用户操作内容,客观真实的还原了用户与系统之间的交互过程,与单纯的设定“用户标签”相比,记录下来的用户行为数据更具有研究的价值和意义,在此基础上生成的用户模型对用户的刻画会更加完美。因此,我们为了更加详细的刻画用户,将标签与行为模型相结合。图3.3用户访问行为相似度计算流程15 基于Petri网的电商平台用户访问行为相似度分析及应用图3.3展示了用户相似度计算的流程,首先获取系统日志,系统日志由SpringAOP结合Log4J日志组件生成。根据分析问题具体需求,经过数据预处理的数据集,分别分成用户标签特征集合和用户行为序列集合,例如年龄、性别、每次消费金额可构成用户标签特征集合,用户登录、查询和购买可构成一条用户行为序列。标签是人工定义的高度的特征标识[40]。在本文中,为了验证算法的可行性,选择定义了时间、地点、交易额度、日期和药品种类等标签。由于很多数据是连续的,因此将数据做离散化处理,生成每一个用户对应的标签特征集合,然后根据距离公式计算其相似度;用户的行为序列,即用户在一段时间内在该系统中的操作流程,将该结果集作为用户日志分类器的输入,根据用户id等唯一性标识对日志信息进行归类,将处理后的数据格式规范的存储至数据库中,以处理后的数据信息作为数据源,利用mxGraph技构建出用户的访问行为Petri网,然后计算两个模型的相似度。这两者通过用户的唯一标识用户id联系在一起,最后将计算的用户标签特征相似度和用户访问行为Petri网模型相似度进行整合,共同评价两个用户访问行为的相似程度。3.4两种相似度计算方法本节主要介绍用户标签特征和行为特征两种相似度的计算方法。3.4.1用户标签特征相似度计算方法对于一组标签数据,其相似度计算相对简单,计算公式为:sim(ui,uj)wksim(p(ui),p(uj))(3.1)k其中wk表示第k个标签的权重,sim(p(u),p(u))表示两个用户在标签集中第k个ij标签的相似度。计算出标签集中一个标签的相似度之后,进一步将所有的相似度进行整合,计算综合的标签相似度,其计算公式为:sim(pi,pj)(kck)s(ici)(3.2)其中,sim(p,p)为两个用户综合相似度表示,ck为用户标签集中第k个标签,λkij为第k个标签的权重因子。计算两个用户标签集中的标签采用的距离公式为欧氏距离公式,具体如下:16 济南大学硕士学位论文i2distk(cikcjk)i1(3.3)3.4.2用户行为特征相似度计算方法用户行为特征的相似度求解即对应的用户访问行为Petri网模型的相似度求解。系统日志建模之后,得到单用户访问行为Petri网模型,计算完成用户的标签特征相似度之后,需要计算两个用户模型之间的相似度,Petri网描述的用户访问行为关系可以采用用户行为矩阵进行表示,因此在计算模型相似度的时候,采用矩阵相似度的计算方法。定义3.4(矩阵相似度)[52]:设Cmn表示mn阶矩阵,若A,BCmn,则矩阵内积,T定义为:A,Btr(BA)其中tr()为主对角线元素之和。,由矩阵内积可导出矩阵范数||||为:||A||A,A;矩阵相似度r可定义为:A,Brcos||A||||B||(3.4)定义3.4中为两个矩阵之间的夹角,r的值域为[1,1]。则当90时,r0,表示两个矩阵不相似;当0时,r1,此时两个矩阵的相似性最好。3.5用户访问行为相似度算法传统的用户行为分析中对于两个用户的相似度的评价主要是基于标签形式的,关于用户行为是单一序列的,本小节的算法提供了两个用户访问行为更加细粒度的评估算法。如算法3.1所示,根据用户的唯一标识识别出用户的日志中标签数据信息和行为序列信息,然后构建用户的访问行为Petri网,分别计算用户的标签数据相似度和行为序列相似度,将两者结合共同评价两个用户的相似程度。3.5.1算法描述算法3.1用户访问行为相似度度量算法算法输入:系统用户日志算法输出:两个用户的相似度度量算法步骤:17 基于Petri网的电商平台用户访问行为相似度分析及应用Step1:设置相似度阈值λ;Step2:系统日志预处理。将系统日志按照用户id地址获取一个用户的后台操作日志,生成用户行为日志文件;Step3:单用户日志预处理。在获取到每个单用户后台日志的基础上,首先剔除无意义的序列,根据用户id,将统计得到的相应动作信息记录和标签数据信息记录在如表3.1所示的数据表内;表3.1用户访问行为表字段名数据类型字段说明useridint用户唯一标记tidint用户行为唯一标记Pidint用户标签数据唯一标记Step4:生成用户行为Petri网与用户标签数据特征集;Step5:根据3.4.1节中提供的方法,计算用户数据特征的相似度α;Step6:根据3.4.2节中的计算方法计算两个用户行为特征的相似度r;Step7:将用户行为矩阵的相似度与用户数据特征值的相似度值相乘,计算两个用户的相似度ξ=α*r,如果ξ>=λ,则判定两个用户为相似的。3.5.2实例分析根据3.5.1节提供的算法进行实例验证,本文使用的系统平台为某一售药系统平台,如图3.4,通过计算该平台两个用户的相似度来验证本章所提出算法的可行性。图3.4系统Petri网该平台客户端包括移动端和PC端,其主要业务操作如表3.2中变迁标识说明所示。主要包括注册、登录、药品查询、编辑购物车、提交订单、支付和评价等操作。该平台18 济南大学硕士学位论文可以根据用户提供的地址信息选择最近的药店,将用户购买的药物送到用户手中。表3.2Petri网变迁对应名称变迁变迁含义T0注册T1登录T2药品查询T3编辑购物车T4修改个人信息T5填写和确认订单T6选择优惠方式T7提交订单T8支付T9商品评价T10注销首先为了便于计算做出如下设定:假设(a):假设在实验平台的关键操作处设置观测点,记录用户每次登陆的时间、日期、地点、交易项目、交易金额等组成用户标签数据特征集。计算相似度时设置各个标签的权重相等,计算各个标签距离的均值,然后进行归一化处理。假设(b):根据用户数据特征相似度的计算方法(公式3.1,3.2)和假设(a)的内容,该实验中选取的数据特征有如下几项(已对其进行离散化处理):c1=(时间1(5:00-8:00),时间2(8:00-11:00),时间3(11:00-14:00),时间4(14:00-17:00),时间5(17:00-20:00),时间6(20:00-23:00),时间7(23:00-2:00),时间8(2:00-5:00));c2=(额度1(0-100),额度2(100-500),额度3(500-1000),额度4(>=1000));c3=(工作日,休息日);c4=(市区,郊区,乡村);c5=(感冒药,胃药,皮肤药类)。假设(c):假设相似度的阈值λ=0.85,当相似度大于等于0.85的时候,认定这些用户属于同一用户群;当用户间的相似度量低于0.85的时候,这些用户不属于同一群体。基于以上假设与方法,实验主要步骤如下:Step1:获取用户一段时间内使用某平台的数据,这里使用一个月的日志数据。19 基于Petri网的电商平台用户访问行为相似度分析及应用图3.5筛选后的某一用户系统日志片段如图3.5所示,日志里面包含用户的id,用户登录的日期,时间以及用户的交易编码操作流程等信息。Step2:根据系统日志生成两个用户的访问行为Petri网模型,如图3.6所示:图3.6两个用户的访问行为Petri网模型根据生成的单用户Petri网模型,其对应的用户行为矩阵为:20 济南大学硕士学位论文01313000001414000000022000000250000001500000014000A00001400B00001700000009000000600000000000000000000000003000Step3:根据算法3.1计算两个模型的相似度:TA,Btr(BA)1416||A||A,A36.387||B||B,B39.332A,Brcos0.989||A||||B||通过计算,两个用户模型的相似度r=0.989>0.85,该计算结果表明,两个用户在该平台的操作流程是极其相似的。Step4:根据假设(a),数据特征集D=(时间标签,地点标签,额度标签,药品种类,日期标签)。将数据点映射到离散的集合里(例如将24小时离散成八个时间段,然后将收集的用户时间点映射到相应的时间段上),对每个标签集合进行统计,得到的两个用户数据特征向量集合为:User1:c11=(0.1,0.3,0,0.2,0.2,0.2,0,0);c12=(0.5,0.4,0.1,0);c13=(0.8,0.2);c14=(0.8,0.1,0.1);c15=(0.8,0.2,0)。User2:c21=(0.4,0.1,0.1,0.1,0.2,0.1,0,0);c22=(0.8,0.1,0.1,0);c23=(0.1,0.9);c24=(0.1,0.1,0.8);21 基于Petri网的电商平台用户访问行为相似度分析及应用c25=(0.4,0.5,0.1).82根据欧氏距离公式计算:dist1(c11ic12i)0.40i1。根据上述的步骤,按照顺序计算得到标签集合的相似度,数据特征的相似度集为:D=(0.40,0.42,0.99,0.99,0.51)对其进行归一化计算,并且计算得到的均值为:5150.514i11disti.根据步骤3和4得到的结果,统计评价用户的相似度为ξ=r*α=0.514*0.989≈0.51.通过实验得知,最终两个用户的相似度小于事先设定的阈值λ,因此判断user1和user2尽管在系统中的操作路径是相似的,但是由于用户间的数据特征是不相似的,综合评估相似度的时候,user1和user2不属于同一用户群体,因此本节所提出的相似度度量是一种更加细粒度的划分用户的计算方法。3.6小结本章给出了如何计算系统中两个用户相似度的计算方法。首先获取系统中的用户日志,通过用户日志构建单用户的访问行为Petri网,并且筛选出相应的用户数据特征集合;其次根据欧氏距离和用户行为矩阵相似度计算的方法,计算两个模型的相似度,最后将这两个相似度进行结合,综合评价用户的相似度情况,为下一章的聚类和群体用户访问行为提供了技术和理论支撑。22 济南大学硕士学位论文第四章群体用户访问行为Petri网的构建4.1概述我们在第三章主要讨论了如何基于一定时间周期内的系统日志构建单用户的访问行为Petri网以及两个用户访问行为Petri网模型间相似度度量的方法,以应用从用户行为角度进行聚类。基于用户聚类分析的前提下,将用户分到不同的类别中,得到系统的多种类型的用户群体,并构建各群体用户访问行为对应的Petri网模型描述,为进一步的基于Petri网的群体用户行为分析打下了基础。目前关于聚类算法已经得到了广泛的研究,例如基于划分的方法,基于层次的方法等,分别根据具体问题应用于具体的领域。在这些方法中,K-means是广为熟知的,它简洁且效率高,但是由于聚类中心和K值选择的随机性,选择的值不同产生的聚类结果也不一样,因此在实际问题的解决中,面临很大的挑战;层次聚类和K-means恰恰相反,它可以产生很好的结果,可是在聚类的过程中会耗费大量的时间,效率低下。因此,很多学者想到了将这两者进行结合。文献[54]中就是运用了这一思想,提出了H-K算法,首先使用层次聚类选择最优的初始中心和聚类数目K,然后使用K-means算法进行聚类。本文结合文献[55]提出的H-K聚类算法的思想和我们构造的用户访问行为Petri网图模型的数据特点进行聚类,首先介绍了相关概念,其次介绍了通过H-K算法生成群体用户访问行为Petri网的算法步骤,并通过实验验证方法的可行性。4.2H-K算法相关概念描述本节主要介绍了H-K聚类算法[55]需要用到的整体相似度和轮廓系数两个定义。4.2.1整体相似度评价聚类效果有很多标准,但是究其根本,一个好的聚类结果应该是聚成簇的内部对象间紧密程度高,而簇与簇之间分离程度高。整体相似度就是通过计算簇内的紧密程度来衡量聚类质量的好坏,其定义为[56]:r(x,C)iSn(4.1)23 基于Petri网的电商平台用户访问行为相似度分析及应用其中x表示簇Ci中任一对象,ci表示为簇Ci的中心,dist(x,ci)为任意对象x到簇Ci的距离。同样,整个数据集的整体相似度为:kmisimilaritysimilarityii1m(4.2)其中k为聚类的个数,m是数据集中数据的总量,similarity的结果越大,聚类的效果越差,反之效果越好。4.2.2轮廓系数轮廊系数利用数据集中对象间的相似性对聚类效果的好坏进行评价。其定义为[57]:baiisilhouette(4.3)imax(a,b)iiai表示所在的簇中与其他的对象的距离,bi与其相反,表示该对象到其他簇对象的平均距离的最小值。其取值在[-1,1]。:(1)S(i)=1表明对象i与其不属于的簇内对象差异性大,表明被分配到紧密的簇中;(2)S(i)=0表明对象i与其他对象差别不大,该数据是随机或者平均分布的;(3)S(i)=-1表明对象i与其所属的簇中对象差异性很大,它被错误的进行了分组。4.3H-K聚类算法实现过程如算法4.1所示,根据第三章构建的单用户访问行为Petri网和提出的相似度计算方法,使用H-k聚类算法,将用户进行聚类。H-K聚类算法如下:算法4.1H-K聚类算法算法输入:用户数据算法输出:聚类结果Setp1:通过轮廓系数,将含有n个单用户访问行为Petri网的用户行为矩阵的数据集合分类,分别计算不同k值下的轮廓系数,根据计算得到的最大值,选择初始最优的聚类数目km;Setp2:根据第三章中单用户访问行为Petri网模型的相似度计算方法进行计算,选24 济南大学硕士学位论文取两个最接近的用户访问行为Petri网模型集合合并成为新的模型集群;Step3:计算两个用户访问行为Petri网模型集群合并前平均值作为新模型集群的中心;Step4:执行上面的步骤直到整个数据集仅剩下(km+r)个模型集群;Step5:根据定义4.2.1,计算每个模型集群内部的紧凑程度similarity;Step6:根据similarity的计算,将模型集群中similarity值最小的一个集群中单用户访问行为Petri网进行重新分配,使其加入相似度最高的模型集群。同时重新计算新的集群的中心值,重复这一步直到最终剩余值为km;Step7:依次遍历选取数据集中所有的模型;Step8:如果该模型已经包含在第6步所生成的km个集群中,继续保存在该集群中,否则执行Step9;Step9:计算该模型与已经存在的km个模型集群中心的距离;Step10:直到整个模型集群中模型的分布不在变化,停止聚类,输出聚类结果。4.4群体用户Petri网模型的构建通过上一节的H-K聚类算法,我们得到了某一系统的用户访问行为Petri网类别的划分,但仅仅是对单个用户访问行为Petri网的分类,我们需要进一步将分类后的单用户访问行为Petri网模型进行融合,考虑构建该系统对应的群体用户访问行为Petri网的方法。4.4.1相关概念首先,基于单用户访问行为Petri网得到群体用户访问行为Petri网。定义4.1(群体用户访问行为Petri网)设n个用户的访问行为Petri网为UPNi=(USi,UTi;UFi),(i=1,2,3,...,n);则群体用户访问行为Petri网为nnnGUPN=(GUS,GUT;GUF),其中:GUSUSi;GUTUTi;GUFUFi。i1i1i1进一步,定义为群体用户的最大匹配变迁集及最小匹配变迁集如下:定义4.2(最大匹配变迁集):设n个用户的访问行为Petri网为UPNi=(USi,UTi;nUFi),(i=1,2,3,...,n);则GUTmaxUTi定义为最大匹配变迁集,即聚类完成后该群体访i125 基于Petri网的电商平台用户访问行为相似度分析及应用问行为Petri网中所有变迁组成的集。定义4.3(最小匹配变迁集):设n个用户的访问行为Petri网为UPNi=(USi,UTi;nUFi),(i=1,2,3,...,n),则GUTminUTi定义为最小匹配变迁集,即聚类完成后该群i1体内每个用户访问行为Petri网模型均出现的变迁组成的集。如图4.1中为三个单用户访问行为Petri网模型示例,其中最大匹配变迁集GUTmax=(T0,T1,T2,T3),最小匹配变迁集合GUTmin=(T0,T2)。图4.1三个单用户访问行为Petri网模型通过定义最大匹配变迁集合,首先遍历该类用户的变迁,找出该用户的最大匹配变迁集,然后基于最大匹配变迁集,得到所有用户的变迁矩阵Tn×n,遍历所有用户的变迁序列,如果变迁ti,tj(i
此文档下载收益归作者所有