欢迎来到天天文库
浏览记录
ID:35065994
大小:5.21 MB
页数:74页
时间:2019-03-17
《基于时空数据的用户社交链接预测研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学獄码:102S5学号:201342270137*AI1睾HSOOCHOWUNIVERSITY|mW^^M基于啦数誦動敝賺删研究SocialTiePredctonnSttiiUsiaioemoralDatagpp.-H'研究生姓名指导教师姓名曾嘉营ilii专业名称计算机科学与技术?—iCiiif硏究方向机器学习与数据挖掘li^所在院部计算机科学与技术学院^:^论文提交日期2016年5月基
2、于时空数据的用户社交链接预测研究中文摘要基于时空数据的用户社交链接预测研究中文摘要基于用户时空数据对用户间社交链接进行预测(即预测任意两个用户之间是否有社交链接)是重要的研究方向之一,吸引了大量学者对其进行研究和探索。本文提出了一种新的预测用户社交链接关系的方法,该方法充分挖掘了用户的共现特征,有以下三个创新点:1)针对传统方法基本上只注重用户与地点共现特征而忽略用户与时间共现特征的问题,本文提出了一种基于主题模型LatentDirichletAllocation(LDA)的特征提取方法,不仅能够获得用户与地点的共现特征(Co-loca
3、tionFeature),还能同时获得用户与时间的共现特征(Co-timeFeature)。研究发现,经常在相同的地方或者相同的时间发生签到行为的用户间存在社交链接关系的可能性较大。根据每位用户在各个地点出现的频率,通过LDA深层挖掘用户的主题特征(即用户与地点的共现特征,Co-locationFeature)。该主题特征本质上是由用户与地点的共现产生,从而充分刻画了用户与地点的共现信息。同理,根据每位用户在各个时段出现的频率,通过LDA模型获取用户的主题特征(即用户与时间的共现特征,Co-timeFeature)。在Brightkit
4、e数据集中,基于LDA的特征方法预测用户社交链接关系的(Precision,Recall)最高可达(72.6%,72.7%)。在Gowalla数据集中,基于LDA的特征方法预测用户社交链接关系的(Precision,Recall)最高可达(75.8%,66.4%)。2)LDA没有同时考虑用户签到的时间特征和空间特征,它是一种粗粒度的特征提取方法。因此,本文还提出了一种基于词向量算法word2vec的细粒度共现特征提取方法,该方法同时考虑了用户签到的时间特征和空间特征。通过该方法可以获得用户与相同地点最近时刻签到用户的共现特征(Co-lo
5、cation-timeFeature)和用户与相同时段最近邻签到用户的共现特征(Co-time-locationFeature),该类特征同时考虑了用户签到的时间特征和空间特征。在Brightkite数据集中,该方法与基于LDA的社交链接预测方法相比,其Precision和Recall分别提高了5.3%和6.4%。在Gowalla数据集中,其Precision和Recall分别提高了11.9%和10.4%。3)为了能够充分利用共现特征预测用户社交链接关系,本文提出了基于决策融I中文摘要基于时空数据的用户社交链接预测研究合的用户社交链接预
6、测的方法,将LDA模型产生的Co-location特征和Co-time特征所预测的社交链接强度和word2vec产生的Co-location-time特征和Co-time-location特征所预测的社交链接强度融合(即决策融合),获得融合的决策特征。实验证明,在Brightkite数据集中,该方法与基于LDA的方法相比,其Precision和Recall分别提高了7.1%和8.2%;该方法与基于word2vec的方法相比,其Precision和Recall都提高了1.8%。在Gowalla数据集中,与LDA方法比,其Precision
7、和Recall分别提高了14.8%和13.0%;与基于word2vec的方法比,其Precision和Recall分别提高了2.9%和2.6%。目前,Entropy-BasedModel(EBM)预测的用户社交链接关系实验效果最佳,其在Gowalla数据集上(Precision,Recall)最高可达(80%,70%),而本文提出的基于决策融合的社交链接预测方法的(Precision,Recall)最高可达(90.6%,79.4%)。因此,我们提出的预测用户社交链接关系的方法比EBM模型的方法的预测结果的精确率和召回率分别提高了10.6
8、%和9.4%。关键词:时空数据,LDA模型,word2vec,决策融合模型,共现特征作者:陈元娟指导老师:曾嘉教授本文的研究工作受国家自然科学基金项目(61373092,61572339,6120202),
此文档下载收益归作者所有