社交网络个性化推荐技术研究

社交网络个性化推荐技术研究

ID:34572205

大小:932.16 KB

页数:60页

时间:2019-03-08

上传者:U-24835
社交网络个性化推荐技术研究_第1页
社交网络个性化推荐技术研究_第2页
社交网络个性化推荐技术研究_第3页
社交网络个性化推荐技术研究_第4页
社交网络个性化推荐技术研究_第5页
资源描述:

《社交网络个性化推荐技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

TP393公开分类号:____________密级:______________UDC:____________单位代码:______________11646支持服务关联的Web服务选择技术硕士学位论文研究论文题目:社交网络个性化推荐技术研究何静学号:_________________________1111082089姓名:_________________________何静专业名称:_________________________计算机应用技术学院:_________________________信息科学与工程学院指导教师:_________________________潘善亮宁波大学论文提交日期:2014年4月15日万方数据 TP311公开分类号:____________密级:______________UDC:_________单位代码11:6______________46硕士学位论文论文题目:社交网络个性化推荐技术研究1111082089学号:_________________________姓名:_________________________何静计算机应用技术专业名称:_________________________信息科学与工程学院学院:_________________________潘善亮指导教师:__________________________________________________论文提交日期:2014年4月15日万方数据 AThesisSubmittedtoNingboUniversityfortheMaster’sDegreeResearchonSocialNetworkingPersonalizedRecommendationTechnologyCandidate:HeJingSupervisors:(Associate)ProfessorPanShanLiangFacultyofInformationScienceandEngineeringNingboUniversityNingbo315211,ZhejiangP.R.CHINADate:April15,2014万方数据 宁波大学硕士学位论文独创性声明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得宁波大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。签名:___________日期:____________关于论文使用授权的声明本人完全了解宁波大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵循此规定)签名:___________导师签名:___________日期:____________III万方数据 社交网络个性化推荐技术研究社交网络个性化推荐技术研究摘要Web2.0技术将世界带入了一个社交网络时代,社交网络如中国的新浪微博,Facebook,MySpace,Twitter等都已经成为极具影响力的平台。SNS(SocialNetworkingServices)结合了用户群和信息,不仅使用户可以方便快捷地获取和分享信息的,而且也拓展了用户的社交范围,增加了用户的社交圈子。社交网络中的大部分信息都是沿着用户的好友关系传播的,所以好友关系已经成为社交网站的重要构成模块。利用社交网络,用户建立起与线下好友关系相对的线上关系的基础上,开始慢慢产生单纯的线上好友关系,这种单纯的线上好友关系很大程度上弥补了现代人的情感空虚。潜在好友推荐功能能够帮助用户更加快速的建立起良好的社交网络好友关系圈子,使其更快速融入社交网络的信息服务当中,是一种十分实用且流行的社交网络服务。当前存在许多社交网络个性化推荐算法,但大部分都是依据社交网络拓扑结构或者是用户个人注册文件信息等来设计的,不具备时效性。为改善上述不足,本文在普通协同过滤算法诸多方面提出相应改进的基础上,设计了一种较新颖的推荐方法来为用户生成个性化推荐列表。算法采用了基于遗传算法的用户兴趣圈子软化分,改进了用户相似度计算方法,提供了一种适应用户兴趣变化和基于双边兴趣推荐的算法。对于刚加入社交网络的新用户,由于在社交网上尚未有任何社交记录系统无法为其产生个性化好友推荐,本文设计了基于兴趣圈子专家推荐的方法来解决该问题。本文算法首先利用GooglePageRank算法计算出某个兴趣圈子内各用户的“权威性”,那些具有较高权威值的用户即为专家用户,然后依据专家用户经验来为刚刚加入系统的新用户产生推荐。本文最后通过实验验证了本文算法的有效性。关键词:社交网络,兴趣圈子,协同过滤,冷启动,专家推荐IV万方数据 宁波大学硕士学位论文ResearchonSocialNetworkingPersonalizedRecommendationTechnologyAbstractWeb2.0technologyledthewordintoaSocialNetworkServices(SNS)era.Socialnetworks,suchasChina'sSinaWeibo,Facebook,MySpace,Twitteretchasbecomethemostinfluentialplatforms.Combinedusergroupandinformation,SNSnotonlyallowsuserstoquicklyandeasilyaccessandshareinformation,butalsoexpandingtheuser'ssocialscope.Sincethemostoftheinformationinsocialnetworksspreadalongtheuser'sfriendsrelationship,thefriendrelationshiphasbecomeanveryimportantpartofsocialnetworkingsites.Exploitingthesocialnetworking,inbasisofofflinerelationships,usersestablishedcorrespondingonlinerelationships,andslowlybegantoproduceasimpleonlinefriendrelationships,thissimpleonlinefriendslargelymakeuptheemotionalemptinessinmodernrelationship.ThepotentialfriendsrecommendationfunctionisaverypracticalandpopularsocialnetworkingservicewhichcanhelpusersestablishagoodrelationshipbetweensocialnetworkfriendsgroupmorequicklyandmaketheymorerapidlyintegrateintotheSNS.Currently,therearemanysocialnetworkingpersonalizedrecommendationmethods,thesemethodsaregenerallydependentonthetopologicalstructureofthesocialnetworksoruser'spersonaldata,butthosestaticinformationdonothavetimeliness.Inthispaper,weproposedanimprovedcollaborativefilteringmethodtogeneratethelistofpotentialfriendsforcurrentuser.Ouralgorithmcombinedgeneticalgorithmtodeterminuser'sinterestgroups,andthenimprovedtheusersimilaritydegreecalculationalgorithm,providesakindofuser'sinterestchangeadaptingandbilateralinterestrecommendationalgorithm.Forthosenewuserswhohasjustjoininthesocialnetwork,sincetheydon’thaveanysocialingrecordyet,wedesignedinterest-basedgroupexpertsrecommendingapproachtosolvethisproblem.Firstly,ouralgorithmtakeadvantageofGooglePageRankalgorithmtocalculateeachuser's"reputation"inthegroup,thosewhohaveahighreputationvalueareexpertusers.Thengeneraterecommendationsfornewusersaccordingtotheexpertusers’experience.Finally,experimentalresultsdemonstratethesuperiorityofourmethod.Keyword:SocialNetworking,InterestGroup,CollaborativeFiltering,ColdStart,ExpertsRecommendV万方数据 社交网络个性化推荐技术研究目录引言......................................................................................................................................1第1章:绪论.............................................................................................................................21.1研究背景....................................................................................................................21.2社交网络简介..............................................................................................................21.2.1简介.................................................................................................................21.2.2社交网络发展史................................................................................................31.2国内外研究现状..........................................................................................................51.2.1个性化推荐方法研究现状...............................................................................51.2.2协同过滤个性化推荐方法研究........................................................................61.3研究内容及意义...........................................................................................................71.4本文的主要工作..........................................................................................................81.5本文的组织结构...........................................................................................................9第2章:基于遗传模糊用户聚类兴趣圈子划分...................................................................112.1用户兴趣因素选取方法研究....................................................................................112.2.用户聚类..................................................................................................................122.2.1基于硬聚类的用户兴趣圈子划分方法.......................................................122.2.2模糊聚类..........................................................................................................132.2.2.1FCM算法...............................................................................................142.2.2.2遗传模糊聚类.......................................................................................162.3本章小结....................................................................................................................18第3章:基于双边兴趣的协同过滤好友推荐方法研究.......................................................203.1协同过滤算法简介..................................................................................................203.1.1相似性计算...................................................................................................203.1.2用户项目矩阵稀疏性及其解决办法.............................................................223.2改进协同过滤算法....................................................................................................223.2.1用户评分矩阵建立.........................................................................................233.2.2改进相似度计算公式.....................................................................................233.2.2.1SW(相似度可信值加权)策略......................................................253.2.2.2GW(相似度可信值高斯加权)策略................................................263.2.3用户兴趣随时间变化...................................................................................263.2.4双向兴趣矩阵..................................................................................................273.3推荐策略.....................................................................................................................293.3.1传统协同过滤算法推荐步骤.......................................................................293.3.2基于用户兴趣圈子划分的双边兴趣协同过滤推荐策略.............................293.4实验评估.....................................................................................................................313.4.1评价指标.........................................................................................................313.4.2实验结果与分析.............................................................................................323.5本章小结.....................................................................................................................33第4章:基于信任网络的新用户推荐方法...........................................................................344.1冷启动问题解决现状................................................................................................344.1.1不考虑内容的解决方法.............................................................................34VI万方数据 宁波大学硕士学位论文4.1.2结合内容信息的解决办法.............................................................................364.2基于兴趣圈子专家推荐的冷启动解决方法(GExpR)..............................................374.2.1新用户所属兴趣圈子划分..............................................................................374.2.2兴趣圈子内专家判定.....................................................................................384.3新用户好友推荐........................................................................................................394.4实验结果与分析........................................................................................................394.4.1算法评价标准.................................................................................................404.4.2算法结果及分析.............................................................................................414.5本章小结....................................................................................................................42第5章:总结与展望...............................................................................................................435.1论文总结.....................................................................................................................435.2展望............................................................................................................................44参考文献:.............................................................................................................................45在学研究成果.............................................................................................................51致谢....................................................................................................................................52VII万方数据 宁波大学硕士学位论文引言迅猛发展的Web2.0技术将世界带入SNS时代,社交网络己经吸引了众多的[1]狂热追随者。当腾讯QQ即时消息服务增加档案和交友功能后,其社交功能日[1][2]益强大。社交网络已经成为许多人日常生活中十分重要的一部分。但由于庞大的用户基数,社交网用户很难快速在系统中发现潜在的好友对象,为解决这一问题,各种个性化推荐技术应运而生。其中以协同过滤算法(CollaborativeFilteringRecommendation,CF)应用最为广泛,其基本思想是通过比较当前用户与其他用户行为(评分、评论、购买历史、访问次数等),找出k个与之最为相似的邻居,根据其相似邻居对某个项目的行为预测出当前用户对该项目的行为倾向,[3][4]以帮助其做出决策判断的一种算法。然而协同过滤算法也存在一些局限性。首先在海量用户的环境下,可用的信息数据很少,为当前用户寻找潜在好友时需要搜索系统中所有用户,算法效率不高。其次,协同过滤算法是从当前用户偏好出发寻找好友,并未考虑到实际情况中对方对当前用户的反映(如对方可能对当[5][6][7]前用户无好感,拒绝交友请求),导致很多不成功的推荐。第三,作为CF算法中最为关键的一步,相似度的计算结果准确与否直接影响到CF算法的效果,在实际计算中,往往存在着当两个用户仅拥有少量共同评分而相似度较高这一情况,参考文献[5]的研究表明,这种仅依靠极少数共同评分而得出的最近邻会生成十分荒谬的推荐结果。第四,协同过滤算法将用户访问过的每个项目都“一视同仁”,忽略了现实生活中用户兴趣往往会随时间推移而发生改变这一事实现象[8][9][10][11]。最后,协同过滤算法存在的冷启动问题极大的影响了用户的体验感受。针对上述问题,本文作者展开了相关研究。1万方数据 社交网络个性化推荐技术研究第1章:绪论1.1研究背景蓬勃发展的web2.0技术将世界互联网带入了社交网络(SNS)时代。社交网络源自网络社交,由最初的电子邮件模式不断发展至今已经出现了各种各样的社交网站,如MySpace,Facebook,Twitter以及中国的新浪微博和腾讯QQ等等。这些SNS吸引了大量的用户,其中很多人已经把它融入到每天的生活中。社交网络的用户规模每天都在不断扩大,截至2013年底,Facebook在全球的用户量已经接近12亿,成为规模最大的社交平台,其中每月有将近11.6亿的用户活跃在线上;中国最大的社交网络腾讯的QQ空间用户数量已经超过7亿,新浪微博用户数也已经突破6亿,其中大部分人每天在线时间超过1小时,每天活跃用户数[12][13][14]大于6000万。数据证明SNS正在以迅猛之速影响着用户的生活习惯和方式,尤其是交友方式。人们越来越倾向于利用社交网络寻找意气相投的知己好友,并且由于现代人生活方式转变,生活节奏加快,人们对社交圈子的扩展产生了进一步的需求。而每当用户登录SNS网站之时,就有海量的人脉信息出现在眼前,用户由于受其知识水平,工作性质,使用系统时间长短等原因往往很难在短时间内找到符合自己[15][16]需求的交友对象。系统只有有效的帮助用户挖掘潜在好友,为其推荐那些真正符合其择友条件的对象才能增加社交网站关注度,提升用户忠诚度,进而提升社交网站企业利润,因此许多社交网络个性化好友推荐系统如雨后春笋般涌现和[17][18]发展。个性化好友推荐的本质是信息过滤,它依据一定规则确定当前用户与系统中某些其他用户的相似程度或是利用已有的挖掘规则找出当前用户可能希望结交的潜在好友对象。目前许多不同领域的专家学者提出了许多不同的推荐算法,各有优缺点且解决了推荐系统中很多问题。但提出一种高效,扩展性及时性良好的[19][20][21][22]推荐算法永远是值得推荐系统设计者们研究的课题。1.2社交网络简介[23][24]1.2.1简介社交网络起源于网络社交,它由最初的电子邮件发展而来。社交网络的鼻祖——早期的E-mail仅仅只能实现不同用户间的信息传递,之后BBS对其在功能2万方数据 宁波大学硕士学位论文上进行了改进,增添了“转发”和“群发”这两大突破性功能,在理论上将所有人参与讨论话题和向所有人发布信息变成可能。BBS的广泛应用进一步推进了社交网络的发展,使其打破了点对点通信的限制,进步为点对面的沟通和交流,并且提高了效率。此后出现的博客(Blog)和即时通讯(IM)在某种程度可以说是电子邮件和BBS的加强版本,前者将社会心理学知识加入其信息发布节点中,使其表现出愈来愈强烈的个性特点,其在不同时间点上发布的分散信息被聚合,这就外化成了各个信息节点的不同性格特点;后者加快了信息的传输速度,强化了并行处理能力,体现出了即时效果和同时交流能力。比如从早期的Flickr,RSS到最近的Twitter,Facebook,国内的新浪微博,腾讯QQ等都已经解决了或是改进了单一功能,成为丰富网络社交的工具。伴随着网络社交的不断发展,用户在网络中的个性和形象开始变得立体和全面,于是这时候社交网络开始在互联网中崭露头角。社交网络最初设想十分普通——帮助用户参与社交活动(线上或是线下),所以早期的社交网络仅仅只包含了当前用户的好友列表和个人信息。社交网络的发展大致经历了以下这样五个过程:1以六度分割理论为代表的初期概念化阶段;2为用户带来更多社会资本的弱关系建立阶段,即陌生人结交阶段。3创立包含多媒体的,丰富多彩的用户个人主页阶段,即娱乐化阶段。4用户将现实生活中真实的社交关系拷贝到线上以降低管理成本阶段,即社交图阶段;5建立在著云台式分布网络社交理论基础上的云社交阶段。可以看出,用户不断把线下真实社交关系一步步转移到线上并进行管理是整个社交网络发展的主线,这使得虚拟的网络社交愈来愈与真实生活产生重叠和交叉。网络社交从早期的电子邮件时代一步步发展至今,越来越满足用户的社交发展需求。在电子邮件时代,网络社交仅占到人们所有社交活动的5%左右,而在互联网蓬勃发展的今天,大量社交网络和种类繁多的网站服务已将这一比例提到50%以上。事实上,除了一些不得不“接触”的社交,线上社交差不多具备了线下社交的绝大部分功能。而统计数据表明,在人们的日常生活中,非接触性社交占据人类社交的80%以上。所以,网络社交已经并且将会对人类的社交活动产生巨大而深刻的影响。[25][26]1.2.2社交网络发展史1971年,为了让ARPANET项目组的科学家之间能更加方便的交流和分享最新研究成果,世界上第一封邮件E-mail诞生。。1991年,经历多年的改进和实践,英国计算机科学家蒂姆.伯纳斯.李发明了以“超链接”为特征的万维网(WWW)3万方数据 社交网络个性化推荐技术研究1994年,一名来自斯沃思摩学院的学生首次建立个人站点,并开始与外界互联。1995年,一个旨在帮助曾经的同窗好友,如大学同学,中学同学甚至是小学同学和幼儿园同学重新取得联系的网络Classmates.com成立,其在2008年的时候依然拥有高达5000万的会员数量,直到2010年才退出社交网站TOP10。1996年,Ask.com上线,作为早期的搜索引擎它开始允许人们用自然语言而不是关键词提问。1997年,weblog一词首次出现,同年美国在线实时通信平台AIM发布,并其一经上线便受到用户欢迎。1998年,OpenDiary上线,这个在线日记社区的出现使得那些即使不了解HTML知识的用户同样可以发表个人私密的或是公开的日志。更具有创超性意义的是它实现了用户可以在其他用户日记下评论的功能。1999年,博客工具LiveJournal和Blogger问世;虽然其于2003年被谷歌收购,但它目前依然存在——著名的FOSSPatent就是依据它而建立起来的。2000年,Wikipedia上线,这是世界上第一个由协作而成的并且开源,在线的百科全书,仅是Wiki的用户本身一年内就为其提供了2万多个在线词条。2001年,Meetup.com成立。这个专注于线下交友活动的社交平台对于大多数人来说可能比较陌生,但却有着十多年的历史,并且直到今天每月仍然有超过34万的群组开展线下活动。2011年美国9.11事件后,网站创始人ScottHeferman创立该网站,最初目的是帮助人们互相联系,并且这种联系不仅仅是线上的,更是线下的。Meetup.com鼓励它的用户们走出各自封闭的家门去与其他人交流互动。2002年,致力于帮助人们与朋友保持联系以及发现新的对他们非常重要的人和事的社交网络Friendster上线。发展至今,它已经成为世界排名第三的品牌在线社交平台以及亚太地区排名第一的交友网络。作为是首家用户规模达到100万的社交网络,其一经推出便悄然走红,一直被全球SNS界认为是首个真正意义上的社交网络。2003年,MySpace上线,正如其最初所设想的那样,该社交网络主要用户群体为青少年。这个能为它的用户提供集交友,个人信息分享,即时通信于一体的社交平台曾今以月注册量突破100万的纪录刷新了社交网络成长史。数据表明,Myspace的用户活跃性极高,每个注册用户平均每天浏览将近30个页面。同样在2003年,一个由来自世界不同地区的数百名网络爱好者经过在线合作而成的社交网站WordPress发布,其目前在世界范围内已经拥有数千万的用户。4万方数据 宁波大学硕士学位论文2011年12月WordPress3.0一经发布便获得了超高的人气,在短短一年时间内获得了将近7000万的下载次数。这里有一个与WordPress有关的十分温暖的小故事,美国一位名叫卡莉.弗莱斯曼的女孩曾经饱受自闭症的折磨和困扰,而她最终在WordPress的帮助下重获新生,拜托了自闭症。之后,她在WordPress上创办了自己的个人博客,以帮助那些和她一样患自闭症的人们恢复健康。2004年2月4号,著名的Facebook上线。截止到去年,Facebook拥有将近10亿拥护者,每天有将近九百万张相片上传于此,成为全球最大的照片分享平台。同样于2004年创立的还有Flickr,它能提供十分先进的图片服务,不过现在已经被雅虎收购。2005年,YouTube上线,发展至今它已经成长为全球最大的视屏分享网站,2006年被谷歌公司收购,成为谷歌旗下的一间子公司。2006年,Twitter成立,它反其道而行之,将用户发表内容限制在140字以内,一经出现便立刻走红,成为强大的自媒体平台和方便的交流工具。2007年,轻博客鼻祖Tumblr上线。它不仅注重社交和表达,而且还很注重个性化设置,是一种介于传统博客和微博之间的社交媒体,成为目前年轻用户比较喜爱的社交工具之一,不过它在2013年被雅虎收购。2008年,Groupon上线,目前它已然成为国际上最大的团购平台。2009年,Foursquare上线,它在获取手机用户地理位置后,利用相关信息为其服务,并且它希望用户敞开心扉,同其他人交流与地理位置相关的有趣信息。为方便手机用户使用,其在设计用户界面时重点针对手机屏幕,不得不说这是社交网络历史上的一大创新。2010年,由谷歌团队创建的社交通信工具谷歌Buzz上线,创建团队将它集成于谷歌的邮件服务Gmail中,于是朋友们分享的信息会出现在Gmail的界面上。2012年Pinterest发展迅速。Pinteres中用户的照片以瀑布流的方式显示,新的照片被添加到页面底部,省去用户翻页过程,极大的方便了用户。1.2国内外研究现状1.2.1个性化推荐方法研究现状经过不断的研究与改进,目前已经存在许多不同的推荐技术,我们大致可以将之归纳为如下几类:基于内容过滤的推荐:系统利用内容过滤推荐的方法分析用户曾经评价过的一些历史文件或者项目来建立用户偏好模型。该方法通过计算用户偏好模型与待5万方数据 社交网络个性化推荐技术研究推荐项目属性间的相似程度,然后将相似度TOP_N的项目推荐给用户。基于内容的过滤推荐不仅需要合适的方法来建立项目属性文件和用户模型文件,而且需要合适的方法将这两个文件进行匹配。我们可以将整个推荐过程大致分成三个步骤:首先是内容分析,即从原来的项目信息中(例如网页,产品描述,文档,新闻等等)中提取出有价值的信息并采用一种适当的方式表示出来,例如将网页表示成关键词向量,简单来说即是一种将前期非结构化的数据处理成结构化以方便下一步工作;第二,该模块收集、泛化代表用户偏好的数据,通常是采用机器学习方法处理上一步获得的数据,推算出用户偏好文档,用于表示用户的喜好;第三,数据过滤,这个模块即将用户偏好文档与待推荐项目文件进行匹配,匹配方法如矩阵相似性计算等,匹配结果是形成一个关于待推荐项目的相似性排序。基于内容的推荐优势在于它能为用户推荐其可能感兴趣的潜在项目,缺点是由于只是分析用户历史数据来得到用户兴趣倾向,无法为用户推荐还未访问过类似的但可能感性去的项目。基于规则的推荐技术:基于规则的推荐原理相当简单,从其名称即可以看出,基于规则的推荐重点在于“规则”,其基本思想是系统从数量庞大的数据信息中找出若干项目之间的相关程度,然后提炼规则,利用规则为其他的项目推荐提供依据。规则本质就是如果满足某种条件即执行某种命令,因此规则制定得好与坏直接影响了推荐的效果。协同过滤推荐(CF):协同过滤推荐算法(CF)目前已经普遍被应用各种信息系统和电子商务网站中,是一种十分成功的推荐思想。其基本思想是依据当前用户与其他用户的行为比较,找出K个与之兴趣爱好最相似的用户组成他的最近邻集合,然后根据最近邻对某些当前用户尚未访问过资源的评价预测当前用户评价,从而为其产生推荐。其他推荐技术:不同的算法在执行过程中都存在各自不同的优缺点,例如基于内容可以发现用户新的兴趣点,但是却对提取项目属性要求过高,而协同过滤推荐不考虑项目属性却无法解决冷启动问题。因此,理论上讲可以将不同的算法进行组合,在针对不同的问题中,将算法进行不同组合或许可以取长补短以克服[27][28]单一算法的一些缺陷。1.2.2协同过滤个性化推荐方法研究实践应用和理论研究皆表明,较传统推荐方法协同过滤算法有如下优点:(1)可以对于如音频,图片等那些不便进行机器自动内容提取解析的项目进行过滤。6万方数据 宁波大学硕士学位论文(2)能够对于像是质量,品味等那些难于描述和表达的概念进行过滤。(3)能够为用户推荐相对比较新颖的项目。正因为协同过滤具有上述优点,其已经被广泛应用到商业中,如亚马逊,CDNow,MovieFinder和中国的淘宝网等都利用了CF技术来提高网站服务质量,增加网站效益。然而协同过滤算法也存在一些局限性。首先在海量用户的环境下,可用的信息数据很少,为当前用户寻找潜在好友时需要搜索系统中所有用户,算法效率不高。其次,协同过滤算法是从当前用户偏好出发寻找好友,并未考虑到实际情况中对方对当前用户的反映(如对方可能对当前用户无好感,拒绝交友请求),导致很多不成功的推荐。第三,用户间相似性的度量是整个CF算法中至关重要的一步,相似性的准确与否直接决定了CF算法效果的好坏,在实际计算中,很可能存在当两个用户共同评分非常少却得出这两个用户具有非常高的相似度的情况,生活常识告诉我们基于这种相似度的推荐结果将会是不成功的。为此,本文在接下来的章节提出了针对上述问题的相关[29][30]改进。1.3研究内容及意义首先,从理论研究角度来看,社交网络潜在好友个性化推荐技术的研究具有非常高的学术价值。自上个世纪90年代以来,国内外研究人员就已经开始广泛关注社交网络及其个性化推荐技术,并逐渐将其应用到各个行业。然而,个性化推荐技术仍有许多缺陷,如冷启动问题,数据稀疏性问题等。这些问题的存在严重影响了推荐系统的效率和性能,已经成为国内外专家学者的研究热点。社交网络中的个性化推荐说到底是推荐系统在网络平台中的应用,所以它必定具有传统推荐系统共同存在的问题,但由于其自身特殊性和复杂性的特点,也面临着新的挑战和问题,如用户间真实线下的社会关系对社交网络个性化推荐的影响,虚拟网络交往中人与人之间的信任度可能会较低对个性化推荐的影响,用户各自不[31]同的朋友定义对个性化推荐的影响等等。其次,伴随着社交网的蓬勃发展,越来越多的人们开始成为其忠实的拥护者,社交网络成为各路商家广阔的信息发布平台和广告平台,经济效益与日俱增,社交网络个性化推荐越来越具有实际应用意义。SNS时代的到来很大程度上改变了人们原有的交友方式,越来越多的人们需要并且喜爱从社交网络上结交与自己“意气相投”的朋友来丰富自己的日常生活。但同时社交网络上的用户数量每天都在爆炸性增加,用户越来越难以在短时间内快速准确的发现自己的潜在好友,这使得用户对社交网络个性化好友推荐产生了迫切需求。社交网络个性化好友推7万方数据 社交网络个性化推荐技术研究荐对于企业来说同样具有巨大的经济价值。通过向用户提供满意的个性化好友推荐增加网站访问量,用户注册人数,用户忠诚度并由此提高基于社交网站的网络营销企业的销售额,从而提高企业利润。数据表明,新浪微博2013年最后三个月的收入接近7200万美元,其中广告收入为5600万美元,超过总收入的78%。[32]由此可见,社交网个性化好友推荐研究符合国内外经济市场需求。当今时代,面对人们日益增长的个性化信息需求,传统个性化推荐再难保证令人满意的推荐效果。弥补现有推荐算法的不足,改善社交网络中潜在好友个性化推荐效果以满足用户的需求成为现阶段亟待解决的问题。基于此背景,本文以提高社交网络中个性化好友推荐服务水平位目标,在充分考虑社交网络自身特点[33]的基础上开展了研究工作,重点研究适合社交网络特点的推荐方法。1.4本文的主要工作本文对两类社交网用户个性化好友推荐展开了研究。一类是已经使用过多次社交网络的老用户,通过使用用户注册信息及标签信息挖掘用户的兴趣点,并在此基础上将用户划分到一个个的兴趣圈子中去。通常用户不仅仅只有一个兴趣爱好,从而硬聚类兴趣圈子划分方法将不可避免的丢失用户的某些兴趣爱好,导致推荐结果不够理想,本文针对这一问题设计了一种结合遗传算法的模糊聚类算法来对用户兴趣圈子软化分,默认为用户以不同的隶属程度属于不同的兴趣圈子,契合现实世界中用户兴趣多样性这一特点。在基于用户兴趣圈子划分基础上,在每个兴趣圈子内分别利用协同过滤算法计算待推荐集合。针对传统的协同过滤算法存在相似度计算不精确,不能反映用户兴趣随时间变化规律以及由于仅从当前用户单方面主观感受出发忽略被推荐方感受(如对方可能拒绝交友请求等)而产生的推荐精度不高等问题,本文分别从改进相似度计算方法,引进时间权重函数和同时考虑交友双方感受出发弥补上述缺陷,保证了推荐的准确性。另一类是刚开始使用社交网络的新用户,即主要解决新用户的冷启动问题,本文通过建立用户信任圈子和采用信任圈子内专家的建议方法解决冷启动问题。对于上述两类用户的好友推荐问题,通过实验,验证了本文提出的解决方案都能有效改善上述问题。本文主要工作如下:分别介绍了社交网络中好友推荐方法与冷启动问题的国内外研究现状,分析现有方法存在的不足与缺陷,并提出本文的解决方案;(1)详细介绍了用户兴趣圈子划分方法,主要有用户兴趣圈子硬划分和用户兴趣圈子软划分两种方法,描述了硬兴趣圈子划分方法存在的缺陷和造成的好友推8万方数据 宁波大学硕士学位论文荐效果的不理想,采用一种基于模糊c均值聚类算法(FCM)来解决兴趣圈子硬划分存在的问题,并将遗传算法(GA)与模糊c均值聚类算法结合,构造GCM算法来保证用户兴趣圈子划分结果的全局最优性以提高好友推荐的效率,具体阐述了它的设计思想和工作流程;(2)针对前文中提到的协同过滤算法各方面不足提出相关改进。主要包括引进相似度可信值这一概念,并详细阐述了相似度可信值加权和高斯加权两种相似度改进方法;为了体现用户兴趣随时间不断发生变化这一事实规律,引进时间权重函数这一概念,优先考虑用户最近访问过的对象,并详细阐述了时间权重函数的构造方法;针对传统协同过滤推荐方法可能会产生一些不被被推荐对象所接受的问题,提出双边兴趣这一概念,从推荐双方感受出发,尽量推荐那些既符合当前用户择友标准同时极有可能接受当前用户的那些用户,并详细阐述了双边兴趣建立过程。(3)针对新用户冷启动问题,提出了一种建立用户信任圈子和挖掘信任圈子内专家并采用专家建议从而向新用户做出推荐的方法。通过实验验证了该方法的有效性。1.5本文的组织结构第1章为全文绪论,首先简单介绍了本文研究背景,阐述了社交网的概念,交代了社交网的起源及近年来的其发展历程;然后介绍了个性化推荐技术的国内外研究现状,并重点介绍了协同过滤推荐算法,最后简单介绍了本文的研究内容和研究意义。第2章基于遗传模糊用户聚类的兴趣圈子划分,概述了好友推荐中用户兴趣因素选取方法,介绍了用户兴趣圈子划分方法,包括基于硬聚类的划分方法和基于模糊聚类的用户兴趣圈子划分方法,并阐述了基于硬聚类用户兴趣圈子划分方法的缺陷,采用了一种结合遗传算法的FCM算法来解决硬划分存在的问题,最后详细阐述了它的设计思想和流程。第3章基于双边兴趣的协同过滤好友推荐方法研究,简单介绍了协同过滤方法思想,在此基础上分析出其存在相似度计算不够精确,不能适应用户兴趣随时间变化,仅从交友双方单方面喜好出发从而导致推荐成功率不高等问题,并针对其存在的不足提出了相应的改进方法。针对相似度计算不够精确的问题,本章提出了相似度可信值这一概念,提出了基于相似度可信值加权及基于相似度可信值高斯加权两种改进策略,并详细阐述了这两种策略的设计思想及算法流程;针对算法不能适应用户兴趣随时间变化这一缺陷,本章引进了时间权重这一概念,9万方数据 社交网络个性化推荐技术研究并详细描述了权重函数的设计方法;针对原有算法仅从单方面兴趣偏好出发,忽略被推荐人感受问题,分别从用户评分矩阵行和列出发,同时考虑双方在交友过程中的感受保证推荐结果的有效性。本章结尾详细阐述了改进后算法推荐策略,最后通过实验比较了本文算法与其他算法的推荐准确率,验证了本文算法的有效性。第4章基于信任圈子的新用户冷启动问题研究,本章简单介绍了推荐系统中存在的新用户冷启动问题,分析了冷启动问题产生的原因,简单介绍了几种冷启动问题的解决办法,提出一种基于用户兴趣圈子专家推荐的冷启动问题解决办法,并通过实验比较了本文方法与众数法的推荐效果,证实本文方法在解决新用户冷启动问题上的有效性。10万方数据 宁波大学硕士学位论文第2章:基于遗传模糊用户聚类兴趣圈子划分矩阵稀疏性是指矩阵中有效元素个数非常少,绝大部分元素为零,并且非零[34]元素的排列杂乱无章,找不到规律可循。社交网络上的海量数据原本就使得用户数据矩阵十分稀疏,而社交网络数据每天都在爆炸性增长,如数据显示Facebook每天有将近60万的新用户加入,这导致矩阵稀疏性进一步加剧。尽管CF算法是目前应用最广泛且较成功的算法,但矩阵数据是其作出推荐的基础,所[35]以其推荐效果随着矩阵稀疏性的上升而下降。对此,国内外许多学者提出了多[19]种改进方法,DengAi-lin.ZhuYang-yong.Shi等人提出将用户尚未访问过的项目评分值赋值为某个固定值,如当前用户所有评分值的均值或是系统中所有用户对该项目的评分均值等,然而生活常识告诉我们用户对未评分项目的喜爱程度[38]不可能完全相同,很明显这种方法并不能从根本上解决问题。ZhangF.ChangHY等提出利用神经网络把用户已有项目评分作为学习样本,经过学习计算出未评分项目的评分值,这种方法对噪声数据有较强的承受能力,可以较好的解决用户评分数据矩阵的稀疏性问题,但其缺点在于随着训练时间的增加,收敛速度也不断[21]减慢,最终使得最近邻的查找时间增加。ChedrawyZ.AbidiSSR利用数学上奇异值分解方法将原有评分矩阵分解为三个低维矩阵,该方法有效降低了矩阵的稀疏性,但用户的某些重要信息被丢失了,导致推荐结果不精确。怎样才能做到既不丢失矩阵中重要信息,又能降低矩阵稀疏性呢?基于此出发点,我们考虑采用某种方法将兴趣类似的用户划分到一个个较小的圈子中去,这样建立起来的用户数据矩阵较小,显然矩阵内的数据稀疏性也较低。俗话说“物以类聚,人以群分”,聚类就是这样一种将一组数据对象划分为若干个不同类的过程。聚类算法依据某种规则将原有数据点划分到若干个不同的聚类簇中,被划分在同一个聚类簇中的对象之间要比划分到不同类簇的对象之间相似程度高。意识到通常决定用户兴趣的因素可以归结为维数相对较少的一些要素,如性别,年龄,学历,职业等等,本文首先通过聚类算法将用户划分为相对较小的一些“兴趣圈子”,在此基础上再在圈内实行个性化好友推荐算法不仅可以有效解决数据矩阵稀疏性,也可以减少算法计算时间,快速为用户提供推荐。本章主要介绍了用户兴趣圈子的划分方法,分析了硬划分方法的不足,提出了一[39]种结合遗传算法的模糊聚类兴趣圈子软划分方法。2.1用户兴趣因素选取方法研究社交网站中用于表示用户特征有多种方法,其中最普遍的一种方式是采用用11万方数据 社交网络个性化推荐技术研究户注册信息,如用户年龄,家庭所在地,学校(高中,大学),职业,性别等,然后选取几个决定性属性进行组合用于构成用户特征。这种方法实现简单,并且只要用户提供的信息够真实,推荐效果一般都很好,但它选择的信息都属于用户的静态属性,只能推荐一些线下好友给用户,并不能真正反映用户的兴趣,无法为用户推荐“意气相投”的朋友,扩展社交圈子。社会标签系统今年来变得越来越流行,如Delicious和Last.fm等,它用一些特殊的符号和描述来表示用户的身份特点,如比尔盖茨的标签为世界首富,微软,哈佛大学等等。一个用户的标签具有易变性和多维性,一个用户的标签会随着他的经历的变化不断产生相应改变具有易变性,一个用户具有各个方面的特点因此具有多维性。相较于注册信息来说,标签信息更能准确反映用户兴趣变化,[40]为个性化推荐提供非常重要的资源信息。对于好友推荐来说,用户所提供的静态属性信息本文并不完全选取,只选择一些关键的,显著的属性如用户的兴趣爱好,学校,专业等来作为推荐依据。本文在提取影响用户兴趣的因素时结合上述两种方式,以保证对用户兴趣做出足够准确的分析。2.2.用户聚类古语有云“物以类聚,人以群分”,这一简单的生活哲理仍然适用于网络社交中。如果兴趣爱好,价值观,人生观类似的用户往往很有可能发展为线上的朋友,进而向线下关系转变。如果社交网络想要得到进一步的推动,必须抓住兴趣圈子这个关键,将兴趣爱好,思想等类似的用户互相推荐,拓展用户社交圈子。本节将阐述一些用户兴趣圈子建立方法,主要有硬聚类和软聚类两类,并分析硬聚类划分存在的不足,最后介绍基于遗传算法的模糊用户聚类。2.2.1基于硬聚类的用户兴趣圈子划分方法目前实现用户兴趣圈子划分方法有很多,传统的聚类方法都可以用于用户兴[41]趣圈子的划分,如k-means,c-means,凝聚型层次聚类等等。该类聚类算法明确的将用户划分并且只划分到一个兴趣类中。如下图1所示,该实例中总共列举了5类兴趣圈子,可以看到用户1和用户2被划分到web开发这一兴趣圈子并且只属于这一圈子。尽管他们可能除了web开发外还有很多其他兴趣爱好,但硬聚类并不考虑这些因素。同样可以发现其他用户也有这个特点,仅且只被划分到一个兴趣类中。基于用户兴趣圈子硬划分的方法虽然可以在一定程度上帮助用户寻找兴趣12万方数据 宁波大学硕士学位论文圈子,从而在圈内人脉的基础上寻找潜在好友。但正如上文指出,硬聚类兴趣划分仅仅并且只能将用户划分到某一兴趣类中,这一特性并不符合现实世界中自然人个性的多样化。用户作为有思想,有感情的社会中一员,将其兴趣爱好简单的归为一类而忽略其他兴趣爱好的划分方式不可避免的存在一些不足,进而影响个性化推荐结果。例如小王既喜欢看电影又喜欢阅读和写作,而小张喜欢看电影,跑步,网上购物,而小李喜欢写作,阅读和朗诵,在基于硬聚类的用户兴趣圈子划分中,很有可能将小王和小张划分到一个喜爱电影这个兴趣圈子中,而忽略了小王和小李其实也有很多相似的兴趣点,于是便忽略了写作,阅读这两个很有可能对于小王而言更加重要的兴趣,在做出推荐时往往推荐结果十分单一。因此需要一种充分考虑到用户各个兴趣点的软聚类兴趣圈子划分方法,将同一个用户以不同的概率同时划分到不同的兴趣圈子中去,这便是下文将要提出的基于模糊聚类的用户兴趣圈子划分方法。游泳阅读User3User5User4User6Web开发跑步User1数据挖掘User9User2User7User10User8图1用户兴趣圈子硬划分示意图Fig.1InterestGroupharddivision2.2.2模糊聚类与硬聚类不同,模糊聚类是一种将同一个样本点同时以不同程度划分到不同[42]类簇中去的方法,即同一项目可以同时以不同隶属度属于不同类。过程主要分为以下两步:1根据被研究对象本身的一些属性来构造一个模糊矩阵。2依据某种构造好的的隶属度函数来确定类别划分关系。具体说就是采用某种数学方法将样本之间原本模糊不清的关系予以定量的确定,然后进行聚类。由于模糊聚类能够计算出某个给定项目(样本点)相对于特定类别的模糊隶属程度,建立起了每个项目相对于某个类别的不确定关系,契合了客观世界的事实情况,目前已经成为多数聚类研究者的研究热点。模糊聚类其实就是聚类的一种,只不过这里所要研究的模糊聚类对象,找不到任何事先确定好的分类模版以供参考,而是要求按照样本的各自特有属性加以13万方数据 社交网络个性化推荐技术研究划分。在诸多聚类思想中,模糊c均值聚类法(FCM)因其简单易行性与高效性得到广泛且成功的应用,其基本思想是通过不断优化目标函数来确定各样本点对全部类簇中心的隶属度值,在确定样本点类属后,自动将样本数据划分到不同类别[43]中。[44]2.2.2.1FCM算法FCM算法把n个样本点分为c(c为2到n之间的整数)个模糊组,通过隶属度函数来确定某个样本点隶属于某个类簇的程度,通过不断优化模糊目标函数,我们就计算出了任意样本点归属于某个类簇的程度值即隶属度,目标函数定义如下所示:cnm2Jm(u,v)ui,jdi,j(公式1)i1j1其中{x,i1,2,...,n}为样本集合,u为隶属度矩阵,v{v,v...,v}为聚类中心i12c矩阵,u为样本x隶属于聚类中心v的程度,满足于:i,jijc0≦ui,j≦1,i,jui,j1,(公式2)i1j,d||xv||,采用欧式距离量度,m(1,),一般采用m2.0。i,jji样本的最佳c模糊划分即为使得目标函数J最小的一个划分。由条件mmin{J(u,v)}得到各样本点相对于不同聚类中心的隶属度值和聚类中心矢量的迭m代式如下所示:cd2(i,j)m1,d0i,jui,jk1dk,i1,d0i,j(公式3)14万方数据 宁波大学硕士学位论文nmui,jxjj1vinmui,jj1(公式4)模糊c均值聚类是一个以目标函数J(u,v)的梯度下降方向作为为自己的迭m代方向,并不断修改聚类中心和隶属度的过程。过程简单叙述如下:步骤1:初始化c个聚类中心v,i1,2,,c。i步骤2:根据(公式3)计算出每个点对于各个类别的隶属度步骤3:根据(公式1)计算价值函数。若新得到的结果不大于某个事先给定的值或是与上次结果的差值小于某个阈值,那么算法停止。步骤4:用(公式3)重新初始化聚类中心,返回步骤1。如图2所示,使用模糊c均值聚类打破了硬聚类划分方法只能将用户划分到单个类别中的缺陷,将每个用户按照隶属度划分到一个或多个兴趣圈子中。如User5被划分到游泳,购物和阅读三个圈子中,User4则被划分到购物和阅读两个圈子中,并且可以看出其隶属于购物圈子的程度更高。然而,诸多研究表明传统的FCM算法存在所有局部搜索算法的缺陷,即其性能依赖于初始聚类中心点的选择,若选择不当很容易收敛到局部最小点上,使得[46]结果不具有全局性,直接导致兴趣圈子划分结果不够理想。User3User7阅读跑步User4购User10物User5游泳User6User2User1Web开发图2用户兴趣圈子软化分示意图Fig.2InterestGroupsoftdivision15万方数据 社交网络个性化推荐技术研究2.2.2.2遗传模糊聚类1975年遗传算法(GA)这一概念首次被提出。这是一种受自然界生物进化规律启发而提出的思想。遗传算法的优点在于它摆脱了求导和函数连续性的限制,可以直接对结构对象进行操作;全局寻优效果较好,并且算法本身固有着隐形并行性;无需事先确定规则,算法自身能不断调整搜索方向以达到最优效果。正因为GA算法有这些独特的优点,其思想目前已经被大量的应用于诸多不同领域中,[46]成为当前智能计算中十分关键的一项技术。遗传算法中的种群是指一定数量染色体的集合,而每条染色体则由不同的基因编码而成,算法往往就是从某个代表着给定问题解的种群开始慢慢演进的。染色体是生物体大部分遗传物质的载体,由多个基因点组合而成。染色体相应位置上基因型的不同决定了生物体外在表现上的不同,如同一个人血型是A型还是B型亦或是AB型取决于染色体中决定这一特征的某种基因组合一样。因此遗传算法在一开始就不得不将个体外在的表现型映射成内在的基因型,也即编码工作。自然界中基因编码十分复杂,在实际工作中我们往往将这一步工作简化,如采用二进制编码的方法等等。参照进化论理论,算法在初始种群产生后逐代演进,生成愈来愈适合特定问题的近似解。算法在每一代中依据一定的规则淘汰那些适应度较低的个体,并结合相应的遗传算子,如交叉,变异等等生成一个能够代表新解集的种群。这一过程增加了进化后新一代种群对环境的适应度。当算法满足特定条件停止时的末代种群中那个适应度最高的个体即是问题的最优近似解[47][48][49][50][51]。意识到GA算法是一类高效的全局搜索方法,若采用某种方式将它与FCM算法巧妙的有效联系在一起,利用GA算法保证全局最优解,同时借助FCM算法来兼顾局部最优,那么得到的结合GA算法的FCM算法(简记为GCM),便可改善普[52]通FCM算法固有的一些缺陷与不足,显著提高推荐效果。如上所述,本文结合遗传算法和FCM算法得到GCM算法来优化划分结果,下面将详细描述本文GCM算法。用遗传算法求解聚类问题首先要解决如下三个问题:(1)选择合适的方式将聚类问题编码进基因串中;(2)构造合适的适应度函数问题,即如何构造合适的适应度函数来表示每条染色体对聚类问题的适应度,如果某条染色体代表着较优的聚类结果,则其适16万方数据 宁波大学硕士学位论文应度函数值就高,否则则低;(3)如何选择各个遗传算子,即以何种规则进行选择,交叉,变异。下面对本文采用的方法加以说明。(1)编码将初始聚类中心编码成基因串。设样本数据维度为l,类别数为c,则编码长度为cl,基因串a表示为:aaa...a,aa...a...aa...a11121l21222lc1c2cl(2)适应度函数对于FCM而言J最小时其聚类效果最佳,而此时适应度最大,于是本文定义m适应度函数为:1fJm(公式5)(3)排序选择考虑到进化可能会过早收敛,这里我们采用非线性选择排序算法将所有个体依据适应度由大至小进行排序,排在前面的个体被选择的概率相对更大,其选择概率函数如下:ev(a)q(1q)rank(ai)1i(公式6)其中rank(a)是个体a的排序号,参数q[0,1]表示算法隐含的选择压力。ii(4)交叉和变异我们采用的交叉算子与变异算子定义如下所示:'ab.a(1b)aiji(公式7)'ajb.ai(1b)aj'lllaUr(UU)(公式8)lminmaxmin17万方数据 社交网络个性化推荐技术研究'其中b表示线性组合系数,a,a分别为父,子两代染色体,r为[0,1]内均匀分布ii'll的随机数,a[u,u]则表示杂交后子代个体产生突变的基因点。lminmax[53](5)种群进化策略在遗传算法的种群进化过程中,存在着当某个聚类中心位于数据分布区域边缘时,所有样本点可能都不属于该类而得出无效解的情况,因此必须采用合适的进化策略剔除无效解。将子代个体中那些适应度较低的个体提前淘汰出局有助于加快算法的寻优过程,而允许父代中适应度较高的个体进入下一轮的进化,从数学角度上看有助于保证最优解的迭代稳定性。因此为了确保算法的收敛性,防止算法无效解的扩散,在新一轮进化前用上一代中适应度较高的个体替换子代中那些不能适应环境(适应度较低)的个体是一个不错的选择。综上,遗传模糊c均值聚类算法兴趣圈子划分具体步骤如下:(1)GA算法相关参数初始化,包括进化终止条件和聚类中心个数c及n组聚类中心v,i1,2,,,c。i(2)将聚类中心编码成位串,作为初始种群,种群内交叉,变异后,计算每个个体适应度,依据一定规则(如低于某个阈值)淘汰适应度低的个体,以父代中优良个体补充。(3)满足终止条件时输出最优全局最优解,作为FCM算法初始聚类中心。(4)执行FCM算法,通过不断调整隶属度和聚类中心得到最终模糊聚类划分。(5)对FCM原始聚类中心进行全局优化在很大程度上减轻了FCM算法对初始聚类中心的敏感性,确保了用户兴趣圈子划分的合理性,进而为下一步兴趣圈内协同过滤好友推荐提供了保证。2.3本章小结本章主要介绍了用户兴趣圈子的划分方法,主要包括兴趣圈子硬聚类和模糊聚类两种方法,描述了硬聚类方法兴趣圈子划分效果的缺陷,即会使得每个用户只能归属于一个兴趣圈中,忽略了用户兴趣的多样性,没有全面考虑到用户兴趣18万方数据 宁波大学硕士学位论文信息,这样的划分结果显然不符合现实情况。为解决该问题,本文采用模糊c均值聚类算法来进行兴趣子软化分。这种方法将兴趣广泛的用户从硬划分的缺陷脱离出来,他们可以分别以一定的程度被划分到多个兴趣圈中,更好的契合现实世界中人兴趣多样性这一现实特性。本文将GA算法与FCM算法结合,利用遗传算法保证全局最优,在此基础上运行FCM兼顾局部最优,为下一步进行好友推荐奠定了良好的基础。19万方数据 社交网络个性化推荐技术研究第3章:基于双边兴趣的协同过滤好友推荐方法研究在现实生活中,对于自己不甚了解的领域,人们往往习惯求助于身边熟悉了解该事物的朋友,在参考了他们的意见和看法后才做出自己的选择,人们在择友时同样遵循这一常识理论。协同过滤推荐算法正是模拟这一过程的个性化推荐方法。[54][55][56][57]3.1协同过滤算法简介1992年,Goldberg等人首次提出协同过滤(CF)这一概念,并将其应用于Tapestry系统。尽管Tapestry系统对用户有着过多的要求(如要求用户必须给出显式评价等)且仅适用于较小的用户群(如某个单位内部等),但其作为协同过滤推荐系统的鼻祖,为推荐系统的研究开辟了一条十分新颖的路径。在那之后,研究者们借助协同过滤的思想,创建了一些自动评分的推荐系统,如为用户生成电影推荐的MoviesLens等等。目前,许多电子商务网站为达到提升用户忠诚度,增加网站收入的目的,纷纷在其网站中应用了协同过滤算法来为其用户个性化的推荐他们可能会购买的潜在商品。依据所使用的事物间的关联性,CF算法目前主要可以分为基于项目的CF推荐算法和基于用户的CF推荐算法两种。基于项目的CF算法基于这样一个假设,即某个用户由于其自身固有特点,在对不同项目评分时或多或少的带有个人“气质”即使对不同项目的评分也具有相似性,预测某个用户对某个未知项目的评分值时,可以依据该用户对与该项目类似的其他项目评分情况进行估计。而基于用户的CF算法则认为如果不同用户对一些项目兴趣倾向具有相似性,那么他们同样对其他项目的品味也具有相似性。[58][59][60][61]3.1.1相似性计算作为CF算法中至关重要的一步,相似性计算结果的准确与否很大程度上决定了推荐结果好坏。一般来说,传统的相似性计算方法有如下三种:(1)余弦相似性余弦相似性方法的基本思想是认为某用户的n个项目评分是一个维度为n的向量(其中尚未评分项目的评分值设置为0),然后利用数学方法计算出两组评20万方数据 宁波大学硕士学位论文分向量之间夹角余弦值,值越大表示两用户越相似。用sim(i,j)表示两用户i与j之间的相似度,具体计算公式如下所示:i.jsim(i,j)cos(i,j)(公式9)||i||.||j||其中向量i和向量j分别表示用户i和用户j的项目评分向量。(2)皮尔森相关系数相似性用I表示那些曾共同被用户a和b评价过的项目组成的集合,利用皮尔森相ab关系数得到二者相似度sim(a,b)的详细公式如下所示:(racra)(rbcrb)cIabsim(a,b)(公式10)22(racra)(rbcrb)cIabcIabj其中r,r分别表示用户a和用户b的平均评分,r,r表示用户a用户b对项目abacbcc的评分。(3)修正余弦相似性现实生活中不同的人有着不同的评分标准,如某些用户要求比较严格,习惯打低分,一些用户要求比较低而比较习惯打高分。很明显,普通的余弦相似性方法并没有考虑到此问题。为解决该问题,修正余弦相似性方法将用户的每个评分值都减去该用户的所有评分值均值,这在某种程度上来说类似于归一化处理。用I表示那些共同被用户i和j评价过的项目所组成的集合,用户i个人所有评分ij组合成集合I,同理I为用户j个人已有评分集合,则利用修正余弦相似性计算ij两者之间相似度公式如下所示:(ricri)(rjcrj)cIijsim(i,j)(公式11)22(ricri)(rjcrj)cIicIj21万方数据 社交网络个性化推荐技术研究其中r,r分别表示用户i,j的平均评分,r,r分别为用户i,j对项目c的评分。ijicjc[62][63][64]3.1.2用户项目矩阵稀疏性及其解决办法(1)矩阵填充技术最简单的矩阵填充技术就是将某个用户的未知评分赋值为一个给定的缺省值,如当前用户已有评分的平均值或者所有用户对此项目的平均评分等等。然而同一用户对不同项目的喜爱程度或者不同用户对同一项目的喜爱程度都相同的概率几乎为零,所以这种方法并不能够从根本上解决问题,效果较差。(2)BP神经网络方法BP神经网络将用户的已有评分作为训练样本,然后将其作为输入层各单元的输入,这些单元经过加权后再作为隐含层各单元的输入;隐含层各单元数据经过一次加权后得到结果输出到输出层各单元中,输出层最后计算出最终得分。BP神经网络方法矩阵填充技术的优点在于其有较强的抗噪声能力,可以有效降低评分数据矩阵稀疏性,提高推荐算法准确度。然而,BP算法存在着随训练时间的增加收敛速度变慢的缺陷,如此便会导致用户最近邻查找时间增加,甚至有可能使用户失去对推荐系统的耐心。(3)矩阵降维技术—奇异值分解(SVD)奇异值分解能够深刻揭示矩阵的内部结构,能够将某个a*b(设a>b)的矩阵M分解成三个维数较低的矩阵S,V,U。然后将通过奇异值分解后得到的V,U,S三个矩阵降为k维(kb>c,fij表示ui对用户uj的某种浏览行为的频率,定义为:NijfijT其中Nij为ui对用户uj的某种浏览行为的次数,而T则为两用户开始首次交互到目前的时间长度。本文中我们设定a=3,b=2,c=1。如此,我们便在每个兴趣圈子内部建立起来一个用户评分矩阵R(假设该兴趣圈子内用户个数为n)。nn3.2.2改进相似度计算公式协同过滤算法在估算当前用户u对某个未知项目i的评分时采用如下公式:23万方数据 社交网络个性化推荐技术研究rsjurjijtopK(u)ruirsjujtopK(u)(公式14)其中topK(u)为当前用户u大小为K的近邻集合,即与u相似度最高的K个用户组成该集合。r表示用户j给项目i的评分,利用某种普通相似度计算方法(余ji弦相似性,修正余弦相似性等等)得到的用户j,u之间的相似度为rs。ju相似度中最常使用的是皮尔森相关系数相似性,使用皮尔森相关系数计算用户u和j相似性计算方法如下:(ruiru)(rjirj)irurjrsuj22(ruiru)(rjirj)irurjirurj(公式15)其中irr表示用户u和用户j共同评分过的项目集合。但使用(公式15)uj来计算相似度时会存在当两者评分重叠率非常低而相似度很高的情况,在这现实世界中是不合理的。针对此,本文对相似度计算公式进行一些改进。如上所述,注意到仅仅从用户间的评分关系来决定二者是否相似有一定的局限性。事实上,如果二者共同评分过的项目越多,本身就表明了二者的某种相似性。比如小王与小李仅仅有一个共同评分对象小张,二者给予小张的评分都为4,而小王和小赵有多达15个评分对象,二者给予共同评分对象的评分在一部分相等的情况下,另一部分有或多或少的差异,如此传统的皮尔森相关系数相似性计算方法计算出的小王和小李的相似度为绝对相似,即相似度值为1,而与小王有这更多共同评分对象的小赵则很有可能被赋予了一个低于1的值0.68。事实上小王在遇到某个不太熟悉的问题时往往更加倾向于听从小赵的建议,因为从二者相交的程度来看小王很有可能更加信赖多次交互的小赵而不是泛泛之交的小李。如图(3)所示:24万方数据 宁波大学硕士学位论文图3:用户互动次数与相似度关系图Fig.3:Thenumberofusers’interactionandthesimilarity其中二元组(rs,sr),如上图(0.98,5),前者表示两用户间利用普通皮尔森相关系数计算出来的相似度,后者则表示二者共同评分过的对象的个数。我们定义后者为相似度可信值。在计算用户间相似度时,将会依据当前用户与其邻居用户间的相似度可信值,为当前用户的每个近邻分配一个相似度可信值权重来调整当前用户与其他用户之间的相似度大小。3.2.2.1SW(相似度可信值加权)策略:设用户i和用户j之间共同评分过的对象个数为sr,SW策略计算i,j之间的ij相似度可信值权重为:srmin(sr)ijswijmax(sr)min(sr)(公式16)其中sw表示两用户间的相似度可信值权重min(sr)与max(sr)分别表示在样本空ij间上最小与最大的相似度可信值。我们用上式得到的相似度可信值权重sw来对ij皮尔森相关系数相似度进行调整,如下式所示:'rsrsswijijij(公式17)'调整后的相似度rs将会在式(公式14)中替代rs用以预测当前用户对其他用户ijij的评分值。如下所示:25万方数据 社交网络个性化推荐技术研究'rsjurjijtopK(u)rui'rsjujtopK(u)(公式18)3.2.2.2GW(相似度可信值高斯加权)策略:GW策略根据当前用户与其它用户间的相似度可信值为当前用户的每一个近邻分配一个高斯权重来调整用户间的相似度可信值。使用GW策略来调整当前用2户与其他用户间的相似度时,首先需要利用高斯分布N(,)来拟合用户间的相2似度可信值,其中参数µ和可以使用最大似然估计法得到,如下式:1212srsrij,(srij)(公式19)NN其中N表示给定样本空间集上的相似度可信值的数量,用户间的相似度可信值经过拟合后,就赋予每个评分相似度一个相似度可信值高斯权重,如下式所示:srij22gwF(sr|,)f(sr|,)d(公式20)ijijijsr2其中gw表示用户i,j之间相似度可信值高斯权重,F(sr|,)表示高斯概率ijij2分布函数,f(sr|,)表示高斯概率密度函数。gw则代表了用户i,j之间相似ijij度可信值大于其他用户间相似度可信值的概率。最后,类似于SW策略,GW策略将评分相似度乘以相应的高斯权重以调整评分相似度,如下所示:'rsrsgwijijij(公式21)调整后的相似度同样将会被用于预测当前用户对其他用户的未知评分。[62][63][64][65]3.2.3用户兴趣随时间变化在预测当前用户对尚未访问过项目的评分过程中,普通的协同过滤算法默认为用户访问过的每个项目无论时间早晚重要程度都相同,这显然是不合理的。因26万方数据 宁波大学硕士学位论文为随着用户年龄增长,工作变化,身份职位变化等等,用户的择友条件也在不断随时间变化。比如用户a三年前为某医药公司员工,其关注对象一般为与医疗卫生及药品有关的用户,而半年前用户a跳槽到某房地产公司上班,那么其更加倾向于结交与之有关系的类似于建筑,园林,地产方面的用户,此时若再向用户a推荐医药相关的好友必然不太符合a的需求。一般来说用户近期访问过的项目较很久前访问过的项目更能代表其兴趣,相对来说在生成推荐过程中所起的影响也应该较大。为了契合现实生活中这一规律,本文引入基于用户访问时间的数据权重以增加用户最新访问项目在推荐过程中的重要性。设D表示用户u访问项目i的时间与用户第一次访问某个项目之间的时间ui间隔长度,为表示处在某个特定时间点上的项目i对用户u的权重,本文定义基于时间的权重函数WT(u,i)。本文将WT(u,i)设计成关于D的非递减函数,以表示ui近期访问过的项目对用户u的重要性,即当DD时,有WT(u,i)WT(u,j),uiujWT(u,i)具体设计如下:DuiWT(u,i)(1)Lu(公式22)可以看出式(22)为一个线形函数,其中L表示u第一次通过系统访问某个项目u与最近一次访问系统中某个项目之间的时长,即当前用户使用系统的时间跨度。其中(0,1),为权重增长指数,变化的值可以调节权重随访问时间变化的速率,的大小与权重增长速度正相关,在现实应用中可依据不同的推荐需求动态调整的值来使得推荐结果最优化。[66]3.2.4双向兴趣矩阵社交网络好友推荐不同于电子商务网站的商品推荐,因为其被推荐对象是一群有着主观情感和判断能力的个人,当其被推荐给别人时他很有可能会拒绝对方的交友请求,如此这个推荐便是一个不成功的推荐。例如某相亲交友网站用户小王个人倾向于寻找年轻貌美的交友对象,当推荐系统挖掘到他这一兴趣偏好时便把小丽推荐个小王,而事实上小丽对收入偏低的小王并无好感,从而拒绝了小王的交友请求,于是这便成为一个无效推荐。反之,若小美本身年轻貌美并且个人27万方数据 社交网络个性化推荐技术研究偏好于结交小王这样的高学历对象,则将小美推荐给小王极有可能是一个成功的推荐。为了避免上面这种仅从交友双方中单方面兴趣出发而造成的无效推荐,本文从用户的“吸引”和“偏好”两方面出发,旨在为用户推荐那些既符合他的择友要求同时又会接受他的那些用户。通过(公式13)我们在每个兴趣圈子内建了其了用户评分矩阵,如下所示r11,r12,r13,,r1nr,r,r,,r2122232nr,r,r,,ri1i2i3inrn1,rn2,rn3,,rnn仔细分析上矩阵,本文发现第i行表示用户i对其他用户的评分情况,体现的是从用户i单方面出的兴趣偏好,或者说体现了用户i的品味(taste);而矩阵的第i列代表的是用户i被其他用户评分的情况,体现的是用户i对其他用户的吸引程度,即体现了用户i的吸引值(attractiveness)。从矩阵第i行出发,计算其与其他行之间的相似程度,找出与之品味最为相似的k个用户u,利ist用集合u中其他用户的评分情况来预估当前用户i对未知用户的评分值,选取预ist测评分值最高的n个用户成为备选集u;从矩阵第i列出发,计算其与其他列之it间的相似度,得到与当前用户在吸引方面最相似的n个用户组成备选集u,利用isa集合u中其他用户的吸引情况预测当前用户对其他用户的吸引值选取吸引值评isa分最高的n个用户组成集合u。ia于是,集合u体现了符合用户i的品味偏好的用户集合,集合u则体现了能itia被用户i吸引的用户集合,于是U=uu体现的则是那些既符合用户i兴趣偏reciait好同时又对i有兴趣的用户集合,集合U中评分值越高的用户与当前用户成为rec好友的可能性最大。28万方数据 宁波大学硕士学位论文3.3推荐策略第2章详细阐述了划分用户兴趣圈子的目的,优点和具体方法,第3章1到2节则阐述了本文对传统协同过滤算法多方面的改进。我们的目的在于结合这两者,从而达到更高的推荐效果。3.3.1传统协同过滤算法推荐步骤传统协同过滤算法推荐步骤如下所述:(1)建立系统内用户评分矩阵。一般由于网络数据量的巨大,该评分矩阵非常稀疏,而评分矩阵的稀疏程度将直接影响到推荐效果。(2)计算相似度。采用某种相似度计算方法(如余弦相似度,修正余弦相似度等)找出与当前用户兴趣最为相似的K个用户,利用当前用户与之的相似关系和他们对当前用户未知评分项目的评分情况预测当前用户未知评分,具体计算公式为rsjurjijtopK(u)ruirsjujtopK(u)(公式23)其中topK(u)表示与当前用户u最相似的K个用户组成的近邻集合,r表示用户jij在访问过项目i之后为其打出的评分,rs表示当前用户u与用户j之间的相似ju度值。(3)对式(公式23)计算出来的预估评分值进行从大到小排序,将排在前N位的项目组成推荐列表呈现给当前用户。3.3.2基于用户兴趣圈子划分的双边兴趣协同过滤推荐策略基于传统协同过滤算法易受评分矩阵数据稀疏性,相似度计算准确度,仅从单方面出发而造成的不成功推荐等问题,本文分别从建立用户兴趣圈子,改进相似度计算方法,双边兴趣计算等方面进行改进,具体推荐步骤如下:(1)数据的收集和预处理。收集用户注册资料和用户标签信息,选取若干个能够决定用户兴趣的关键因素,建立用户模型。(2)用户兴趣圈子划分。利用GCM算法将用户软划分到不同兴趣类别中。29万方数据 社交网络个性化推荐技术研究(3)兴趣圈子内利用改进协同过滤推荐算法计算出当前用户位置预测评分,将最有推荐价值的K个用户推荐给当前用户。具体推荐策略公式如下:VP(i,j)(1)P(i,j)(公式24)ijat其中V表示将用户j推荐给用户i的推荐价值,[0,1]是引入的调和参数,可由ij用户自己选择,当0时表示当前用户完全倾向于寻找符合自己要求的好友,并不考虑对方是否会接受自己;而当1时表示当前用户完全倾向于寻找那些会接受自己的交友对象,并没有自己的择友条件。P(i,j)为从当前用户i吸引角度计a算出的用户i对于用户j的吸引值,P(i,j)表示从当前用户i的偏好角度计算出t的用户i对j的偏好评分值,P(i,j)的计算公式如下:arsiugwiuWT(i,u)rujutopK(i)P(i,j)arsiugwiuWT(i,u)utopK(i)(公式25)其中u为与当前用户i在吸引方面最为相似的K个用户之一,rs为利用普通相iu关系数计算出的用户i和u之间的相似度值,gw为用户i和用户u之间的相似iu度可信值高斯权重,WT(i,u)为用户u相对用户i的时间权重函数值。本文记基于相似度高斯加权的推荐策略为GW/GCF。上式同样可以采取可信值加权(SW)方法,记为SW/GCF。P(i,j)计算方法与P(i,j)类似,不再复述。ta通过式(公式25)分别计算出来n个用户i最偏爱的用户组成集合U和n个it最“偏爱”用户i的用户组成集合U,取集合UUU中推荐价值V最高iareciaitij的K个用户组成用户i当前所属圈子内的待推荐集合。通过上面三步我们找到了当前用户i在各个兴趣圈子内的待推荐用户集合,假设用户i模糊的属于a个圈子,则由a个圈子的待推荐集合合并为一个全局的待推荐集合:30万方数据 宁波大学硕士学位论文UUUU(公式26)RECrec1rec2reca重新计算各个待推荐用户的推荐价值:VP(i,j)u(1)P(i,j)u(公式27)ijiaikitik其中u表示用户i隶属当前兴趣圈子的隶属度。ik(4)生成推荐列表利用式(公式27)计算出待推荐集合U中各个待推荐用户的推荐价值,REC选取推荐价值最高的n个用户生成当前用户i的推荐列表呈现给用户。通过上面几步,我们从建立模糊用户兴趣圈子角度削减了用户兴趣矩阵数据稀疏性,通过改进相似度计算方法和增加时间权重函数确保其他用户相对于当前用户的参考价值,确保为当前用户提供参考意见的都是值得“信赖”的用户,最后通过同时考虑当前用户的吸引度和偏好度来保证最后推荐结果的成功率。3.4实验评估3.4.1评价指标[66]为了度量本文推荐算法的优劣,我们采用成功率和召回率作为衡量标准。(1)成功率SR(或称为准确率)这个指标旨在衡量由算法推荐的交友对象最后真正成为当前用户好友的概率。这是一个非常重要的指标,因为好友推荐算法的目的在于拓展用户的社交圈子,帮助用户结交更多的好友。如果算法所推荐的对象最终都不能真正成为当前用户的好友,那么好友推荐算法也就失去了意义。定义成功率SR为:ntpsSR(公式28)nps其中n为由算法产生并被用户所接受的推荐个数,而n为算法产生的所有推荐tpsps个数。31万方数据 社交网络个性化推荐技术研究(2)召回率(recall),也称为查全率。这个指标是指通过算法推荐产生的真实好友关系占系统中所有好友关系的比例。定义召回率(recall)如下:ntpsrecallnts(公式29)其中n表示系统中存在的全部好友关系。ts3.4.2实验结果与分析新浪微博是一个十分受欢迎的社交平台,用户可以在新浪微博上关注其他人,同时也可以被其他人关注,新浪微博的关注关系等同于本文上文提到的好友关系。本文通过新浪微博开放平台提供的API,利用JAVA编程方法获取用户数据。具体的数据集描述见下表:表1数据集详细描述表Tab.1Adetaileddescriptionofthedataset交互数成功次数失败次数成功率用户数训练集188255547541335010.293746测试集199083533771424060.282865我们由训练集得到用户聚类阶段多个参数具体值与式(公式25)中参数值,在测试集上将本文算法与实际情况进行对比。表2具体展示了各种算法SR随着topK在10到100之间的变化情况,表3展示了各种推荐策略SR随着topK在100到1000内的变化情况。图4展示了Recall和SR在Top10内的变化情况。表2各种算法SR在top100内的变化比较Tab.2ThecomparisonofSRchangeofvariousalgorithmswithinthetop100top102030405060708090100GW/GCF0.370.370.380.400.390.40.400.400.400.40SW/GCF0.320.310.330.330.340.340.350.350.350.35CF0.250.260.260.260.270.270.270.270.270.2632万方数据 宁波大学硕士学位论文表3各种算法SR在top1000内的变化比较Tab.3ThecomparisonofSRchangeofvariousalgorithmswithinthetop1000top1002003004005006007008009001000GW/GCF0.400.400.410.420.410.410.410.410.410.41SW/GCF0.350.350.350.360.360.360.360.360.360.36CF0.260.270.270.270.280.280.280.280.280.28图4top10内各算法在SR(左)和Recall上的比较Fig4ThecomparisonofSR(left)andRecall(right)ofvariousalgorithms实验数据表明,相较于普通协同过滤算法,本文所提出的算法无论在召回率还是在推荐成功率上都有较大提升,并且实验数据显示基于相似度可信值高斯加权策略(GW/GCF)的推荐效果要稍微优胜于基于相似度可信值加权策略(SW/GCF),这可能是因为现实世界中的交友规律更加符合高斯函数分布特点。3.5本章小结本章将传统协同过滤个性化推荐算法进行相关改进并应用于社交网个性化好友推荐。利用上一章的GCM用户兴趣圈子划分方法有效改善了原有的协同过滤算法受矩阵稀疏性影响缺陷;提出相似度可信值这一概念来为传统方法计算出的相似度附加一个可信值权重,调整传统的相似度计算方法,确保计算出的相似度更加真实可靠;将现实世界中人的兴趣随时间变化这一特性考虑进去,提出时间权重这一概念,模拟现实世界中人的兴趣随时间逐渐变化这一过程,使得推荐结果更加“与时俱进”;最后注意到一个用户往往有其“心仪”的对象和“被心仪”的对象,分别从用户吸引和偏好两方面出发寻找与其相似的交友集合,最后将两个集合做交运算,即得到那些既符合用户偏好,又有可能接受当前用户的那些推荐对象集合,选取其中预测评分最高的n个用户组成推荐列表推荐给当前用户。最后的实验结果表明本文的推荐方法无论在推荐的准确率还是在召回率上都较传统方法有较大提高。33万方数据 社交网络个性化推荐技术研究第4章:基于信任网络的新用户推荐方法协同过滤技术是根据用户对项目的评价信息查找兴趣相似的邻居,根据相似邻居的建议产生推荐。如果一个刚加入系统新用户尚未产生任何评分信息,普通的协同过滤算法无法计算他与其他用户的相似度,从而不能确定他的相似邻居集,无法为其提供推荐服务。下表从理论的层面演示了新用户无法得到推荐的原因,对一个新用户来说,其评分向量为空。因为一个空向量根本无法与其他向量[67][68][69]计算相似度,所以预测值将永远是个未知数,也就无法得到系统的推荐。0,1,3,5,2,22,3,4,4,2,1相似度?2,3,3,3,2,54,2,3,4,5,1??????[70][71][72]4.1冷启动问题解决现状冷启动是推荐系统中普遍存在的问题,它的存在一方面不能满足新用户的个性化需求,影响了新用户对推荐系统的信任;另一方面在实际应用中有相当比例的用户和项目属于新用户和新项目,冷启动问题的存在严重影响了推荐系统的利用价值,特别在电子商务系统中,冷启动问题的存在严重影响了新产品的销售量,阻碍了电子商务的健康发展。所以冷启动问题是当前亟待解决的一个重要问题,目前研究者们对此提出了一些解决方法,主要分为两大方面,一是结合新用户或新项目的内容属性信息和传统的协同过滤评分数据的方法来进行改善,二是直接利用传统协同过滤的评分数据结合特定的方法解决冷启动问题。4.1.1不考虑内容的解决方法(1)随机推荐法:随机推荐法的思想十分简单,对于新用户,系统不考虑他们的个人兴趣特点,随机挑选项目呈现给他们;对于新项目,系统忽视它们的自身属性,将它们和已有用户评分的项目一起随机呈现给用户,然后根据用户的反馈来不断修正新用户的兴趣偏好和新项目的受众用户群体。但是从长远来看,随机推荐法的准确度不会太高,即在50%以下,而只要用户觉得推荐系统呈现给他34万方数据 宁波大学硕士学位论文的项目并不能满足他的需要,他们很有可能会失去对推荐系统的耐性而弃之不用。因此,这是一种十分“懒惰”的冷启动解决办法,效果很难让人满意。(2)均值填充法:均值填充法也是一种非常简单的方法,对于新用户,该方法将用户未评价过的项目分值简单的赋值为系统中所有其他用户对该项目的评分平均值,然后在经过均值填充后的评分矩阵上寻找目标用户的最近邻居集合,最后应用协同过滤的方法生成推荐列表。对于新项目,该方法将某个用户对它的评分值设置为该用户的所有项评分值的平均值。但是均值填充法依然不能达到满意的解决效果,因为新用户对某个项目的真实评分值或者说喜爱程度恰好等于其他用户对此项目评分平均值的概率与用户对新项目的评分恰好等于他已有评分的平均值的概率都太小了。用户对于某个项目的评价有着个人兴趣偏好在里面,绝不可能是某个单一值,简单的均值填充法抹杀了不同用户间的个体差异。(3)众数填充法:众数是指一组数据中出现频率最高,出现次数最多的那个数,是集中量的一种体现。众数填充法是指将用户未评分过的项目的评分值设定为当前项目评分个数最多的那个值。众数填充法体现的是人们的从众心理,一般情况下,用户有很大的可能性会喜欢那些受大多数人欢迎的东西。正如前面所述那样,用户对其未评分过的项目或资源的喜爱程度不能一概而论,如某些用户的个性较独特,与大多数人的爱好差距很大。众数填充法只能说从统计学的角度来看预测成功率相对来说会高于不成功率。如果,当前用户有着很独特的个性,系统将大多数人很喜欢某个资源推荐而正是其所讨厌的资源推荐给他时很有可能会引起他的反感,从而使得他放弃使用推荐系统。(4)信息熵法:系统内获得评价的项目所具有的信息熵是不同的,有的信息熵多些,有的信息熵少些。类似于决策树学习中通过信息增益选择分类属性,信息熵法是根据项目的信息熵大小来选取项目,将信息熵大的项目的评分值作为是那些新项目或者是未评价过的项目的评分预测值。信息熵法其实是均值填充法的另一种形式,区别在于均值填充法是取所有项目的评价的平均值,而是信息熵法则是取目标用户评价过的项目中信息熵比较大的几个项目的评分的均值。信息熵法依然存在一些不足,首先需要耗费大量的时间去计算用户评价过项目的信息熵,并且信息熵大的项目的评价值未必就能得到用户的喜爱,有些时候可能还不如均值填充法来的准确。(5)相似性度量改进法:传统的相似性度量方法往往是在评分矩阵上通过计算一条直线的逼近程度或是两个向量的几何距离来确定的。当两个用户共同评分过的个数太少时,计算出的相似度就不够精确,导致寻找出的近邻用户不能很好符合用户需要。相似性度量改进法正是考虑到这个不足,并改进协同过滤算法中相似性度量标准来解决冷启动问题的。例如文献[37]提出了一种新的相似度概念35万方数据 社交网络个性化推荐技术研究定义,即在计算相似度时不再采用传统的计算几何距离概念,而是采用启发式策略,考虑到具体意义的影响因素。该方法事先确定一个给定值作为参考标准,若两者的评分值同比给定值大或同比给定值小,则依据相关规则给予相应的奖励;若两者评分值分别处在给定值的不同两侧,依据相关规则给予相应的惩罚。奖励与惩罚机制由评分差值大小来决定。这些奖励或惩罚措施使得意义相近的更接近,意义不同的差距进一步拉大,并且对评分个数的依赖性较小。该方法的缺陷在于仍然依赖于少量评分,而对于那些没有任何评分信息的冷启动问题束手无策。4.1.2结合内容信息的解决办法评分信息不足是造成冷启动问题的主要原因,上节中提到的各种方法解决冷启动问题的效果都不十分理想,像随机推荐法、均值填充法、众数填充法和信息熵法是在很大程度上抹杀了不同用户的个性,如何既能满足用户的个性化需求又能很好的解决冷启动问题成为目前专家学者们的一大研究方向。研究者们最初提出了结合协同过滤推荐算法与项目或用户内容信息的方法以提高推荐精度。他们的研究表明,引进内容信息的协同过滤算法不仅提高了推荐精度而且在一定程度上改善了冷启动问题。受此启发,近年来一些重点研究冷启动问题的研究者们结合项目或用户的内容信息,提出了很多冷启动问题的解决办法,根据与内容信息结合的方式不同,主要可分为以下几类:[20](1)基于原始评分矩阵扩充的方法。M.Balabanovic,Y.Shoham.Fab等人提出了原始评分矩阵扩充方法。该方法第一步是提取用户的人口统计信息或是项目的内容信息,然后在最初的评分矩阵上增添相应的行和列,最后将第一步得到的信息注入到相应的行和列中,于是评分矩阵就增加了内容信息部分,矩阵得以扩充。这样即使某个用户尚未评分或者某个项目尚未得到用户给它的评分,其内容信息也是存在的,所以协同过滤算法依然能够在评分矩阵上计算出用户的近邻集合,生成推荐列表。此方法对新用户和新项目冷启动问题都有一定的缓解作用,然而对于日益复杂的超高维数据,内容信息填充相对于海量的用户数和项目数可谓是“杯水车薪”,少数的内容信息并不能有效改善情况,所以此法在具有高维数据的推荐系统中冷启动的解决效果并不理想。(2)构建概率统计模型法。该方法不再依赖于一般的用户项目矩阵,而是将其相关信息初始化为概率分布,在已知用户项目评分的情况下采用Hofmann的EM算法计算某个项目的出现概率,然后将概率从大到小排序,将排在前N或概率大于某个给定值的项目推荐给用户。实验结果表明概率统计模型方法能在一定程度上缓解冷启动问题,具有一定的有效性。但该方法的缺陷在于在搜集概率条件信36万方数据 宁波大学硕士学位论文息时可能的代价很大,并且需要经过多次的迭代才能最终生成推荐结果,所以在实际情况中用到的次数并不多。(3)与其它机器学习相结合的方法。该方法在分析用户和项目内容信息的基础上,利用机器自主提出分析用户评分与项目内容之间的隐性规则,然后采用相关措施生成推荐结果。[73]4.2基于兴趣圈子专家推荐的冷启动解决方法(GExpR)传统的协同过滤推荐算法根据兴趣相似的最近邻居对目标项目行为预测当前用户在目标项目上的可能的相应行为,对于没有评分信息或评分信息不足的新用户、新项目,传统的协同过滤法无法根据相似度度量标准为新用户、新项目查找相似邻居,所以无法产生有效的推荐。而正如本文第2章所述,生活体验告诉我们,不同类型的人有这不同的择友倾向,即第2章所述的兴趣圈子问题。新用户事实上也是隶属于一个或多个兴趣圈子的,只不过新用户目前还没有与所隶属圈子内的其他用户有过交流。于是我们便考虑一种策略,在找到新用户所属兴趣圈子后,识别出该用户圈子内的那些“专家”,新用户通过参考专家建议而做出自己决策。下图展示了本文基于兴趣圈子专家冷启动解决算法的框架:新用户兴趣圈子1兴趣圈子2……兴趣圈子n圈内专家识别圈内专家识别……圈内专家识别专家推荐专家推荐……专家推荐最终推荐列表图5兴趣圈子专家冷启动解决方案示意图Fig.5Interestgroupexpertscoldstartsolutionmethodprocess4.2.1新用户所属兴趣圈子划分本文2.2节已经详细阐述了用户兴趣圈子划分方法。新用户同样拥有注册信息和少量的自我标签信息,所以完全可以通过2.2节中所设计的GCM算法将其划37万方数据 社交网络个性化推荐技术研究分到不同的兴趣圈子中。具体划分方法与2.2节完全相同,这里不在赘述。[74][75][76][77]4.2.2兴趣圈子内专家判定生活体验告诉我们,当身边没有亲近的朋友时,我们倾向于听取那些在某个领域具有权威性的专家的建议,于是我们的问题转化为怎样合理的判断出每个兴趣圈子中的专家们。为了识别出每个兴趣圈子中的专家,我们赋予圈子内每个用户一个“权威”(Reputation)值,即权威值越高的用户越受到其他用户的信赖,即为圈子内的专家。设rep表示用户j在兴趣圈子k中的权威值,我们采用最著名的PageRankjk算法来获得这个权威值。PageRank算法由SereyBrin和LarryPage在上世纪90年代提出,是Google的专有算法,其将链接作为排名因素,最初是用来衡量某个网页相较于系统中其他页面的重要程度的。类似的,在兴趣圈子中,如果一个用户被很多权威度高的其他用户关注(结成好友关系),那么这个用户的权威值相应的也就较高。本文用下式来表示这一法则。1repikrepjk(1)(公式30)|ck|(ui,uj)ekdeg(ui)其中deg(u)表示用户i在兴趣圈子k中的所有好友关系个数,而参数为引入的i调和参数,当0表示用户权威值完全由其好友权威值决定,当1时表示完全不考虑当前用户的好友情况,仅是简单的将圈子内每个用户的权威值置为整个兴趣圈子用户数的倒数。依据文献[78]的建议本文将统一设置为0.15。由于每个用户的权威值都依赖于其好友用户的权威值,所以式(公式30)为一个递归函数。具体的递归过程伪代码如下所示:randomlyinitializerep;jkRepeatreprepjk_oldjk38万方数据 宁波大学硕士学位论文Updaterepbyusingequation(30)jkreprepjkjk_oldUntil0returnrepjkErkan和Radev的研究证明无论rep的初值如何选取,rep最终都会收敛到jkjk唯一的稳定值上。于是最终的rep稳定值即为用户j在兴趣圈子k中的权威值。jk在得到某个兴趣圈子内所有用户权威值后,选取权威值较高的n个用户组成兴趣圈子k的“专家团”Exp,该专家团内的用户相对来说具有让人信服的“资本”。k4.3新用户好友推荐通过4.2节中所述方法,我们识别出不同用户兴趣圈子内的专家们,专家们由于具有较高的权威值,所以具有让人信服的能力。对于刚刚加入社交网络的新用户来说,其没有任何线上社交记录,自然其权威值为0。本文通过下式来预测在某个兴趣圈子k中新用户u对另一用户u的评分值。mnrepjkrjn1jM,jExpkr(公式31)um,unrepjk1jM,jExpk其中M为兴趣圈子k中专家集合Exp的大小,r表示专家j对用户u的评分值。kjnn4.4实验结果与分析为验证本文算法在解决冷启动问题上的有效性,同第3章一样,本文通过新浪微博开放平台提供的API,利用JAVA编程方法获取用户数据。与传统的协同过滤算法和现有被推荐系统广泛应用于解决冷启动问题的算法在预测结果准确度39万方数据 社交网络个性化推荐技术研究上进行比较,经过反复试验验证,本文所提算法相较与其他算法在解决冷启动问题上的有效性和优越性。本文随机选取新浪微博上2000名用户,获取他们的个人信息(标签,粉丝列表,关注对象,个人注册信息等等)。其中1500名作为本文训练集,确定相关参数的数值,对于剩下的500名用户,我们忽略他们已有的线上关系作为测试集,通过将推荐结果与其已经拥有的真实线上关系进行对比,以验证本文算法的有效性。图6新浪微博开放平台部分API示意图Fig.6PartofSinaWeiboopenplatformAPI4.4.1算法评价标准平均绝对偏差MAE是一种常用的度量推荐算法准确度的参数,它利用算法预估评分值与现实中用户真实评分二者之间差值大小来度量算法推荐的精度。MAE值越大则表示预测越不准确,反之MAE值小则表示预测值与真实评分值之间差异较小,预测较准确。MAE简单易懂,且能直观表达预测准确度,所以下面我们采用MAE作为衡量推荐准确度的标准。设集合{r1,r2,…rN}为某用户在社交网络中对N个项目的真实评分情况,而通过算法预测出的该用户评分集合为{R1,R2…RN},有平均绝对偏差MAE定义如下所示:40万方数据 宁波大学硕士学位论文N|Rr|iii1MAE(公式32)N其中N是用户评分总数。本文主要考虑算法在整个测试集上MAE值情况,原本MAE值改为其在测试集上的平均值,如下所示:500N|pjiqji|j1i1MAE500Njj1(公式33)其中p为算法预测出的用户j对i的评分,而q为实际用户j对用户i的jiji评分值。Nj表示用户j的所有评分个数。下文所提到MAE皆指本文第二种平均值MAE。4.4.2算法结果及分析设参数c的值为划分的兴趣圈子个数,如果c值选择恰当,对算法有很好的促进作用。如果c值太小,如等于1,相当于算法将所有用户划分成一个圈子,则不能区分不同兴趣群体;而如果c值太大,算法的计算开销非常大,在极端情况下每个用户代表一个类,结果相当于平均值,失去了推荐算法的意义。如果算法中参数c值的选择恰当,能准确反应不同用户群的兴趣偏好,可以提高算法的推荐质量,我们通过实验来确定最优的c值。下图展示了MAE值随不同c值的变化情况。图7不同c值的MAE变化情况Fig.7ThechangesofMAEinthevalueofdifferentc上图表明在c(1,14)时,随着聚类个数c值的增加,MAE值有下降的效果,而在41万方数据 社交网络个性化推荐技术研究c(14,21)区间上,MAE值则随着聚类数c值的增加有增加的趋势,这也证明了本文所猜想的聚类个数对推荐效果有一定影响的假设。对于聚类个数大于21的情况本文没有进行试验,原因是c值太大,算法的时间计算复杂度大幅度提高,算法的速度受到影响。为此,本文选取c=14作为用户兴趣圈子个数。为了验证本文算法GExpR的有效性,我们将其与众数法进行对比试验。众数法是目前应用度较高的用于解决冷启动问题的算法。为了表示方便在试验中我们用MAG来简代众数法。图8本文算法与众数法在不同推荐列表长度下MAE比较Fig.7TheMAEcomparisonofourmethodandMAGmethod实验数据显示推荐列表的大小都对推荐结果有影响,开始都随着推荐列表长度增加而MAE下降,在分别达到各自最低点后又都随着列表长度的增加MAE值增加。这很有可能是由于推荐列表过长,使得用户失去查看的耐心。数据表明本文的GExpR算法总体上MAE较众数法低,这说明本文算法较众数法更能有效处理新用户问题。4.5本章小结本章首先描述了推荐系统内普遍存在的新用户冷启动问题,并简单介绍了目前新用户冷启动问题的几种解决办法,然后提出利用兴趣圈子内专家推荐的方法处理新用户冷启动问题,详细阐述了GExpR算法的设计思想和流程,最后通过实验证明本文提出的GExpR算法在解决新用户冷启动问题上的有效性。42万方数据 宁波大学硕士学位论文第5章:总结与展望5.1论文总结互联网技术的飞速发展将人们带进了信息时代,而社交网络的出现极大的影响着人们的生活方式,尤其是交友方式。社交网络中好友推荐技术能准确快速的发掘用户在择友方面的兴趣偏好,能为用户推荐符合其心意的交友对象。协同过滤推荐算法的基本思想是根据用户的历史访问记录查找相似邻居,根据相似邻居的喜好来预测用户对未知项目的喜欢程度,是目前应用最为成功的个性化推荐方法。但由于目前海量的SNS用户信息造成的用户数据矩阵极度稀疏,新用户由于缺乏历史记录等问题而造成的推荐效果不佳等问题,传统协同过滤算法对其毫无办法,基于此本文展开了相关研究。本文研究工作如下:(1)为解决由于SNS上海量用户数据而造成的用户数据矩阵稀疏的问题,本文提出依据用户不同兴趣倾向将其划分到不同的兴趣圈子中去,从而将原来稀疏的,规模过大的大矩阵划分为一个个小矩阵,并且小矩阵内数据都有一定的相关性。本文在分析兴趣圈子硬划分存在不足的基础上提出了一种基于遗传算法的模糊c均值(GCM)用户兴趣圈子软化分方法将用户以一定的隶属度模糊划分到若干个兴趣圈子中,该算法利用遗传算法的高效全局搜索的特性保证划分结果全局最优,而利用模糊c均值聚类算法(FCM)兼顾局部最优从而达到较为合理的兴趣圈子划分结果。(2)分析目前CF算法相似度计算方法中存在的不足与缺陷,发现了相似度可信值这一隐性条件,同时考虑相似度计算双方的传统相似度和二者并分别从相识度可信值加权和相似度可信值高斯加权两种途径改进了传统相似度计算方法。(3)分析目前协同过滤算法在为用户推荐时忽略了用户兴趣随时间不断变化这一不足,提出时间权重函数来适应用户兴趣随时间不断变化的需求,从而使得推荐结果跟上用户择友兴趣变化趋势。(4)分析目前协同过滤算法中仅从当前用户单方面兴趣倾向出发,忽略被推荐方的反映而造成很多无效推荐的情况,提出基于双边兴趣的好友推荐这一思路,同时考虑推荐方与被推荐方的感受,尽量确保(i)被推荐者符合当前用户的择友条件;(ii)当前用户符合被推荐者的择友需求,而接受当前用户的交友请求。并通过实验验证了本文算法的优越性。(5)介绍协同过滤中冷启动问题,分析冷启动问题存在的原因并介绍目前存43万方数据 社交网络个性化推荐技术研究在的几种冷启动解决办法及不足,提出一种基于用户兴趣圈子专家推荐的冷启动解决办法。具体描述了利用GooglePageRank算法识别用户兴趣圈子内专家和在此基础上由专家为新用户产生推荐的策略。最后通过实验比较了本文算法与众数法,实验结果表明相较于目前较成功的众数法本文算法在解决新用户冷启动问题上确实有一定的先进性和有效性。5.2展望本文针对社交网络中新老用户的好友推荐问题提出了两种不同的解决方案在一定程度上成功解决了部分问题,但本文工作尚有许多不够完善的地方,需要在后续工作中不断修正和完善。在今后的研究工作中将以以下几个方面作为研究重点:(1)社交网络中海量数据的处理以及数据新特性的挖掘。本文的研究虽然包含了对社交网络个性化好友推荐中的实际数据分析,但本文笔者由于数据获取能力的限制,数据集的数量和覆盖内容都远远不足以反映社交网络推荐场景中数据的真实情况,所反映出来的规律也不一定具有真实的适用性。未来的研究应该处理更广泛,更大规模的社交网络数据,采用更加合理先进的数据采集及处理方法,挖掘更多的社交网络好友推荐特性。(2)本文算法存在的最大问题是算法时间复杂度偏高,需要花费较长时间生成用户推荐列表。在硬件性能达不到一定标准的情况下会造成用户打开社交网络软软件时间较长,可能会让某些性急的用户失去耐心。今后的研究中应该要着力里提升算法的性能,确保在普通硬件性能条件下同样能够达到较高的运行速度。(3)本文基于兴趣圈子专家推荐的冷启动方法是基于群体大部分用户总体兴趣而做出的推荐,仍然无法为那些个性上总爱“特立独行”即与大部分人兴趣相左的用户进行推荐;在今后的研究中应该着重考虑那些兴趣怪异的用户择友倾向,深入挖掘他们的兴趣参数。44万方数据 宁波大学硕士学位论文参考文献:[1]罗辛,欧阳元新.通过相似度支持度优化基于k近邻的协同过滤算法[J].计算机学报,2010,33(8):1437-1444.[2]张中峰,李秋丹.社交网站中潜在好友推推荐模型研究[J].情报学报,2011,30(12):1319-1325[3]吴泓辰,王新军,成勇.基于协同过滤与划分聚类的改进推荐算法[J].计算机研究与发展,2011,48(2):205-212.[4]黄创光,印鉴,汪静等.不确定近邻的协同过滤推荐算法[J].计算机学报,2010,33(8):1369-1376[5]HerlockerJ,konstanJ.Evaluatingcollaborativefilteringrecommendersystems[R].ACMTransactiongsonInformationSystem,2004,22(1):5-53[6]吴湖,王永吉,王哲等.两阶段联合聚类协同过滤算法[J].软件学报,2010,21(5):1042-1054[7]高滢,齐红,刘杰,刘大有.结合似然关系模型和用户等级的协同过滤推荐算法[J].计算机研究与发展,2008,45(9):1463-1469[8]孙光福,吴乐,刘琪.基于时序行为的协同过滤算法[J].软件学报,2013,24(11):2721−2733[9]周涛,个性化推荐的十大挑战[J],计算机协会通讯,v01.8,pp.48—61,2012.[10]许海玲,吴潇,李晓东,阎保平.互联网推荐系统比较研究[J].软件学报,2009,2:350.362[11]郭艳红,邓贵仕.协同过滤系统项目冷启动的混合推荐算法[J].计算机工程,2008,34(23):11-13[12]乔秀全,杨春,李晓峰,陈俊亮.社交网络服务中一种基于用户上下文的信任度计算方法[J].计算机学报,2011,34(12):2403—2413[13]孙小华.协同过滤系统的稀疏性与冷启动问题研究[D].杭州:浙江大学,2005:80.83[14]郭艳红,邓贵仕,雒春雨协.基于信任因子的协同过滤推荐算法阴.计算机工程,2008.34(20):1.3.[15]CaiX,BainM,KrzywickiA,etal.Collaborativefilteringforpeopletopeoplerecommendationinsocialnetworks[R].AdvancesinArtificialIntelligence.SpringerBerlinHeidelberg,2011:476-485.45万方数据 社交网络个性化推荐技术研究[16]WangX,ZhouC.Acollaborativefilteringrecommendationalgorithmusinguserimplicitdemographicinformation[C].ComputerScience&Education(ICCSE),20127thInternationalConferenceon.IEEE,2012:935-939.[17]AbelF,GaoQ,HoubenGJ,etal.Analyzingusermodelingontwitterforpersonalizednewsrecommendations[M].UserModeling,AdaptionandPersonalization.SpringerBerlinHeidelberg,2011:1-12.[18]王玉祥,乔秀全,李晓峰,孟洛明.上下文感知的移动社交网络服务选择机制研究[J].计算机学报,2010,33(11):2126-2135[19]DengAl,ZhuYY,ShiBL.Acollaborativefilteringrecommendationalgorithmbasedonitemratingprediction[J].Journalofsoftware,2003:14(09)[20]BalabanovićM,ShohamY.Fab:content-based,collaborativerecommendation[J].CommunicationsoftheACM,1997,40(3):66-72.[21]ChedrawyZ.AbidiSSR.Anadaptivepersonalizedrecommendationstrategyfeaturingcontextsensitivecontentadaptation[R],Dublin,Ireland,4thInternationalConference,2006:61-70[22]KorenY.Factorintheneighbors:Scalableandaccuratecollaborativefiltering[J].ACMTransactionsonKnowledgeDiscoveryfromData(TKDD),2010,4(1):1.[23]唐小波,张昭.基于混合图的在线社交网络个性化推荐系统研究[J].情报理论与实践,2013,36(2)[24]邢星.社交网络个性化推荐方法研究[D].大连:大连海事大学,2013[25]KonstanJA,MillerBN,MaltzD,etal.GroupLens:applyingcollaborativefilteringtoUsenetnews[J].CommunicationsoftheACM,1997,40(3):77-87.[26]LindenG,SmithB,YorkJ.Amazon.comrecommendations:Item-to-itemcollaborativefiltering[J].InternetComputing,IEEE,2003,7(1):76-80.[27]MillerBN,AlbertI,LamSK,etal.MovieLensunplugged:experienceswithanoccasionallyconnectedrecommendersystem[C].Proceedingsofthe8thinternationalconferenceonIntelligentuserinterfaces.ACM,2003:263-266.[28]MaH,YangH,LyuMR,etal.Sorec:socialrecommendationusingprobabilisticmatrixfactorization[C].Proceedingsofthe17thACMconferenceonInformationandknowledgemanagement.ACM,2008:931-940.[29]JamaliM,EsterM.Amatrixfactorizationtechniquewithtrustpropagationforrecommendationinsocialnetworks[C].ProceedingsofthefourthACMconferenceonRecommendersystems.ACM,2010:135-142.46万方数据 宁波大学硕士学位论文[30]ArtzD,GilY.Asurveyoftrustincomputerscienceandthesemanticweb[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb,2007,5(2):58-71.[31]BelloginA,CantadorI,DiezF,etal.Anempiricalcomparisonofsocial,collaborativefiltering,andhybridrecommenders[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST),2013,4(1):14.[32]Quijano-SanchezL,Recio-GarciaJA,Diaz-AgudoB,etal.Socialfactorsingrouprecommendersystems[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST),2013,4(1):8.[33]GedikliF,JannachD.Improvingrecommendationaccuracybasedonitem-specifictagpreferences[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST),2013,4(1):11.[34]BiancalanaC,GasparettiF,MicarelliA,etal.Anapproachtosocialrecommendationforcontext-awaremobileservices[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST),2013,4(1):10.[35]LiuNN,HeL,ZhaoM.Socialtemporalcollaborativerankingforcontextawaremovierecommendation[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST),2013,4(1):15.[36]CarterL,BélangerF.Internetvotingandpoliticalparticipation:anempiricalcomparisonoftechnologicalandpoliticalfactors[J].ACMSIGMISDatabase,2012,43(3):26-46.[37]AralS,WalkerD.Identifyinginfluentialandsusceptiblemembersofsocialnetworks[J].Science,2012,337(6092):337-341.[38]ZhangF.ChangHY.Acollaborativefilteringalgorithmembeddedbpnetworktoamelioratesparsityissue[R],Guangzhou,China,IEEE2005,Vol.3:1839-1844[39]陈克寒,吴健,韩盼盼.基于用户聚类的异构社交网络推荐算法[J],计算机学报,2013:36(2),249-258[40]郑严,黄荣怀,战晓苏.基于遗传算法的动态模糊聚类[J],北京邮电大学学报,2005:28(1)[41]张强,李淼.基于遗传算法和遗传模糊聚类的混合聚类算法[J],计算机工程与应用,2007:43(2)[42]谭俊华,张洪伟,赵世政,基于遗传算法的模糊聚类研究及其应用[J],计算机用用,2007:27(2),23-28[43]王宝文,闫俊梅,刘文远.基于遗传算法的高维模糊数据聚类[J],计算机工程47万方数据 社交网络个性化推荐技术研究与应用,2007:43(16)[44]朱长江,蔡秀丽.基于改进遗传算法的模糊聚类研究及应用[J].科学技术与工程,2013:13(10),233-239[45]HyungJA.Anewsimilaritymeasureforcollaborativefilteringtoalleviatethenewusercold-startingproblem[J].Informationsciences2008,178:37-51[46]唐德玉.改进的FCM算法在网络入侵检测中的应用[J].计算机工程与应用.2012:6(22),211-218[47]郑吉.一种基于粗糙集理论的谱聚类算法[J].计算机科学.2009:26(5),118-128[48]唐德玉,齐德义.改进的FCM算法在网络入侵检测中的应用[J].计算机工程与应用,48(6)[49]何红,谭永红.一种基于动态遗传算法的聚类新方法[J].电子学报,2012:40(2)[50]吴业,钟志农.一种高效是属性图聚类方法[J].计算机学报,2013:36(8)[51]李军华,黎明.基于聚类的伪并行遗传算法[J].模式识别与人工智能,2009:22(2)[52]顾磊,吴慧中.一种基于遗传算法的减法聚类算法[J].模式识别与人工智能,2008,21(6)[53]何东晓,周翔.复杂网络社区挖掘—基于聚类融合的遗传算法[J],自动化学报.2010:36(8)[54]邢春晓,高凤荣.适应用户兴趣变化的协同过滤推荐算法[J],计算机研究与发展,2007:44(2)[55]许建朝,王红梅.改进的协同过滤算法[J],吉林大学学报,2008:26(1)[56]胡伟.协同过滤算法在推荐系统中的应用[J],计算机时代,2009:1(11)[57]王茜,王均波.一种改进的协同过滤推荐算法[J].计算机科学,2010:37(6)[58]包增辉,宋余庆.协同过滤算法的多样性研究[J].无线通信技术,2013,22(003):5-9.[59]嵇晓声,刘严彬,罗来明.协同过滤中基于用户兴趣度的相似性度量方法[J],计算机应用,2010:30[10][60]周永贵,夏英.基于项目间相似性的兴趣点推荐方法[J],计算机应用研究,2012,29(1)[61]刘文龙,张桂芸.基于加权信息熵相似性协同过滤推荐算法[J],郑州大学学报,2012:33[5][62]赵志,冯卓楠.基于改进相似性的协同过滤相似性算法[J],长春工业大学学48万方数据 宁波大学硕士学位论文报,2006:27[4][63]吴月萍,郑建国.改进相似性度量方法的协同过滤推荐方法[J],计算机应用与软件,2011:28[10][64]丛晓琪,杨怀珍.基于时间加权的协同过滤算法研究[J].计算机应用与软件,2009:26(8)[65]应桂生,崔晓生,马强.基于遗忘曲线的协同过滤推荐模型[J].哈尔滨工程大学学报,2012:33(1)[66]郑先荣,曹先彬.线性逐步遗忘协同过滤算法的研究[J],计算机工程,2007:33(6)[67]ParkST,ChuW.Pairwisepreferenceregressionforcold-startrecommendation[C].ProceedingsofthethirdACMconferenceonRecommendersystems.ACM,2009:21-28.[68]WengLT,XuY,LiY,etal.Exploitingitemtaxonomyforsolvingcold-startprobleminrecommendationmaking[C].ToolswithArtificialIntelligence,2008.ICTAI'08.20thIEEEInternationalConferenceon.IEEE,2008,2:113-120.[69]孙冬婷等.推荐系统中的冷启动问题研究综述[J].计算机与现代化.第5期.2012[70]李聪,梁昌勇.基于n序访问解析逻辑的协同过滤冷启动消除方法[J],系统工程理论与实践,2012,32(7)[71]罗喜军,王韬丞,杜小勇.基于类别的推荐——一种解决协同推荐中冷启动问题的方法[J],计算机研究与发展,2008,6(26)[72]景民昌,张芹,唐第官.协同过滤系统中基于种子集评分的新用户冷启动推荐研究[J],2013,57(5)[73]李改,李磊.一种解决系统过滤系统冷启动问题的新算法[J],山东工业大学学报,2012:42(7)[74]JamaliM,EsterM.TrustWalker:arandomwalkmodelforcombiningtrust-basedanditem-basedrecommendation[C].Proceedingsofthe15thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2009:397-406.[75]ChenCC,WanYH,ChungMC,etal.Aneffectiverecommendationmethodforcoldstartnewusersusingtrustanddistrustnetworks[J].InformationSciences,2013,224:19-36.[76]朱丽中,徐秀娟,刘宇.基于项目和信任的协同过滤算法[J],计算机工程,2013:39(1)[77]孙小华.协同过滤的稀疏性与冷启动问题研究[D],浙江,浙江大学计算机科49万方数据 社交网络个性化推荐技术研究学与技术,2005[78]PageL,BrinS,MotwaniR,etal.ThePageRankcitationranking:Bringingordertotheweb[J].1999.50万方数据 宁波大学硕士学位论文在学研究成果一、在学校期间发表论文基于双边兴趣的社交网好友推荐方法研究[J].计算机工程与应用(录用)51万方数据 社交网络个性化推荐技术研究致谢研究生学习生涯即将结束,在本文完成之际,回首宁大三年的硕士求学历程,有科学研究工作的艰辛和清苦,更多的是点滴收获后的欣慰与喜悦。我深知三年来的收获和成长得益于很多人的关心和帮助,在此深表我的谢意。首先我要感谢我的研究生导师潘善亮教授。在研究生阶段无论在生活上还是科研上,潘老师都给予我无限的关心爱护和谆谆教导,感谢他对于我的严格要求,对于我年轻冲动的无限包容。潘老师崇高的敬业精神、渊博的知识以及严谨的治学态度教会了我如何科研的同时也教会了我不少为人处世的道理,使我受益匪浅。衷心感谢在研期间的授课老师,尤其是计算机专业的老师们,他们知识渊博、教学严谨。在学术研究上,实事求是、踏实认真,这种严谨的态度时刻感染着我,将成为我今后工作以及生活中不可多得的财富。特别感谢和我研究同一方向的专家、学者和同学们,在论文的撰写中可能因疏忽没有逐一标注参考,在此深表歉意并衷心地表示对你们的感谢之情。同时感谢实验室中各位同学在科研与生活中给予我的关心与照顾,感谢11级所有研究生同学给予我的支持与鼓励;感谢我的家人给予我无私的爱,他们是我前进的动力。52万方数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭