欢迎来到天天文库
浏览记录
ID:54849988
大小:21.65 KB
页数:6页
时间:2020-04-22
《推荐算法汇总.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第一部分目前推荐算法应用背景较多,方法也各不相同。按推荐背景分:社交网络推荐系统,服务推荐系统,视频推荐系统,电子商务推荐系统等。目前采用的推荐算法分类:(该部分总结基本均参考文献[17])1.协同过滤算法:(1)基于记忆的推荐算法1)基于内容推荐算法2)基于用户推荐算法3)基于用户的Top-N算法4)基于项目的Top-N推荐算法(2)基于模型的推荐算法1)基于朴素贝叶斯分类的推荐算法[1]利用加权朴素贝叶斯方法对没有评分的数据进行预测。优点:缓解稀疏性,推荐准确度提高。较好的计算精度缺点:用户评分之间存在相互依赖关系时,该算
2、法的准确性将打折扣2)基于线性回归的推荐方法[1]缺点:推荐精度低。3)基于马尔科夫决策过程MDP的推荐算法优点:考虑每个推荐的长期影响,以及每个推荐的期望值。4)基于矩阵分解的推荐算法,SVD系列推荐算法优点:缓解稀疏度,推荐准确性好缺点:只能对二维数据进行分析,考虑因素较少。5)Slopeone优点:产生结果速度快缺点:准确性不高6)基于聚类的Gibbs抽样方法缺点:计算复杂度大7)概率相关方法缺点:计算复杂度大7)极大熵方法缺点:计算复杂度大2.基于内容的推荐算法1)文本推荐方法优点:特征提取容易,应用广泛。2)基于潜在
3、语义分析(LatentSemanticAnalysis,LAS)的推荐缺点:潜在语义空间物理意义不明确,计算量大3)自适应推荐(1)决策树(2)聚类(3)人工神经网络优点:根据用户兴趣动态调整推荐3.基于图结构的推荐算法:基于图结构的推荐算法通过分析二部图结构给出合理的推荐。优点:推荐准确性较高。4.混合推荐算法应用最多的是协同过滤推荐算法,并且很多方法已经并行化实现。基于记忆的推荐算法较简单,推荐准确性不高;基于模型的比较复杂,推荐准确性高,研究较多。基于内容的推荐算法着重强调文本信息,研究也较多。基于图结构的推荐算法和混合
4、推荐算法应用较少。第二部分以下是近年来的水平较高的推荐算法汇总,这些算法均进行了并行化实现:1.云环境下top-n推荐算法[1]:多层分布式存储架构MDSA,在该架构中,网络节点被组织成一棵层次索引树MDSA-Tree,而电子商务数据按照特定的规则分割存储于MDSA-Tree的各节点上.为了降低网络传输代价和I/O开销,提出了适合top-n推荐的数据编码模式,而为了缩减系统响应时间,利用map/reduce分布式编程模型来快速获取满足用户偏好的前n个项。优点:实用性和可扩展性强。2.基于混合推荐和隐马尔科夫模型的服务推荐方法[
5、2]:云环境下对最优服务进行有效推荐的方法,,针对常常被忽略的新用户学习策略,提出新用户偏好的确定方法;针对服务的动态变化情况,基于隐马尔科夫模型(hiddenMarkovmodel)提出一种冗余服务消解策略。优点:更高的准确度和更好的服务质量,能更有效地提高系统性能。缺点:仅仅考虑了基于内存的协同过滤方法(memory-basedcollaborativefiltering),还没有考虑网络的本身的结构拓扑。2.融合用户集合关系的稀疏线性(UCSLIM)推荐算法[3]:将用户划分为用户集合,进一步挖掘用户与用户集合之间的隐含
6、关系,并综合考虑用户与用户相关性、用户与用户集合相关性这两个因素。优点:时间复杂度低。缺点:用户集划分不够精准。3.一种基于标签与协同过滤的并行混合推荐算法[4]:该算法通过计算标签的词频-逆文档频率(TF-IDF)值降低流行标签权重,根据用户的历史行为预测用户对其他资源的偏好值,最后依据预测偏好值排序产生Top-N推荐结果。优点:推荐质量高,具有一定的普适性;解决传统协同过滤算法的Top-N冷启动问题。算法并行化提高了推荐效率,复杂度较低。缺点:实际应用中,标签质量对实验结果的影响。4.基于实值的状态玻尔兹曼机模型[5]:模
7、型和用户的社交关系相结合。优点:解决数据稀疏问题。缺点是:应用领域都是传统的0-1数据。5.基于ApacheSpark的一种混合分布式协同过滤算法[6]:在spark平台上实现基于用户的协同过滤算法,并结合了维度减少和机器学习中的聚类算法。还通过标签得到用户对项目的关联性。优点:解决了冷启动问题,同时效率提高。缺点:当新的数据加入时需要更新模型。6.非负稀疏潜在语义分析算法[7]:采用图形处理单元加速的方法来优化非负稀疏潜在语义分析的算法,用来挖掘多媒体资源和标签数据关联背后的潜语义空间。优化了非负稀疏潜在语义模型,并且并行化
8、实现,用一个数据分区方案高效地解决了内存拥堵。优点:计算复杂度低。2.一个采用Mapreduce框架来并行计算标签亲和力的方法[8]:采用Mapreduce编程框架来计算微观、宏观和二元标签的同现出现频率。大概采用wordcount方法来计算标签同时出现率。优点:性能好,可扩
此文档下载收益归作者所有