基于深度强化学习与自适应在线学习的搜索和推荐算法研究

基于深度强化学习与自适应在线学习的搜索和推荐算法研究

ID:28858688

大小:972.76 KB

页数:15页

时间:2018-12-14

基于深度强化学习与自适应在线学习的搜索和推荐算法研究_第1页
基于深度强化学习与自适应在线学习的搜索和推荐算法研究_第2页
基于深度强化学习与自适应在线学习的搜索和推荐算法研究_第3页
基于深度强化学习与自适应在线学习的搜索和推荐算法研究_第4页
基于深度强化学习与自适应在线学习的搜索和推荐算法研究_第5页
资源描述:

《基于深度强化学习与自适应在线学习的搜索和推荐算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究本文章来自于阿里云云栖社区摘要: 作者:灵培、霹雳、哲予1. 搜索算法研究与实践1.1 背景淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。传统选自《不一样的技术创新——阿里巴巴2016双11背后的技术》,全书目录:https://yq.aliyun.com/artic

2、les/68637本文作者:灵培、霹雳、哲予1. 搜索算法研究与实践1.1 背景淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。传统的LearningtoRank(LTR)方法主要是在商品维度进行学习,根据商品的点击、成交数据构造学习样本,回归出排序权重。LTR学习的是当前线上已经展示出来商品排序的现象,对已出现的结果集合最好的排序效果,受

3、到了本身排序策略的影响,我们有大量的样本是不可见的,所以LTR模型从某种意义上说是解释了过去现象,并不一定真正全局最优的。针对这个问题,有两类的方法,其中一类尝试在离线训练中解决online和offline不一致的问题,衍生出CounterfacturalMachineLearning的领域。另外一类就是在线trial-and-error进行学习,如BanditLearning和ReinforcementLearning。在之前我们尝试了用多臂老虎机模型(Multi-ArmedBandit,MAB)来根据用户反馈学

4、习排序策略,结合exploration与exploitation,收到了较好的效果。后来更进一步,在原来的基础上引入状态的概念,用马尔可夫决策过程对商品搜索排序问题进行建模,并尝试用深度强化学习的方法来对搜索引擎的排序策略进行实时调控。实际上,如果把搜索引擎看作智能体(Agent)、把用户看做环境(Environment),则商品的搜索问题可以被视为典型的顺序决策问题。Agent每一次排序策略的选择可以看成一次试错(Trial-and-Error),把用户的反馈,点击成交等作为从环境获得的奖赏。在这种反复不断地试错

5、过程中,Agent将逐步学习到最优的排序策略,最大化累计奖赏。而这种在与环境交互的过程中进行试错的学习,正是强化学习(ReinforcementLearning,RL)的根本思想。本文接下来的内容将对具体的方案进行详细介绍。 1.2 问题建模马尔可夫决策过程(MarkovDecisionProcess,MDP)是强化学习的最基本理论模型。一般地,MDP可以由一个四元组表示:(1)S为状态空间(StateSpace);(2)A为动作空间(ActionSpace);(3)为奖赏函数;(4)为环境状态转

6、移函数(StateTransitionFunction)。我们的最终目标是用强化学习进行商品搜索排序策略的学习,在实现的过程中,我们一步一步完成了从简单问题到复杂问题的过渡,包括:1.基于值表(Tabular)强化学习方法的商品价格档T变换控制(离散状态、离散动作问题);2.基于值表(Tabular)强化学习方法的商品展示比例控制(离散状态、离散动作问题);3.基于强化学习值函数估计(ValueFunctionApproximation)的商品排序策略调控(连续状态、离散动作问题);4.基于强化学习策略估计(Pol

7、icyApproximation)的商品排序策略调控(连续状态、连续动作问题)。 1.2.1状态定义假设用户在搜索的过程中倾向于点击他感兴趣的商品,并且较少点击他不感兴趣的商品。基于这个假设,我们将用户的历史点击行为作为抽取状态特征的数据来源。具体地,在每一个PV请求发生时,我们把用户在最近一段时间内点击的商品的特征作为当前Agent感知到的状态。当然,在不同的问题中,状态的表示方法会有所不同。例如,在值表强化学习方法中,状态为可枚举的离散变量;在值函数估计和策略估计方法中,状态则表示为特征向量。 1.2.2奖赏函

8、数定义Agent给出商品排序,用户根据排序的结果进行的浏览、商品点击或购买等行为都可以看成对Agent的排序策略的直接反馈。在第四章中,我们将利用奖赏塑形(RewardShaping)方法对奖赏函数的表达进行丰富,提高不同排序策略在反馈信号上的区分度。 1.3 算法设计由于篇幅有限,我们仅对强化学习在搜索中的使用给出2个实例。 (1)Tabular方法我们在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。