强化学习在自动驾驶的应用.doc

ID：27882311

大小：13.80 MB

页数：12页

时间：2018-12-06

资源描述：

《强化学习在自动驾驶的应用.doc》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、强化学习在自动驾驶的应用　　▌前言　　强化学习是通过对未知环境一边探索一边建立环境模型以及学得一个最优策略。强化学习具有以下特征：　　没有监督数据，只有奖励（reward）信号；　　奖励信号不一定是实时的，而很可能是延后的，有时甚至延后很多；　　时间（序列）是一个重要因素；　　智能体当前的行为影响后续接收到的数据。　　而有监督学习则是事先给你了一批样本，并告诉你哪些样本是优的哪些是劣的（样本的标记信息），通过学习这些样本而建立起对象的模型及其策略。在强化学习中没有人事先告诉你在什么状态下应该做什么，只有在摸索中反思之前的动作

2、是否正确来学习。从这个角度看，可以认为强化学习是有时间延迟标记信息的有监督学习。　　其他许多机器学习算法中学习器都是学得怎样做，而强化学习是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。　　简而言之，强化学习采用的是边获得样例边学习的方式，在获得样例之后更新自己的模型，利用当前的模型来指导下一步的行动，下一步的行动获得奖励之后再更新模型，不断迭代重复直到模型收敛。　　强化学习有广泛的应用：像直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等等。　　英国初创公司wayve日前发表的一篇文

3、章Learningtodriveinaday，阐述了强化学习在自动驾驶汽车中的应用。Wayve是英国两位剑桥大学的机器学习博士创立的英国自动驾驶汽车公司，正在建立“端到端的机器学习算法”，它声称使用的方法与大部分自驾车的思维不同。具体来说，这家公司认为制造真正的自动驾驶汽车的关键在于软件的自学能力，而其他公司使用更多的传感器并不能解决问题，它需要的是更好的协调。　　自动驾驶的人工智能包含了感知、决策和控制三个方面。　　感知指的是如何通过摄像头和其他传感器的输入解析出周围环境的信息，例如有哪些障碍物、障碍物的速度和距离、道路的

4、宽度和曲率等。而感知模块不可能做到完全可靠。Tesla的无人驾驶事故就是在强光的环境中感知模块失效导致的。强化学习可以做到，即使在某些模块失效的情况下也能做出稳妥的行为。强化学习可以比较容易地学习到一系列的行为。自动驾驶中需要执行一系列正确的行为才能成功的驾驶。如果只有标注数据，学习到的模型每个时刻偏移了一点，到最后可能会偏移非常多，产生毁灭性的后果。强化学习能够学会自动修正偏移。　　自动驾驶的决策是指给定感知模块解析出的环境信息如何控制汽车的行为达到驾驶的目标。例如，汽车加速、减速、左转、右转、换道、超车都是决策模块的输出

5、。决策模块不仅需要考虑到汽车的安全性和舒适性，保证尽快到达目标地点，还需要在旁边的车辆恶意的情况下保证乘客的安全。因此，决策模块一方面需要对行车的计划进行长期规划，另一方面需要对周围车辆和行人的行为进行预测。而且，无人驾驶中的决策模块对安全性和可靠性有严格的要求。现有的无人驾驶的决策模块一般是根据规则构建的。虽然基于规则的构建可以应付大部分的驾驶情况，对于驾驶中可能出现的各种各样的突发情况，基于规则的决策系统不可能枚举到所有突发情况。我们需要一种自适应的系统来应对驾驶环境中出现的各种突发情况。　　现在，让我们来看看Wayve

6、的自动驾驶汽车的解决方案有什么新颖的地方。　　▌从零开始学会如何通过试错法来学会自动驾驶　　还记得小时候学骑自行车的情景吗？又兴奋，又有一点点焦虑。你可能是第一次坐在自行车上，踩着踏板，大人跟随在你身边，准备在你失去平衡的时候扶住你。在一些摇摆不定的尝试之后，你可能设法保持了几米距离的平衡。几个小时过去后，你可能在公园里的沙砾和草地上能够飞驰了。大人只会给你一些简短的提示。你不需要一张公园的密集3D地图，也不需要在头上装一个高保真激光摄像头。你也不需要遵循一长串的规则就能在自行车上保持平衡。大人只是为你提供了一个安全的环境，

7、让你学会如何根据你所见来决定你的行为，从而成功学会骑车。　　如今，自动驾驶汽车安装了大量的传感器，并通过缓慢的开发周期中被告知如何通过一长串精心设计的规则来驾驶车辆。在本文中，我们将回到基础，让汽车从零开始学会如何通过试错法来学会自动驾驶，就像你学骑自行车一样。　　看看我们做了什么：只用了15~20分钟，我们就能够教会一辆汽车从零开始沿着一条车道行驶，而这只有当安全驾驶员接手时作为训练反馈才使用。　　译注：试错（trialanderror）是一种用来解决问题、获取知识的常见方法。此种方法可视为简易解决问题的方法中的一种，与使

8、用洞察力和理论推导的方法正好相反。在试错的过程中，选择一个可能的解法应用在待解问题上，经过验证后如果失败，选择另一个可能的解法再接着尝试下去。整个过程在其中一个尝试解法产生出正确结果时结束。　　像学骑自行车的方法只有一种：试错。虽然简单，但这个思想实验突出了人类智能的一些重要方面。对于某些

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 12



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

强化学习在自动驾驶的应用.doc

强化学习在自动驾驶的应用.doc

相关文章

相关标签