欢迎来到天天文库
浏览记录
ID:27914157
大小:134.50 KB
页数:8页
时间:2018-12-07
《探讨深度学习在自动驾驶中的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、探讨深度学习在自动驾驶中的应用 2018年8月4月,北京理工大学大数据创新学习中心与中国科学院人工智能联盟标准组联合主办了为期一天的专家讲座活动------“2018深度强化学习:理论与应用”学术研讨会。活动现场参与人数超过600人,在线同步观看人数超过12万人。学界与业界专家齐聚一堂,共同分享学习深度强化学习领域的最新研究成果。本文小编亲临现场,为您揭秘深度强化学习在自动驾驶技术中的应用详细报告。 杨明珠大连交通大学 今天我的演讲内容主要分为四个部分:深度强化学习的理论、自动驾驶技术的现状以及问题、深度强化学习在自动驾驶技术当中的应用及基于深度强化学习的礼让自动驾驶研
2、究。 首先是深度强化学习的理论,DQN做了深度的拓展,在离散型动作中应用效果比较好,但连续性动作当中表现效果并不好,所以做了一些改进和发展,如DoubleDQN等。 在连续型动作之中我个人比较喜欢DDPG的理念,原因有两点:①之前学习到的经验和Policy数据放到Replaybuffer当中,若之后的行为当中发现和之前相似的地方就会直接从Replaybuffer当中把之前的经验和数据直接调用出来,这样就可以避免在重复进行一种训练或者采集的方式,节省时间、提高效率;②信任域的策略优化,简称TRPO,其实是对之前的算法做了改进,如对状态分布进行处理,利用重要性采样对动作分布进行的
3、处理及在约束条件当中,把平均KL散度代替最大KL散度。 PPO也是最近比较热门的一种深度强化学习算法,分为N个Actor,同时进行一些工作,这样平均分配给很多个actor,合作来做的话效率会更高,而且会节省更多的时间。HER算法也是个人最喜欢的之前经过所有训练,经验总结出来,这个工作结束以后全部消化一遍,然后做第二次实验或者工作的时候吸取了前面的经验,然后再进行下面的训练或者工作的话,就会避免一些错误,如无人驾驶撞车了,上次为什么撞车了呢?第二次需要避免这个错误,即不让它撞车。 自动驾驶公司分为互联网公司(如Google、百度、苹果和Uber)及传统车企(如福特和汽车配件的博
4、世、大众、通用、宝马和奔驰等)。目前自动驾驶技术有三个问题:①感知方面也可以叫做信息的预处理,主要包括对图像或者视频信息的分割、检测或者识别,如果识别的准确率更高可能会对之后的决策有比较好的优势。运行当中也需要用到分割工作,如沿着车线走需要分割车线位置等。②决策方面其实是为了模仿人类,所以需要经过很多训练,利用强化学习来做自动驾驶即像人考驾照的过程,学习怎样开车,最后达到上路的水平。③控制方面就是故障安全机制,遇到危险的情况下来不及反应,就需要安全机制保障车内的人身安全,我们做自动驾驶也就是为了减少交通事故的发生率,让更多的人可以安安全全地坐上自动驾驶汽车。 现在解决自动驾驶技
5、术问题有两种方法:一种是低精度定位+低精度地图+高准确识别率,另一种是高精度定位+高精度地图+更准确的识别率。 百度是有采集信息的车辆,其实也是比较辛苦的,需要采集所有全景的图像来做上传,最后再和百度地图结合,这样才能制定比较好的高精度地图,这样成本会非常的高。 关于深度强化学习在自动驾驶当中的应用,有几个团队:WAYVE团队、本田研究院团队、堪萨斯州立大学团队、韩国汉阳大学团队。Wayve是我个人比较欣赏的团队,是由英国剑桥的博士毕业生创立的自动驾驶。 Wayve在今年7月发布的文章是《LearningtoDriveinaDay》,仅仅用了一个前景摄像头,就是车前方的视频
6、作为输入的State,输出的Action就是保证在同一车道内行进距离,行驶距离长,reward就大;行驶距离短,reward就短。结果是只用了单个摄像头让自动驾驶汽车在三十分钟内学会了保持在同一车道内行驶二百五十米距离。这样的方式我们是比较欣赏,但不太建议使用这种仅仅基于视觉的方式来做自动驾驶,因为开车肯定是眼观六路耳听八方,侧面或者后面出现任何问题没有办法及时预警,没有办法及时处理,将来在上路的问题上肯定是有很大的缺陷。 宾夕法尼亚大学,本田研究院和乔治亚理工学院合作团队是采用TTC模式,能够提前知道岔路口的状态,如何通过岔路口并且预测到达这个岔路口的时间是不是有危险,有没有
7、足够的时间进行制动,TTC一般都是二点七秒,那个,该团队存在的缺陷因为就是DQN存在的问题,即在离散动作当中表现优异,在连续性动作中表现不好,如果是在高速行驶的情况下如何应用,解决得并不是太好。 如何在对抗性极强的情况下,对碰撞避免机制的行为进行训练,使系统进入不安全预警状态,堪萨斯州立大学团队提出了一种基于深度强化学习的新框架,用于对自动驾驶汽车的碰撞避免机制的行为进行基准测试,但是有一个缺点:无感知单元的预处理过程,并且没有在连续性动作的决策任务。 我们将这些思想做了融合
此文档下载收益归作者所有