深度:自动驾驶特斯拉背后核心技术解析.doc

深度:自动驾驶特斯拉背后核心技术解析.doc

ID:28110945

大小:502.50 KB

页数:12页

时间:2018-12-08

深度:自动驾驶特斯拉背后核心技术解析.doc_第1页
深度:自动驾驶特斯拉背后核心技术解析.doc_第2页
深度:自动驾驶特斯拉背后核心技术解析.doc_第3页
深度:自动驾驶特斯拉背后核心技术解析.doc_第4页
深度:自动驾驶特斯拉背后核心技术解析.doc_第5页
资源描述:

《深度:自动驾驶特斯拉背后核心技术解析.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、深度:自动驾驶特斯拉背后核心技术解析  如此一来,在离群点划分中,中的某一项会接近1,而这样的图划分显然不能使得是一个较小的值,故达到考虑全局信息而摒弃划分离群点的目的。这样的操作类似于机器学习中特征的规范化(normalization)操作,故称为normalizedcut。N-cut不仅可以处理二类语义分割,而且将二分图扩展为K路(-way)图划分即可完成多语义的图像语义分割,如下图例。    Grabcut是微软剑桥研究院于2004年提出的著名交互式图像语义分割方法。与N-cut一样,grabcut同样也是基于图划分,不过gr

2、abcut是其改进版本,可以看作迭代式的语义分割算法。Grabcut利用了图像中的纹理(颜色)信息和边界(反差)信息,只要少量的用户交互操作即可得到比较好的前后背景分割结果。  在grabcut中,RGB图像的前景和背景分别用一个高斯混合模型(gaussianmixturemodel,GMM)来建模。两个GMM分别用以刻画某像素属于前景或背景的概率,每个GMM高斯部件(gaussiancomponent)个数一般设为。  接下来,利用吉布斯能量方程(gibbsenergyfunction)对整张图像进行全局刻画,而后迭代求取使得能量

3、方程达到最优值的参数作为两个GMM的最优参数。GMM确定后,某像素属于前景或背景的概率就随之确定下来。  在与用户交互的过程中,grabcut提供两种交互方式:一种以包围框(boundingbox)为辅助信息;另一种以涂写的线条(scribbledline)作为辅助信息。以下图为例,用户在开始时提供一个包围框,grabcut默认的认为框中像素中包含主要物体/前景,此后经过迭代图划分求解,即可返回扣出的前景结果,可以发现即使是对于背景稍微复杂一些的图像,grabcut仍有不俗表现。    不过,在处理下图时,grabcut的分割效果则

4、不能令人满意。此时,需要额外人为的提供更强的辅助信息:用红色线条/点标明背景区域,同时用白色线条标明前景区域。在此基础上,再次运行grabcut算法求取最优解即可得到较为满意的语义分割结果。grabcut虽效果优良,但缺点也非常明显,一是仅能处理二类语义分割问题,二是需要人为干预而不能做到完全自动化。    DL时代的语义分割  其实大家不难看出,前DL时代的语义分割工作多是根据图像像素自身的低阶视觉信息(low-levelvisualcues)来进行图像分割。由于这样的方法没有算法训练阶段,因此往往计算复杂度不高,但是在较困难的分

5、割任务上(如果不提供人为的辅助信息),其分割效果并不能令人满意。  在计算机视觉步入深度学习时代之后,语义分割同样也进入了全新的发展阶段,以全卷积神经网络(fullyconvolutionalnetworks,FCN)为代表的一系列基于卷积神经网络「训练」的语义分割方法相继提出,屡屡刷新图像语义分割精度。下面就介绍三种在DL时代语义分割领域的代表性做法。  全卷积神经网络  全卷积神经网络FCN可以说是深度学习在图像语义分割任务上的开创性工作,出自UCBerkeley的TrevorDarrell组,发表于计算机视觉领域顶级会议CVP

6、R2015,并荣获bestpaperhonorablemention。  FCN的思想很直观,即直接进行像素级别端到端(end-to-end)的语义分割,它可以基于主流的深度卷积神经网络模型(CNN)来实现。正所谓「全卷积神经网络」,在FCN中,传统的全连接层fc6和fc7均是由卷积层实现,而最后的fc8层则被替代为一个21通道(channel)的1x1卷积层,作为网络的最终输出。之所以有21个通道是因为PASCALVOC的数据中包含21个类别(20个object类别和一个「background」类别)。  下图为FCN的网络结构,

7、若原图为H×W×3,在经过若干堆叠的卷积和池化层操作后可以得到原图对应的响应张量(activationtensor),其中,为第i层的通道数。可以发现,由于池化层的下采样作用,使得响应张量的长和宽远小于原图的长和宽,这便给像素级别的直接训练带来问题。    为了解决下采样带来的问题,FCN利用双线性插值将响应张亮的长宽上采样到原图大小,另外为了更好的预测图像中的细节部分,FCN还将网络中浅层的响应也考虑进来。具体来说,就是将Pool4和Pool3的响应也拿来,分别作为模型FCN-16s和FCN-8s的输出,与原来FCN-32s的输出

8、结合在一起做最终的语义分割预测(如下图所示)。    下图是不同层作为输出的语义分割结果,可以明显看出,由于池化层的下采样倍数的不同导致不同的语义分割精细程度。如FCN-32s,由于是FCN的最后一层卷积和池化的输出,该模型的下采样倍

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。