旷视科技孙剑:云、端、芯上的视觉计算.doc

旷视科技孙剑:云、端、芯上的视觉计算.doc

ID:28096829

大小:877.00 KB

页数:28页

时间:2018-12-08

旷视科技孙剑:云、端、芯上的视觉计算.doc_第1页
旷视科技孙剑:云、端、芯上的视觉计算.doc_第2页
旷视科技孙剑:云、端、芯上的视觉计算.doc_第3页
旷视科技孙剑:云、端、芯上的视觉计算.doc_第4页
旷视科技孙剑:云、端、芯上的视觉计算.doc_第5页
资源描述:

《旷视科技孙剑:云、端、芯上的视觉计算.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、旷视科技孙剑:云、端、芯上的视觉计算  2018全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了深圳市宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。    孙剑博士在CCF-GAIR现场演讲  6月30日,计算机视觉专场举行,会场现场爆满,不少听众站着听完了长达数小时的演讲。上午场的议题为“计算机视觉前沿与智能视频”,由香港科技大学RAM-LAB主任刘明担纲主持

2、。在他的串联下,ICCV2011与CVPR2022大会主席权龙、旷视科技首席科学家孙剑、云从科技联合创始人姚志强、臻识科技CEO任鹏、云飞励天首席科学家王孝宇以及商汤联合创始人林达华等学界、业界大咖进行了6场深度分享,既有计算机视觉技术的前沿研究动态,也有相关技术落地的具体方向。    旷视科技首席科学家、研究院院长孙剑博士为大家带来题为“云、端、芯上的视觉计算”的精彩演讲。孙剑认为,计算机视觉简单讲就是使机器能看,旷视科技希望能够做到“赋能亿万摄像头”,让应用在所有领域的摄像头都具备智能,不管是在云、端还是在芯上。  计算机视觉的发展史

3、就是研究如何表示图像的历史。深度学习流行之前,最好的办法是基于特征的,从图像里抽取特征,再进行分析;但是这个方法有两个大缺点:首先,该方法完成的非线性变换次数非常有限;其二,大多数参数都是人工设计的,包括Feature。深度神经网络的办法弥补了手工设计特征的缺陷,整个非线性变换可以做非常多次,换句话说可以很深,所以特征表示能力非常强,并且可以自动地联合训练所有参数。孙剑博士在微软时提出152层的ResNet,第一次在ImageNet大规模图像分类任务上超过了人的能力。  接着,孙剑博士从计算机平台的角度对出现的各种神经网络结构进行了分类:

4、GoogleNet、ResNet在“云”上;MobileNet以及旷视提出的ShuffleNet属于“端”这一类;BNN、XNORNet和旷视提出的DorefaNet则是在“芯”上。针对目前分平台设计相关网络的现状,孙剑相信未来会有一个“MetaNet出现,能够统一解决各个平台上的神经网络设计和优化问题”。  最后,孙剑简单介绍了旷视在云、端、芯三个平台上的计算机视觉应用,包括人脸识别、车辆识别、人脸支付、智慧安防、智慧金融、城市大脑、仓储物流、新零售等。    以下为孙剑演讲全文,雷锋网进行了不改变原意的编辑。    目前人工智能一般划

5、分为感知和认知两块,这一张图可以看到计算机视觉在人工智能领域所处的位置,绿色表示技术上有重大突破或者应用落地相对成熟、橙色和黄色表示还需重大突破。  旷视科技成立至今已经7年,一直专注于计算机视觉领域。去年,旷视获得了两个非常好的荣誉,MIT评选的2017年度十大突破性技术中旷视科技的“刷脸支付技术”榜上有名,这是中国公司的技术第一次获此殊荣;MIT也将旷视列为2017年度全球五十大最聪明公司的第11位。旷视去年也完成了新一轮4.6亿美金的融资,用于做更好、更深入的研究和商业落地。  简单来讲,计算机视觉就是让机器能看。旷视科技自创立就一

6、直在回答“如果机器能自动理解一张图像或者一段视频,我们能做什么?”这个问题。当然这么说比较抽象,其实具体讲我们想做的是“赋能亿万摄像头”。日常生活和各个行业中有很多的摄像头,比如说手机、安防、工业、零售、无人车、机器人、家庭、无人机、医疗、遥感等等。在这些地方,大多摄像头还没智能化,我们的使命是使这些摄像头有智能,不管是在云、端还是在芯片上;我们要构建智能大脑来理解智能摄像头输入的大量信息。    相对于语音识别来说,计算机视觉应用面非常广泛。语音识别的输入和输出较为单一,核心目标是把一段语音变成一句文字。但计算机视觉系统的输出要丰富很多

7、,你需要知道图像/视频里面的物体、运动、场景,其中有什么人、人的位置、行为、表情、注意力等等。你会在不同行业或场景中面临各种各样不同的任务,这也让计算机视觉成为一个很大并增长很快的学术领域(今年计算机视觉年会CVPR参会人达到近7000人),也诞生出众多的优秀创业公司。    计算机视觉的核心问题包括分类、检测、分割,分别是对一张图、一张图的不同区域和一张图的每个像素做识别。另外如果输入的是视频,我们还需要利用时间关系做识别;其中最核心的是分类问题,因为它是后面三个任务的核心和基础。    其实,人工智能一出现时,计算机视觉也诞生了。计算

8、机视觉有一个先驱人物叫DavidMarr,他在80年代初期提出了PrimalSketch方法,以及一个研究计算机视觉的大框架,认为图像应该先检测Edge,然后出2½Dsketch和3D模型。但

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。