谷歌在Kaggle发布了一项地标检索挑战赛.doc

ID：28144287

大小：208.50 KB

页数：8页

时间：2018-12-08

资源描述：

《谷歌在Kaggle发布了一项地标检索挑战赛.doc》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、谷歌在Kaggle发布了一项地标检索挑战赛　　图像检索是计算机视觉领域的基础问题，对于包含地标的图像更是非常重要，因为这是用户拍摄的热门对象。本次挑战赛的数据集是世界最大的图像检索数据集，其中有超过一百万张图像，覆盖了全球1.5万个不同景点。　　同时，这项挑战赛也是CVPR2018的地标辨认研讨会的一部分。下面就是本次竞赛排名第一的解决方案，参赛队伍是由anokas带领的团队，论智对其进行了编译。　　　　解决方案包括两个主要元素：　　首先，创建一个高性能的全局描述符（globaldescriptor），它可以将数据库中的图像用奇异向量表示；　

2、　然后，创建一个高效的框架，能将这些向量和最可能的图片联系起来，最后提交到积分榜上。　　下面是总体框架的流程图，其中每一步应用后都有对应的LB分数。　　　　注：下文中所有分数都以百分数表示，即62.5%=0.625　　方案详细讲解　　全局描述符（GlobalDescriptors）　　我们的方案中最主要的部分就是几个全局描述符，这些向量描述了图片的全部内容。我们从两个预训练的CNN模型开始（ResNet和ResNeXt），并用四种目前最先进的集结方法（aggregationmethods）生成全局描述符。下面是四种集结方法各自的细节以及它们“

3、原始”的表现性能（也就是没有进行检索词扩展和数据库扩展）：　　基于区域熵的多层抽象池化（REMAP）[42.8%mAP]：我们之前设计的一个全局描述符聚合了不同CNN层的深度特征，之后经过训练可以表示多个水平的可视化抽象对象。我们将在之后的CVPR研讨会上进一步展示REMAP的细节架构。　　最大卷积激活值（MAC）[32.9%mAP]：MAC描述符将每个CNN的最后一层卷积过滤的最大局部回应进行编码。在它的架构中，ResNeXt的最后一个卷积层后面有一个最大池化层、L2-正则化层和PCA+白化层。　　卷积的池化和（SPoC）[31.7%mAP

4、]：在SPoC这一过程中，ResNeXt的最后一个卷积层后接池化和层、L2-正则化层和PCA+白化层。　　卷积的区域最大激活值（RMAC）[34.7%mAP]：在RMAC中，ResNeXt最后的卷积特征是在多个规模重叠区域中进行的最大池化。这些区域同样是基于有L2-正则化层和PCA+白化层的描述符。最后把所有描述符汇总到一个单一的描述符中。　　基础的CNN网络（ResNet和ResNeXt）是在ImageNet上进行的训练，之后再一个地标数据集的子集中进行调整。该子集来自Babenko等人的研究成果，其中包括大约12万张图片和650个著名景点

5、。　　这一数据集中的图像最初是在图片搜索引擎中用文字搜到的，没有经过检验，所以其中可能含有很多不相关的图片，这需要我们过滤掉。删除图片的过程是半自动的，利用带有密集SIFT特征的Hessian-affine检测器以及RVD-W描述符进行聚合。处理完图像后，还剩下25000张左右的图片，都属于一种地标，我们想用它对模型进行调整。　　我们没有用其他类似竞赛中的数据集作为训练数据，因为我们想看看在新的数据集下，我们的方案生成的效果如何。　　合并描述符　　通过用上述方法训练的六个全局描述符合并，就得到了最终的全局描述符（括号中的是LB分数）：　　Re

6、sNeXt+REMAP（42.8%）　　ResNeXt+RMAC（34.7%）　　ResNeXt+MAC（32.9%）　　ResNeXt+SPoC（31.7%）　　ResNet+REMAP（35.8%）　　ResNet+MAC（30.4%）　　接着我们将每个描述符缩放到固定的L2norm上，为每个描述符分配权重，按以下方式连接描述符：　　XG=[2×ResNeXt+REMAP;1.5×ResNeXt+RMAC;1.5×ResNeXt+MAC;1.5×ResNeXt+SPoC;ResNet+MAC;ResNet+REMAP]　　权重的选择是点对

7、点的，以反映每种方法相应的性能。之后，我们用PCA将描述符的维度降到4K，同时应用白化，让所有维度的方差相同。虽然PCA和白化只能改善一小部分，但是它将查询扩展的结果提升了几个百分点。　　最近邻搜索　　创建好描述符后，每张图片都由一个4096维的描述符表示。接下来，我们用复杂的k-最近邻搜索找到每张图前2500个近邻和L2距离。这一阶段提交每张图片的前100个最近邻得到了47.2%的分数。　　这一步骤使用优化过的NumPy代码实现，用了2小时对每个1.2M的图片找出了前2500个最近邻。　　数据库增强　　接下来要做的是数据库增强（DBA），即

8、把数据库中每张图片的描述符换成它本身和前10个最近邻的加权结合。目的就是利用它们近邻的特征提高图像表示的质量。更准确的是，我们进行描述符的加权求和，其中权重按以下代

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 8



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

谷歌在Kaggle发布了一项地标检索挑战赛.doc

谷歌在Kaggle发布了一项地标检索挑战赛.doc

相关文章

相关标签