且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA

更新时间:2022-08-22 13:54:00

神经网络模型经常被研究人员戏称为「堆积木」,通过将各个基础模型堆成更大的模型,更多的数据来取得更好的效果。

小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA为了减轻人工构建模型的工作量,用AI技术来搜索最优「堆积木」方法就很有必要了。

 

神经架构搜索 (NAS) 就是这样一种技术,随着研究的发展,神经结构搜索(NAS)已被广泛用于设计准确高效的图像分类模型。

 

然而,将神经架构搜索 (NAS)应用于新的计算机视觉任务仍然需要大量的努力。

 

这是因为之前的NAS研究,都是优先考虑图像分类任务,而在很大程度上忽略了其他任务;优化好的架构也无法顺利迁移到其他任务的特定任务组件;以及现有的NAS方法通常被设计为「无代理」,所以需要付出巨大的努力才能与每个新任务的训练管道集成。

 

为了应对这些挑战,Meta Reality Lab提出了FBNet系列最新版——FBNetV5,这是一个NAS框架,可以搜索满足各种视觉任务的神经网络架构,大大降低计算成本。小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTAhttps://arxiv.org/pdf/2111.10007v1.pdf

 

通过对三个基本视觉任务(图像分类、目标检测和语义分割)的评估,FBNetV5在单次搜索中搜索的模型在所有三个任务中都优于以前的最先进水平:图像分类(与FBNetV3相比,在相同的FLOPs下,ImageNet top-1的准确率为1.3%),语义分割(ADE20K val mIoU比SegFormer高出1.8%的同时,减少3.6倍的FLOPs)和目标检测(与YOLOX相比,COCO val. mAP提升1.1%,减少1.2倍FLOPs)。

 小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA在FBNetV5的单次搜索中搜索的架构在三个任务上优于SoTA性能:ImageNet图像分类、ADE20K语义分割和COCO目标检测。

 

FBNetV5框架


FBNetV5本质是一个全新的NAS框架,它可以在一次搜索中同时搜索多个任务的主干拓扑。该工作面向三个基本的计算机视觉任务:图像分类、目标检测和语义分割。

 

FBNetV5是从Meta AI自家最先进的图像分类模型,即FBNetV3开始,构建一个由多个分辨率的平行路径组成的超网(supernet),类似于HRNet。

 小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTAFBNetV5概述。通过在多任务数据集上训练超网来搜索多个任务的主干拓扑。每个任务都有自己的体系结构分布,从中抽取特定于任务的体系结构,并使用目标任务的现有训练管道对它们进行训练。

 

基于超网,FBNetV5通过将一组二进制掩码参数化,来搜索每个目标任务的***拓扑,该掩码的指示代表是否保留超网中的某个构建块。

 

为了将搜索过程从目标任务的训练流水线中分离出来,他们通过在具有分类、目标检测和语义分割标签的多任务数据集上训练超网来进行搜索。

 

为了使计算成本和超参数调整工作与任务数量无关,研究人员提出了一种超网训练算法,该算法在一次运行中同时搜索任务体系结构。

 小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA