开户免费送彩金白菜网

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

2022最新白菜网站送彩金论坛 比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA


发布日期:2023-03-18 07:43    点击次数:119

2022最新白菜网站送彩金论坛 比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

 2022最新白菜网站送彩金论坛2022最新白菜网站送彩金论坛

mask-and-predict 的递次2022最新白菜网站送彩金论坛可能会成为筹画机视觉领域的新派系。

自监督预检修在当然说话科罚方面取得了惊东谈主的得手,其基本念念路中包含着掩码计算任务。前段时刻,何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》建议了一种简便实用的自监督学习决策 MAE,将 NLP 领域的掩码计算(mask-and-predict)递次用在了视觉问题上。当今来自 Facebook AI 掂量院(FAIR)的掂量团队又建议了一种自监督视觉预检修新递次 MaskFeat。

比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

论文地址:https://arxiv.org/pdf/2112.09133.pdf

MaskFeat 着手立时掩码一部分输入序列,然后计算被掩码区域的特征。通过掂量 5 种不同类型的特征,掂量者发现宗旨梯度直方图 (HOG) 是一种很好的特征神色递次,在性能和后果方面王人分解优异。而况掂量者还不雅察到 HOG 中的局部对比归一化关于获取细腻限度至关紧迫,这与之前使用 HOG 进行视觉识别的责任一致。

该递次不错学习丰富的视觉常识并运行基于 Transformer 的大范畴模子。在不使用迥殊的模子权重和监督的情况下,MaskFeat 在未标识的视频上进行预检修,使用 MViT-L 在 Kinetics-400 上末端了前所未有的 86.7% top-1 准确率。此外,MaskFeat 还能进一步奉行到图像输入,并在 ImageNet 上获取了有竞争力的限度。

递次

掩码视觉计算任务旨在确立被掩码的视觉试验。通过建模掩码样本,该模子从识别物体的部位和通顺的羡慕上末端了视频协调。举例,要补全下图中的图像,模子必须着手证实可见区域识别对象,还要知谈对象经常的模式和移动容颜,以确立缺失区域。

比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

该任务的一个要害组成部分是计算盘算。在当然说话科罚任务中,掩码说话建模使用词表 tokenize 语料库四肢盘算。而在视觉领域,原始视觉信号是纠合的、高维的,而况莫得可用的当然「词表」。

因此,MaskFeat 建议将计算被掩码区域的特征。借助从原始完满样本中索取的特征进行监督。盘算特征的采取在很猛进度上影响了预检修模子的属性,该掂量对特征进行了往常的讲授,并主要接洽了 5 种不同类型的盘算特征。

比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

着手掂量者将盘算特征分为两组:1) 不错平直获取的单阶段盘算,包括像素脸色和 HOG;2) 由经过检修的深度汇注索取的两阶段盘算。由于计算两阶段盘算是借助检修有素的深度汇注灵验学得的(肖似于模子蒸馏),因此西宾模子的预检修和推理的迥殊筹画资本是不行幸免的。该掂量主要探究的 5 种特征类型是:

像素脸色; 宗旨梯度直方图(HOG); 冲破变分自编码器(dVAE); 深度特征; 伪标签。

该掂量通过了一系列的分析探究了这 5 种特征的好坏。尽管掩码说话建模着手是在预界说词表上计算分类漫衍,但 BEiT 中的冲破化不需要视觉信息。分析限度标明,纠合的无监督特征和图像神色符是性能较好的计算盘算,其中前者需要模子蒸馏,联系我们后者则不需要迥殊的筹画支拨。

比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

此外,掂量者还发现监督检修的盘算特征会产生较差的限度,这可能与存在于特征中的类级特定信息关连,即这种递次关于局部掩码建模来说过于全局化。总的来说,接洽性能和筹画资本之间的量度,该掂量最终采取了 HOG 四肢 MaskFeat 的默许特征。

宗旨梯度直方图(HOG)特征是一种在筹画机视觉和图像科罚顶用来进行物体检测的特征神色递次,最早是在 CVPR 2005 的一篇论文《Histograms of Oriented Gradients for Human Detection》中建议的。

比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

HOG 特征索取的流程如下:着手把样本图像分割为几许个像素单位,把梯度宗旨平均分离为多个区间,在每个单位内部对悉数像素的梯度宗旨在各个宗旨区间进行直方图统计,得到一个多维的特征向量,每相邻的单位组成一个区间,把一个区间内的特征向量联起来得到多维的特征向量,用区间对样本图像进行扫描,扫描步长为一个单位。终末将悉数块的特征串联起来,就得到了完满的特征。

基于视频识别的实验

该掂量在 K400 数据集上将 MaskFeat 和之前的责任进行了比较,限度如下表 3 所示,使用 MaskFeat 的 MViT-L 在 Kinetics-400 上末端了新的 SOTA——86.7% top-1 准确率。

比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

迁徙学习

为了评估该递次鄙人游任务上的迁徙学习性能,该掂量在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模子,实验限度如上表 3 和下表 4 所示,在 K600 上末端了 88.3% top-1 准确率,K700 上为 80.4%,均末端了新的 SOTA。

比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

该掂量在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模子,下表 5 给出了 MaskFeat 模子与现存递次比拟的平均精度 (mAP)。MaskFeat 在全分辨率测试中达到了前所未有的 38.8 mAP,大大超越了畴昔悉数递次。

比MAE更强,FAIR新递次MaskFeat用HOG刷新多个SOTA

感风趣的读者不错阅读论文原文了解更多掂量细节。

 





Powered by 开户免费送彩金白菜网 @2013-2022 RSS地图 HTML地图