2020-ViT


VIT.jpeg

观看李沐视频 阅读VIT论文

视频链接:https://www.bilibili.com/video/BV15P4y137jb?spm_id_from=333.999.0.0

论文链接:https://arxiv.org/pdf/2010.11929.pdf

  • 结论:在足够多的数据上做预训练,也可以不需要卷积神经网络,而使用Transformern

回顾transformer

  • transformer的自注意力引入到图像领域复杂度非常高
  • 有些工作降低序列长度
  • 把网络的特征图当作transformer的输入
  • 到卷积网络后面的层的feature map的大小会比较小

文章作者: TianShan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 TianShan !
  目录