TNT (Transformer in Transformer),是由华为云智慧屏在2021年提出的一种视觉Transformer模型,它在ViT的基础上增加了一个Transformer模块,以增强模型的表征能力。
TNT 的整体架构类似于 Transformer 模型,但是在每一个 Transformer block 中增加了一个新的 Transformer 模块,这个新的 Transformer 模块用于对输入的特征图进行注意力计算,得到更加丰富的上下文信息。这个新的 Transformer 模块也被称为 “token-to-token” 或 “pixel-to-pixel” 的注意力机制,它可以有效地捕捉到输入特征图中不同位置之间的依赖关系,从而提升网络的表示能力。
除了在注意力计算上进行改进之外,TNT 还对标准的 Transformer 模型进行了改进,包括增加了可分离卷积层、使用了动态卷积核、增加了残差连接和归一化层等。这些改进使得 TNT 在许多视觉任务上的性能表现优于传统的卷积神经网络模型,如图像分类、目标检测和语义分割等任务。
Transformer in Transformer(TNT)是一种基于自然语言处理中的Transformer架构设计的图像识别模型。它可以用于多种计算机视觉任务,如图像分类、目标检测和语义分割等。TNT使用两个级别的Transformer模块,其中外层Transformer模块被称为图片级别的模块,而内层Transformer模块被称为像素级别的模块。这种嵌套的结构允许TNT更好地捕获图像中的不同特征尺度,并且可以处理不同大小和分辨率的输入。TNT已经在多个数据集上进行了测试,证明了其在图像识别任务上的有效性。