您当前的位置：首页 > 电脑百科 > 电脑知识

MSRA的Transformer跨界超越CNN，还解决了计算复杂度难题

时间：2021-03-30 12:47:04 来源：凹非寺作者：鱼羊

+ 加入收藏

鱼羊发自凹非寺

量子位报道 | 公众号 QbitAI

谈到Transformer，你可能会想到一众NLP模型。

但现在，Transformer其实还能替CNN把活给干了，并且干得还不赖。

比如微软亚研院最新提出的Swin Transformer，就在COCO数据集的分割检测任务上来了个跨领域超车，一举达到SOTA。

那么，问题来了。

关注NLP的盆友想必就会问，用Transformer做CV任务，这个想法早已有之，也没见对CNN的地位有什么动摇，Swin Transformer又有何不同？

这就涉及到Transformer的CV应用存在的两个主要问题：

首先，基于Transformer的模型，token的长度是固定的。这对于NLP里的单词当然没有什么问题，但到了CV领域，视觉元素的比例各异，比如同一个场景中会存在大小不同的物体。

其次，图像中的像素与文本中的文字相比，对分辨率的要求更高。而常规的自注意力的计算复杂度，是图像大小的平方，这就导致其在像素级别进行密集预测时会出现问题。

而Swin Transformer，就旨在解决这些NLP和CV之间差异带来的问题。

通过移动窗口计算的分层Transformer

Swin Transformer的诀窍，核心是两板斧：

基于分层特征图，利用特征金字塔网络（FPN）或U-Net等技术进行密集预测

将自注意力计算限制在不重叠的局部窗口中，同时允许跨窗口连接，从而带来更高的效率。

这第二板斧，也就是基于移动窗口的自注意力：

如上图所示，在l层，采用常规的窗口分区方案，在每个窗口内计算自注意力。

在下一层l+1，窗口分区会被移动，产生新的窗口。新窗口中的自注意力计算跨越了l层中窗口的边界，提供了新的关联信息。

具体而言，Swin Transformer的整体架构是酱婶的：

将RGB图像分割成不重叠的图像块（token）；

应用MLP（多层感知机）将原始特征转化为任意维度；

应用多个修改了自注意力计算的Swin Transformer块，并保持token的数量；

下采样层：通过合并2×2窗口中的相邻图像块来减少token的数量，并将特征深度增加一倍。

实验结果

研究人员让Swin Transformer分别挑战了ImageNet-1K、COCO和ADE20K上的图像分类、对象检测和语义分割任务。

其中，用于预训练的是ImageNet-22K数据集，ImageNet-1K数据集则用于微调。

结果显示，在COCO的分割和检测任务，以及ADE20K的语义分割任务上，Swin Transformer都超越了CNN，达到了SOTA。

而在ImageNet-1K的分类任务上，虽然没能超越EfficientNet，但效果相当且速度更快。

Tags：Transformer 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

MSRA的Transformer跨界超越CNN，还解决了计算复杂度难题

但现在，Transformer其实还能替CNN把活给干了，并且干得还不赖。比如微软亚研院最新提出的Swin Transformer，就在COCO数据集的分割检测任务上来了个跨领域超车，一举达到SOTA。...【详细内容】

2021-03-30　　Tags: Transformer 点击:(191)　　评论:(0)　　加入收藏

使用Transformer构建自己的机器翻译服务

使用Transformers库中可用的最新赫尔辛基NLP模型来创建标准化的机器翻译服务在企业环境中需要机器翻译。至关重要的是，跨国公司必须能够与世界各地的人们共享多种语言的文档...【详细内容】

2020-06-12　　Tags: Transformer 点击:(185)　　评论:(0)　　加入收藏

微信开源加速工具 TurboTransformers，超越 PyTorch/TensorFlow

腾讯宣布开源 Transformer 推理加速工具 TurboTransformers。该工具面向自然语言处理领域中 Transformers 相关模型丰富的线上预测场景，据介绍，其在微信、腾讯云、QQ 看点...【详细内容】

2020-04-26　　Tags: Transformer 点击:(104)　　评论:(0)　　加入收藏

▌简易百科推荐

台式电脑多少时间一度电？

回答这个问题前首先要了解一度电的定义一度电= 1000W·h ，是一个能量单位，一个功率为1000w的设备持续运作一小时就会消耗1度电。所以台式机多少时间一度电完全取决于台...【详细内容】

2021-12-20　　数码榜　　　　Tags:台式电脑　点击:(5)　　评论:(0)　　加入收藏

如何延长笔记本电脑的电池寿命，有这一篇就够了

你是不是很多时候都会紧急冲向电源插座以拯救笔记本电脑的电量？很多时候由于附近没有方便的插座，一是会误事，二是会导致尴尬。幸运的是，现代笔记本电脑比前辈高效得多。如今，即...【详细内容】

2021-12-16　　趣玩公社　　　　Tags:电池　点击:(17)　　评论:(0)　　加入收藏

知道这些关于电脑的基础知识，可以让你的电脑变得更好用

电脑在我们生活中的重要性不言而喻。如何保证自己的电脑流畅好用，对于很多用户来说都非常重要。作为一个理科男和IT从业者，对于自己的电脑还是非常在意的，会定期的进行整理，保持...【详细内容】

2021-12-09　　小伊评科技　　　　Tags:电脑　点击:(13)　　评论:(0)　　加入收藏

图解固件、驱动、软件的区别

大家好，我是良许。不管我们使用什么操作系统，无论是 Windows、macOS 还是 Linux ，里面都安装了许多软件、驱动程序和固件。但是，这三者概念有区别呢？我在朋友圈做了个小调查，发现...【详细内容】

2021-11-30　　良许Linux　　　　Tags:固件　点击:(10)　　评论:(0)　　加入收藏

五千年人类密码史：什么样的密码最安全

澎湃问吧世界著名密码史学家戴维·卡恩曾说：“人类使用密码的历史几乎与使用文字的时间一样长”，这意味着人类密码领域的较量已近五千年。提及“密码”一词，大多数人会想...【详细内容】

2021-11-24　　　　澎湃新闻　　Tags:密码　点击:(16)　　评论:(0)　　加入收藏

ENS 空投在即，为什么说去中心化域名及账户系统对 Web3 至关重要？

由于去中心化域名和账户体系可以承载应用、网站和用户身份，因此有理由相信，这是 Web3 世界中不可或缺的一环。撰文：潘致雄如果回忆一下初次进行的加密货币转账时的体验，特别是在...【详细内容】

2021-11-03　　链闻ChainNews　　　　Tags:ENS 　点击:(26)　　评论:(0)　　加入收藏

FAT32文件系统解析

　文件系统（File System）是计算机系统必不可少的组成部分，可以说除了部分结构简单的单片机系统之外，文件系统是支撑每一个计算机系统运行的最重要的支撑，无论是操作系统、应用程...【详细内容】

2021-11-01　　欧工玩转嵌入式　　CSDN　　Tags:FAT32 　点击:(30)　　评论:(0)　　加入收藏

下一代SDS，你准备好了吗？

SDS 2.0时代进化达尔文的《进化论》认为，地球上现存的所有生物都是自然选择的结果，生物只有适应环境的变化，才能得到生存和进化。回望到企业存储，一个常做常新的行业，从上古结绳...【详细内容】

2021-10-28　　ExponTech 　　企鹅号　　Tags:SDS 　点击:(35)　　评论:(0)　　加入收藏

除了备份、VPN，这些远程办公的安全工具你都有吗？

在昨天的微信《远程办公危机四伏，到底该pick谁给你保驾护航？》中介绍了远程员工应该具备的四大安全工具，今天继续分享干货：05 双因子令牌在理想的情况下，每个人都会对所有的关键...【详细内容】

2021-10-26　　　　计算机世界　　Tags:远程办公　点击:(32)　　评论:(0)　　加入收藏

为什么 RGB 是计算机、电视和视频的主要颜色模型？

今天几乎所有的数字显示设备都基于某种类型的 RGB（红、绿、蓝）颜色模型。RGB 是表示人类可以看到的大多数颜色的最有效方式（有一些颜色不能很好地产生，但这是另一个讨论）。相机...【详细内容】

2021-10-09　　懒懒散散的程序员　　　　Tags:RGB 　点击:(49)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为