您当前的位置:首页 > 新闻 > 焦点

预训练后性能反而变差,自训练要取代预训练了吗?

时间:2020-07-19 11:27:52  来源:  作者:

 

预训练后性能反而变差,自训练要取代预训练了吗?

编译 | JocelynWang

编辑 | 丛 末

早在2018年底,FAIR的研究人员就发布了一篇名为《Rethinking ImageNet Pre-training》的论文 ,这篇论文随后发表在ICCV2019。该论文提出了一些关于预训练的非常有趣的结论。

近期,谷歌大脑的研究团队对这个概念进行了扩展,在新论文《Rethinking Pre-training and Self-training》中,不仅讨论了预训练,还研究了自训练,比较了在同一组任务当中自训练与监督预训练、自监督预训练之间的差异。

预训练后性能反而变差,自训练要取代预训练了吗?

论文地址:https://arxiv.org/abs/2006.06882

作者通过实验得出了以下结论:

1、如果预训练任务和目标任务存在差异,则预训练(包括监督和自监督)可能损害目标任务准确率;

2、自训练适用不同规模数据集和不同强度增强数据的训练;

3、自训练并且可以看作对预训练的补充,联合预训练和自训练可以获得更大的增益。

以下是机器学习研究工程师Aakash Nain对《Rethinking Pre-training and Self-training》这篇论文的解读,文章发表在Medium上,AI科技评论对文章进行了编译。

1

 

序言

在进一步探讨论文细节之前,我们先了解一些术语。预训练是运用在不同领域(例如计算机视觉、自然语言处理、语音处理)的一种非常普遍的做法。在计算机视觉任务中,我们通常使用在某个数据集上经过预训练并可直接运用到另一个数据集的模型。例如,利用ImageNet预训练就是一种可广泛运用到目标分割和目标检测任务的初始化方法。为实现此目的,我们常使用迁移学习和微调这两种技术。

另一方面,自训练也尝试在训练期间结合模型对未标记数据的预测结果,以获得其他可用的信息来改善模型性能。例如,使用ImageNet来改进COCO目标检测模型。首先在COCO数据集上训练模型,然后将该模型用于生成ImageNet的伪标签(我们将丢弃原始的ImageNet标签),最后将带有伪标签的ImageNet数据集和有标签的COCO数据集结合来训练一个新的模型。

自监督学习是另一种常用的预训练方法。自监督学习的目的不仅仅是学习高级特征。相反,我们希望模型学习的更好,有更好的鲁棒性以适用于各种不同的任务和数据集。

 

2 研究动机

作者希望能解决以下问题:

  1. 预训练对训练结果有多大程度的帮助?什么情况下使用预训练是无效的?

  2. 与预训练相比,我们可以使用自训练并获得相似或更好的结果吗?

  3. 如果自训练优于预训练(暂做这样的假设),那它在多大的程度上比预训练好?

  4. 在什么情况下自训练比预训练更好?

  5. 自训练的灵活性和可扩展性如何?

3

 

设置

 

1、数据集和模型

1)目标检测:作者使用COCO数据集(11.8万张图片 )进行监督学习下的目标检测训练。ImageNet数据集(120万张图片 )和OpenImage数据集(170万张图片 )用作未标记的数据集。使用以EfficientNet - B7为主干网络的RetinaNet目标检测器。图像的分辨率保持在640 x 640,金字塔等级为P3到P7,每个像素使用9个锚点。

2)语义分割:使用 PASCAL VOC 2012分割训练集(1500张图片)进行监督学习下的语义分割训练。对于自训练,作者使用了增强的PASCAL图像数据集(9000张图片),标记以及未标记的COCO(24万张图片)和ImageNet(120万张图片)数据集。使用以EfficientNet-B7和EfficientNet-L2为主干网络的NAS-FPN模型。

 

2、数据增强

在所有实验中都使用了四种不同强度的增强策略来进行检测和分割。这四种策略按强度从低到高依次为:

1)Augment-S1:这是标准“ 翻转和裁剪”增强操作,包括水平翻转和缩放裁剪。

2)Augment-S2: 这包括论文《AutoAugment: Learning Augmentation Strategies from Data》中使用的AutoAugment,以及翻转和裁剪。

3)Augment-S3:它包括大规模缩放、AutoAugment、翻转和裁剪。缩放范围比Augment-S1:更大。

4)Augment-S4: 结合论文《RandAugment: Practical automated data augmentation with a reduced search space》中提出的RandAugment,翻转和裁剪,以及大规模缩放操作。此处的缩放等级与Augment-S2/S3相同。

预训练后性能反而变差,自训练要取代预训练了吗?

3、预训练

为了研究预训练的有效性,作者使用了ImageNet预训练的检查点。使用EfficientNet-B7作为架构用于评估,对此模型,设置了两个不同的检查点,如下所示:

1)ImageNet:通过AutoAugment在检查点上训练EfficientNet-B7,在ImageNet上达到84.5%了的top-1准确率。

2)ImageNet ++:采用论文《Self-training with Noisy Student improves ImageNet classification》中提出的Noisy Student方法在检查点上训练EfficientNet-B7,其中利用了额外3亿张未标记的图像,并达到了86.9%的top-1准确率。

采用随机初始化训练的结果标记为Rand Init。

 

4、自训练

自训练是基于Noisy Student方法实现的,有三个步骤:

  • 在标记的数据(例如COCO数据集)上训练teacher model。

  • 使用teacher model在未标记的数据(例如ImageNet数据集)上生成伪标记。

  • 训练一个student model,以联合优化人工标签和伪标签上的损失。


     

 

4 实验

 

1、增强和标记数据集大小对预训练的影响

作者使用ImageNet进行监督预训练,并改变带标签的COCO数据集大小以研究预训练对结果的影响。实验过程中,不仅会改变标记数据的大小,而且还使用不同增强强度的数据集,使用以EfficientNet-B7为主干网络的RetinaNe模型来进行训练。

作者观察到以下几点:

1)使用高强度的数据增强时,监督预训练会损害性能:作者注意到,当他们使用如上所述的标准增强方法Augment-S1时,预训练会对结果有所帮助。但是随着增加增强的强度,预训练并未对结果有太大帮助。实际上,他们观察到,在使用最强的数据增强(Augment-S3)时,预训练会严重损害性能。

2)更多带标签的数据会降低监督预训练的价值:这不是一个新发现。我们都知道,当数据量较小时,预训练会对结果有所帮助。但是有足够数量的标记数据时,从头开始训练也不会得到很差的结果。作者发现了相同的结论,这一观点与FAIR的论文《Rethinking ImageNet Pre-training》相一致。

预训练后性能反而变差,自训练要取代预训练了吗?

我的看法:在ImageNet上训练的大多数模型都没有使用很高强度的增强方法。高强度增强数据后,模型可能无法正确收敛。实际上,模型有时可能会对增强过拟合,当然这还需要进行适当的细节研究。

 

2、增强和标记数据集大小对自训练的影响

作者使用相同的模型(使用带有EfficientNet-B7主干的RetinaNet检测器)和相同的任务(COCO数据集目标检测)来研究自训练的影响。作者使用ImageNet数据集进行自训练(这种情况下将丢弃ImageNet的原始标签)。作者观察到以下几点:

1)即使预训练对结果产生了负面影响,自训练也有助于大规模数据集和高强度增强的情况:作者发现,当使用大量数据增强时将自训练应用到随机初始化模型中,这样不仅可以提高基线结果,并且超过了同情况下预训练的结果。该实验结果如下:

预训练后性能反而变差,自训练要取代预训练了吗?

2)自训练适用于各种不同大小的数据集,并且可以看作对预训练的补充:作者发现自训练另一个有趣的方面是,它可以作为预训练的补充。简而言之,当将自训练与随机初始化模型或预训练模型结合使用时,它始终可以提高性能。在不同数据大小下,性能增益是一致的。

预训练后性能反而变差,自训练要取代预训练了吗?

但,使用ImageNet ++ 预训练时,与使用随机初始化和ImageNet预训练相比,增益相对更小。这有什么具体原因吗?

是的,ImageNet ++初始化是从检查点获得的,在该检查点使用了另外3亿张未标记的图像。

 

3、自监督预训练 vs 自训练

有监督的 ImageNet预训练会损害最大规模数据集和高强度数据增强下的训练效果。但是自监督的预训练呢?自监督学习(不带标签的预训练)的主要目标是构建一种通用的表征,这种表征可以迁移到更多类型的任务和数据集中。

为研究自监督学习的效果,作者使用了完整的COCO数据集和最高强度的增强。目的是将随机初始化与使用了SOTA自监督算法预训练的模型进行比较。在实验中使用SimCLR的检查点,然后在ImageNet上对其进行微调。由于SimCLR仅使用ResNet-50,因此RetinaNet检测器的主干网络用ResNet-50替换。结果如下:

预训练后性能反而变差,自训练要取代预训练了吗?

在这种情况下,我们观察到自监督下的预训练会损害训练效果,但自训练仍可以提高性能。

5

 

学到了什么?

 

1、预训练和通用的特征表征

我们看到,预训练(监督以及自监督)并不总可以给结果带来更好的效果。实际上,与自训练相比,预训练总是表现不佳。这是为什么?为什么ImageNet预训练的模型对COCO数据集的目标检测效果反而不好?为什么通过自监督预训练学习表征无法提高性能?

预训练并不能理解当下的任务,并可能无法适应。

分类问题比目标检测问题容易得多。在分类任务上预训练的网络是否可以获得目标检测任务所需要的所有信息?用我喜欢的表达方式来说:即使这些任务只是彼此的子集,不同的任务也需要不同级别的粒度。

 

2、联合训练

正如作者所言,自训练范式的优势之一是它可以联合监督和自训练目标进行训练,从而解决它们之间不匹配的问题。为了解决任务间由于差异导致的不匹配问题呢,我们也可以考虑联合训练的方法,例如联合训练ImageNet和COCO这两个数据集?

作者在实验中使用了与自训练相同的参数设置,发现ImageNet的预训练可获得+ 2.6AP的增益,但使用随机初始化和联合训练可获得+ 2.9AP的更大增益。而且,预训练、联合训练和自训练都是加性的。使用相同的ImageNet数据集,ImageNet的预训练获得+ 2.6AP的增益,预训练+联合训练再获得+ 0.7AP的增益,而预训练+联合训练+自训练则获得+ 3.3AP的增益。

预训练后性能反而变差,自训练要取代预训练了吗?

 

3、任务调整的重要性

正如我们在上文所见,任务调整对于提高性能非常重要。论文《Objects365: A Large-scale, High-quality Dataset for Object Detection》指出了类似的发现,在Open Images数据集上进行预训练会损害COCO的性能,尽管两者都带有边框标记。这意味着,我们不仅希望任务是相同的,而且标记最好也是相同的,以使预训练对结果真正带来益处。同时,作者指出了另外两个有趣的现象:

1)ImageNet的预训练模型,即使带有额外的人工标签,其效果也比自训练差。

2)借助高强度的数据增强方法(Augment-S4),使用PASCAL(训练+ 增强数据集)进行训练实际上会损害准确率。同时,通过对同一数据集进行自训练而生成的伪标签可提高准确性。

预训练后性能反而变差,自训练要取代预训练了吗?

 

4、自训练的可扩展性、通用性和灵活性

从作者进行的所有实验中,我们可以得出以下结论:

  • 在灵活性方面,自训练在每种条件设置下均能很好地发挥作用,无论是少数据状态、多数据状态、弱数据增强还是强数据增强。

  • 自训练不依赖于模型架构也不依赖于数据集。它可以与ResNets、EfficientNets、SpineNet等不同架构以及ImageNet、COCO、PASCAL等不同数据集很好地结合使用。

  • 一般意义上来看,无论预训练是失败还是成功,自训练效果都是很好的。

  • 在可扩展性方面,当我们拥有更多带标签的数据和更好的模型时,自训练被证明表现良好。

5、自训练的局限性

尽管自训练可以带来好处,但它也有一些局限性。

  • 与在预训练模型上进行微调相比,自训练需要消耗更多的计算量。

  • 预训练的加速范围是1.3倍至8倍,具体取决于预训练模型的质量、数据增强的强度和数据集的大小。

  • 自训练并不能完全替代迁移学习和微调,这两种技术将来也会被大量使用。

 

6 总结

《Rethinking Pre-training and Self-training》这篇论文提出了很多有关预训练、联合训练、任务调整和普遍表征的基本问题。解决这些问题比建立具有数十亿参数的模型更为重要,可以帮助我们获得更好的直觉,以了解深度神经网络做出的决策。

via https://medium.com/@nainaakash012/rethinking-pre-training-and-self-training-53d489b53cbc

 



Tags:预训练   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
编译 | JocelynWang编辑 | 丛 末早在2018年底,FAIR的研究人员就发布了一篇名为《Rethinking ImageNet Pre-training》的论文 ,这篇论文随后发表在ICCV2019。该论文提出了一些...【详细内容】
2020-07-19  Tags: 预训练  点击:(43)  评论:(0)  加入收藏
▌简易百科推荐
今天是平安夜,又称圣诞夜,即圣诞前夕,表示圣诞日的开始。关于圣诞节的几个冷知识你不一定知道。1、Jingle Bells不是圣诞节的歌“叮叮当~叮叮当~铃儿响叮当”,其实《Jingle Bell...【详细内容】
2021-12-24  夜航船船夫    Tags:平安夜   点击:(18)  评论:(0)  加入收藏
编者按:眼下,元旦和春节假期邻近,很多人开始担心,今年过节能回家吗?对此,昨日的国务院联防联控机制发布会上,国家卫健委相关负责人给出了答案。 资料来源:国务院联防联控机制发布会...【详细内容】
2021-12-20  人民网    Tags:国家卫健委   点击:(11)  评论:(0)  加入收藏
个税抵扣事关百姓“钱袋子”。近日,个人所得税APP首页热点专题版块上新“下一年度专项附加扣除开始确认”,税务部门喊话纳税人确认相关扣除信息。中国财政学会绩效管理专委会...【详细内容】
2021-12-14    证券日报  Tags:个税抵扣   点击:(12)  评论:(0)  加入收藏
钱江晚报·小时新闻记者 黄伟芬今天(12月7日)下午,杭州市召开疫情防控工作新闻发布会,通报两例新冠肺炎轻型确诊病例有关情况。萧山区北干街道龙湖春江天玺17幢列为中风险...【详细内容】
2021-12-08    钱江晚报  Tags:行程码   点击:(15)  评论:(0)  加入收藏
你的行程码,是不是带*了?行程码带星是什么意思?城市名称标有*(星号),表示您在过去14天访问过的城市中目前存在中等或高风险区域,但这并不意味着您实际访问过这些中等和高风险区域。...【详细内容】
2021-12-08    浙江日报  Tags:行程码   点击:(12)  评论:(0)  加入收藏
每经记者:李玉雯 每经编辑:段炼,廖丹近日,“明年3月1日起,微信、支付宝个人收款码不能用于经营收款”冲上热搜,在各大社交平台刷屏。《每日经济新闻》记者了解到,这一消息源自央行...【详细内容】
2021-12-03  每日经济新闻    Tags:商户码   点击:(11)  评论:(0)  加入收藏
针对新冠病毒奥密克戎变异株,国家卫生健康委组织中国疾控中心专家就有关问题进行了解答:奥密克戎变异株的发现和流行情况2021年11月9日,南非首次从病例样本中检测到一种新冠病...【详细内容】
2021-12-01    新华社  Tags:奥密克戎   点击:(17)  评论:(0)  加入收藏
自11月17日起,北京市正式实施从严从紧做好进出京管理的措施,迄今已近两周时间。按照新规定,进(返)京人员须持48小时内核酸检测阴性证明和“北京健康宝”绿码,环京通勤人员每次持14...【详细内容】
2021-11-30    新京报  Tags:出京政策   点击:(31)  评论:(0)  加入收藏
(央视财经《天下财经》)在抗击新冠疫情的战斗中,我国的科研工作者始终在与时间赛跑。最新消息显示,我国新冠特效药终于有了“时间表”,其中一款抗体组合药物最快有望于年底前获批...【详细内容】
2021-11-17    央视财经  Tags:新冠特效药   点击:(17)  评论:(0)  加入收藏
央视网消息:国家卫生健康委11月15日发布新冠疫苗加强免疫接种相关问答。问答指出,预防新冠肺炎最好的办法是接种疫苗,但接种疫苗一段时间后,疫苗对部分人员的保护效果可能会减弱...【详细内容】
2021-11-16    央广网  Tags:新冠疫苗   点击:(29)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条