您当前的位置:首页 > 电脑百科 > 人工智能

一文回顾深度学习发展史上最重要经典模型

时间:2020-08-15 11:59:35  来源:  作者:

这篇文章的目的是回顾经过时间考验的,被广泛采用的想法。我将介绍一小部分技术,这些技术涵盖了解现代深度学习研究所必需的许多基本知识。如果你是该领域的新手,那么这是一个很好的起点。

 

深度学习是一个瞬息万变的领域,大量的研究论文和想法可能会令人不知所措。即使是经验丰富的研究人员,也很难告诉公司PR什么是真正的突破。这篇文章的目的是回顾经受住时间考验的想法,这也许是人们应该依靠的唯一参考标准。这些想法或对它们的改进已被反复使用。他们已经“家喻户晓”。

 

如果你今天要开始学习深度学习,那么理解和实现这些技术中的每一个都将为你了解最新研究和开展自己的项目奠定良好的基础。这就是我认为最好的入门方法。以历史顺序浏览论文也是了解当前技术的来历以及为什么会发明它们。换句话说,我会尽量呈现最小集的想法,最必要的基本知识,了解现代的深度学习研究核心发展历程。

免费pdf好书推荐:

2020最新版《神经网络与深度学习》中文版PDF免费开放下载

刘知远老师7月新书-《自然语言处理表示学习》免费书分享

 

关于深度学习的一个相当独特的事情是它的应用领域(视觉,自然语言,语音,RL等)共享大多数技术。例如,某人曾在计算机视觉深度学习领域工作过,整个职业很快就能在NLP研究中取得成果。特定的网络体系结构可能有所不同,但是概念,方法和代码基本相同。我将尝试介绍来自各个领域的想法,但此列表有一些警告:

1. 我的目标不是为这些技术提供深入的解释或代码示例。将长篇复杂的论文总结成一个段落是不容易的。相反,我将简要概述每种技术,其历史背景以及与论文和实现的链接。如果你想学习一些东西,我强烈建议你尝试在不使用现有代码库或高级库的情况下,从头开始在原始PyTorch中重现其中的某些纸本结果。

 

2. 该列表偏向于我自己的知识和我熟悉的领域。我没有很多激动人心的子领域。我会坚持大多数人认为的主流领域,包括视觉,自然语言,语音和强化学习/游戏。

 

3. 我将只讨论具有已知能很好运行的官方或半官方开源实现的研究。有些研究不容易重现,因为它涉及巨大的工程挑战,例如DeepMind的AlphaGo或OpenAI的Dota 2 AI,因此在这里我不会重点介绍。

 

4. 有些选择是任意的。通常,大约在同一时间发布相当相似的技术。这篇文章的目的不是要进行全面的回顾,而是要使刚接触该领域的新人了解涵盖很多领域的各种观点。例如,可能有数百种GAN变体,但是要了解GAN的一般概念,你学习哪一个都没关系。

 

2012年-使用AlexNet和Dropout解决ImageNet

Papers

ImageNet Classification with Deep Convolutional Neural Networks (2012)[1]

 

Improving neural networks by preventing co-adaptation of feature detectors (2012) [2]

 

One weird trick for parallelizing convolutional neural networks (2014) [14]

 

Implementations

AlexNet in PyTorch(https://pytorch.org/hub/pytorch_vision_alexnet)

 

AlexNet in TensorFlow(https://github.com/tensorflow/models/blob/master/research/slim/nets/alexnet.py)

一文回顾深度学习发展史上最重要经典模型

 

资料来源:https : //papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

AlexNet通常被认为是导致深度学习和人工智能研究近来蓬勃发展的算法。它是基于Yann LeCun开发的早期LeNet的深度卷积神经网络。AlexNet 通过结合GPU的强大功能和先进的算法,大大超越了以前对ImageNet数据集中的图像进行分类的方法。它证明了神经网络确实有效!AlexNet也是最早使用Dropout [2]的平台之一,此后它已成为提高各种深度学习模型的泛化能力的关键组成部分。

 

AlexNet使用的体系结构,一系列卷积层,ReLU非线性和最大池化,已成为将来的计算机视觉体系结构可以扩展和建立的公认标准。如今,诸如PyTorch之类的软件库是如此强大,并且与最新的体系结构相比,AlexNet非常简单,因此仅需几行代码即可实现。注意,AlexNet的许多实现(例如上面链接的实现)都使用一种怪异的技巧中 描述的网络的细微变化来并行化卷积神经网络[14]。(https://arxiv.org/abs/1404.5997)

 

2013年-通过深度强化学习玩Atari

Papers

Playing Atari with Deep Reinforcement Learning (2013)聽[7]

 

Implementations

DQN in PyTorch(https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html

 

DQN in TensorFlow(https://www.tensorflow.org/agents/tutorials/1_dqn_tutorial)

一文回顾深度学习发展史上最重要经典模型

 

 

资料来源:https : //deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

在最近在图像识别和GPU方面取得突破的基础上,DeepMind的团队成功地训练了一个网络,可以通过原始像素输入来玩Atari游戏。而且,相同的神经网络体系结构学会了玩七种不同的游戏,而没有被告知任何特定于游戏的规则,这证明了这种方法的普遍性。

 

强化学习与“监督学习”(例如图像分类)的不同之处在于,Agent必须在多个时间步长(例如赢得比赛)中学习最大化的奖励总和,而不仅仅是预测标签。由于Agent直接与环境交互,并且每个动作都会影响环境,因此训练数据不是独立的且分布均匀(iid),这使得许多机器学习模型的训练非常不稳定。这是通过使用诸如经验重播等技术解决的[15]。

 

尽管没有明显的算法创新可以使这项工作奏效,但这项研究巧妙地结合了现有技术,在GPU上训练的卷积神经网络和体验重播,以及一些数据处理技巧,以实现大多数人无法预期的令人印象深刻的结果。这使人们有信心扩展“深度强化学习”技术,以解决更复杂的任务,例如Go,Dota 2,Starcraft 2等。

 

此后,Atari Games [21]已成为强化学习研究的标准基准。最初的方法仅解决了7场比赛(超过了人类的基准),但是在未来几年中,基于这些思想的进步将开始在越来越多的游戏上击败人类。蒙特祖玛的《复仇》是一款特别的游戏,因需要长期规划而闻名,被认为是最难解决的游戏之一。直到最近[23] [22],这些技术才在所有57款游戏中都超过了人类的水平。

 

2014年-带注意力(Attention)的编码器-解码器网络

Papers

Sequence to Sequence Learning with Neural Networks [4]

 

Neural machine Translation by Jointly Learning to Align and Translate [3]

 

Implementations

Seq2Seq with Attention in PyTorch(https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#)

 

Seq2Seq with Attention in TensorFlow(https://www.tensorflow.org/addons/tutorials/networks_seq2seq_nmt)

一文回顾深度学习发展史上最重要经典模型

 

来源:https : //ai.googleblog.com/2017/04/introducing-tf-seq2seq-open-source.html

深度学习最令人印象深刻的结果主要是与视觉相关的任务,并且是由卷积神经网络驱动的。尽管NLP社区在使用LSTM网络[16]和编码器-解码器体系结构[4]进行语言建模和翻译方面取得了成功,但直到注意力机制[3]的发明才开始取得令人瞩目的成就。

 

在处理语言时,每个token(可能是字符,单词或介于两者之间的某种事物)都会被馈送到循环网络(例如LSTM)中,该网络维护一种先前处理过的输入的memory。换句话说,一个句子与时间序列非常相似,每个token都是一个时间步。这些循环模型通常很难处理长期的依赖关系。当他们处理序列时,他们很容易“忘记”较早的输入,因为它们的梯度需要通过许多时间步长传播。使用梯度下降来优化这些模型非常困难。

 

新的注意力机制有助于缓解这一问题。它通过引入快捷方式连接为网络提供了一种在较早的时间步长自适应“回头看”的选项。这些连接使网络可以决定在生成特定输出时哪些输入很重要。典范的例子是翻译:生成输出词时,通常会映射到一个或多个特定的输入词。

免费pdf好书推荐:

2020最新版《神经网络与深度学习》中文版PDF免费开放下载

刘知远老师7月新书-《自然语言处理表示学习》免费书分享

 

2014-Adam优化器

Papers

Adam: A Method for Stochastic Optimization [12]

 

Implementations

Implementing Adam in Python(https://d2l.ai/chapter_optimization/adam.html)

 

PyTorch Adam implementation(https://pytorch.org/docs/master/_modules/torch/optim/adam.html)

 

TensorFlow Adam implementation(https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/optimizer_v2/adam.py#L32-L281)

一文回顾深度学习发展史上最重要经典模型

 

资料来源:http : //arxiv.org/abs/1910.11758

通过使用优化器使损失函数(例如平均分类误差)最小化来训练神经网络。优化器负责弄清楚如何调整网络参数以使其了解目标。大多数优化器

 

基于随机梯度下降法(SGD)的变体。但是,许多这些优化器本身都包含可调参数,例如学习率。为特定问题找到正确的设置,不仅可以减少训练时间,而且由于可以找到更好的损失函数局部最小值,因此也可以得到更好的结果。

 

大型研究实验室经常运行昂贵的超参数搜索,这些搜索带有复杂的学习速率计划,以便从简单但对超参数敏感的优化器(例如SGD)中获得最大收益。当它们超过现有基准时,有时是由于花费大量资金来优化优化器的结果。这样的细节常常在已发表的研究论文中没有提到。没有相同预算来优化其优化器的研究人员陷入了更糟糕的结果。

 

Adam优化器建议使用梯度的第一和第二阶来自动调整学习率。结果证明是非常可靠的,并且对超参数选择不太敏感。换句话说,Adam经常可以正常工作,不需要像其他优化程序一样进行广泛的调整[24]。尽管调整得非常好的SGD仍然可以获得更好的结果,但是Adam使研究更容易进行,因为如果某些事情不起作用,你就知道这不太可能是调整不当的优化器的错。

 

2014/2015-生成对抗网络(GAN)

Papers

Generative Adversarial Networks [6]

 

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [17]

 

Implementations

DCGAN in PyTorch(https://pytorch.org/tutorials/beginner/dcgan_faces_tutorial.html)

 

DCGAN in TensorFlow(https://www.tensorflow.org/tutorials/generative/dcgan)

一文回顾深度学习发展史上最重要经典模型

 

来源:https://developers.google.com/machine-learning/gan/gan_structure

生成模型(例如变体自动编码器)的目标是创建看起来逼真的数据样本,例如你可能在某处看到的这些人脸图像。因为他们必须对整个数据分布进行建模(很多像素!),而不仅仅是将猫或狗分类为判别模型,所以此类模型通常很难训练。生成对抗网络(GAN)就是这样一种模型。

 

GAN的基本思想是串联训练两个网络-生成器和鉴别器。生成器的目标是生成使鉴别器蒙蔽的样本,该样本经过训练可以区分真实图像和生成的图像。随着时间的流逝,鉴别器将在识别假货方面变得更好,但生成器也将在欺骗鉴别器方面变得更好,从而生成看起来更逼真的样本。GAN的第一次迭代会产生模糊的低分辨率图像,并且训练起来非常不稳定。但是随着时间的推移,变化和改进,例如DCGAN [17],Wasserstein GAN [25],CycleGAN [26],StyleGAN(v2)[27],以及其他许多人都基于此想法来生成高分辨率的逼真的图像和视频。

 

2015年-残差网络(ResNet)

Papers

Deep Residual Learning for Image Recognition聽[13]

 

Implementations

ResNet in PyTorch(https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py)

 

ResNet in Tensorflow(https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/Applications/resnet.py)

一文回顾深度学习发展史上最重要经典模型

 

研究人员一直在AlexNet突破的基础上发展了一段时间,发明了基于卷积神经网络的性能更好的架构,例如VGGNet [28],Inception [29]等。ResNet是这一系列快速发展中的下一个迭代。迄今为止,ResNet变体通常用作各种任务的基准模型架构,也用作更复杂的架构的基础。

 

除了在ILSVRC 2015分类挑战中获得第一名之外,ResNet 之所以与众不同,还在于其与其他网络体系结构相比的深度。本文中介绍的最深层网络具有1,000层,并且仍然表现良好,尽管在基准任务上比其101和152层对应的网络稍差。由于梯度消失了,训练这样的深度网络是一个具有挑战性的优化问题,它也出现在序列模型中。没有多少研究人员认为训练如此深的网络可以带来良好的稳定结果。

 

ResNet使用了身份快捷方式连接来帮助梯度流动。解释这些连接的一种方法是ResNet仅需要学习从一层到另一层的“增量”,这通常比学习完整的转换要容易。这种身份连接是公路网[30]中提出的连接的特例,而连接又受到LSTM使用的门控机制的启发。

 

2017-Transformer

Papers

Attention is All You Need聽[5]

 

Implementations

PyTorch: Sequence-to-Sequence Modeling with nn.Transformer and TorchText(https://pytorch.org/tutorials/beginner/transformer_tutorial.html)

 

Tensorflow: Transformer model for language understanding(https://www.tensorflow.org/tutorials/text/transformer)

 

HuggingFace Transformers Library(https://github.com/huggingface/transformers)

一文回顾深度学习发展史上最重要经典模型

 

资料来源:https : //arxiv.org/abs/1706.03762

带注意力机制的序列到序列模型(在本文的前面已经介绍过)工作得很好,但是由于它们的递归特性需要顺序计算,因此它们有一些缺点。它们很难并行化,因为它们一次只处理一步。每个时间步取决于上一个。这也使得很难将它们缩放到非常长的序列。即使有了他们的注意力机制,他们仍然在建模复杂的远程依赖项方面仍在挣扎。大多数“工作”似乎都是在循环层中完成的。

 

Transformer解决了这些问题,方法是完全消除重复现象,并用多个前馈自我关注层代替它,并行处理所有输入,并在输入和输出之间产生相对较短的路径(使用梯度下降易于优化)。这使他们真正快速地训练,易于扩展并且能够处理更多数据。为了告诉网络有关输入的顺序(在递归模型中是隐式的),Transformers使用了位置编码[19]。要了解有关Transformer工作原理的更多信息(一开始可能会有些困惑),我建议你使用图示指南。

 

要说Transformer比几乎任何人都预期的要好,那是轻描淡写。在接下来的几年中,它们将成为绝大多数NLP和其他序列任务的标准体系结构,甚至进入计算机视觉体系结构。

 

2018年-BERT和经过微调的NLP模型

Papers

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [9]

 

Implementations

Fine-Tuning BERT with HuggingFace(https://huggingface.co/transformers/training.html)

一文回顾深度学习发展史上最重要经典模型

 

预训练是指训练模型以执行某些任务,然后将学习到的参数用作初始化以学习相关任务。这具有直觉的意义-已经学会将图像分类为猫或狗的模型应该已经了解了有关图像和毛茸茸的动物的一般知识。当对该模型进行微调以对狐狸进行分类时,我们希望它比必须从头学习的模型做得更好。类似地,已经学会预测句子中下一个单词的模型应该已经学会了有关人类语言模式的一般知识。我们希望它对于相关任务(如翻译或情感分析)是一个很好的初始化方法。

 

预训练和微调已在Computer Vision和NLP中成功使用,但是很长一段时间以来它一直是视觉标准,但使其在NLP中正常工作似乎更具挑战性。大多数最新结果仍来自完全受监督的模型。随着Transformer的出现,研究人员终于开始进行预培训工作,从而产生了诸如ELMo [34],ULMFiT [35]和OpenAI的GPT之类的方法。

 

BERT是此类开发的最新成果,许多人认为它已经开启了NLP研究的新纪元。像大多数其他模型一样,它没有经过预测其他单词的预训练,而是预测了句子中任何地方的被屏蔽(有意删除)的单词,以及两个句子是否可能彼此跟随。请注意,这些任务不需要标记的数据。它可以在任何文本上进行训练,而且很多!这个预先训练的模型可能已经学习了一些关于语言的一般属性,然后可以对其进行微调以解决监督任务,例如问题回答或情绪预测。BERT在各种各样的任务中都表现出色。HuggingFace等公司轻松下载和微调针对任何NLP任务的类似BERT的模型。从那时起,BERT就建立在诸如XLNet [31]和RoBERTa [32]和ALBERT [33]的发展之上。

 

2019/2020年及以后-BIG语言模型,自监督学习?

整个深度学习历史上最明显的趋势也许就是惨痛的教训。更好的并行化(=更多数据)和更多模型参数的算法进步一次又一次地赢得了“更智能的技术”。这种趋势似乎延续到2020,其中GPT-3 ,通过OpenAI一个巨大的175十亿参数语言模型,显示了出乎意料的良好的泛化能力,尽管它的简单训练目标和标准架构。

 

同样的趋势是诸如对比自监督学习(例如SimCLR)之类的方法,它们可以更好地利用未标记的数据。随着模型变得越来越大,训练起来越来越快,可以有效利用Web上大量未标记数据并学习可以转移到其他任务的通用知识的技术变得越来越有价值并被广泛采用。



Tags:深度学习   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
现如今,谈起人工智能我们都会想到的是“深度学习”(deep learning),无论是战胜李世石的AlphaGo,还是能够随意写出人类水平文章的GPT-3,它们的背后都依托的是这套算法。 它具有很好...【详细内容】
2021-09-14  Tags: 深度学习  点击:(104)  评论:(0)  加入收藏
0 前言大家好,欢迎来到“自由技艺”的知识小馆。今天我们来探讨下深度学习中的 Attention 机制,中文名为“注意力”。本文内容结构组织如下:1 为什么需要引入 Attention 机制?2...【详细内容】
2021-06-09  Tags: 深度学习  点击:(149)  评论:(0)  加入收藏
微信正用着的深度学习框架,现在你也可以上手试一试了。 就在最近,腾讯把这个名叫deepx_core的深度学习基础库正式对外开源。 相比于PyTorch、TensorFlow等流行深度学习框架,这位选手不仅具有通用性,还针对高维稀疏数据...【详细内容】
2021-04-06  Tags: 深度学习  点击:(205)  评论:(0)  加入收藏
为深度学习项目建立一个良好的环境不是一件容易的任务。因为需要处理的事情太多了:库必须匹配特定的版本,整个环境需要可以复制到其他机器上,所有东西都需要能够机器中的所有...【详细内容】
2021-03-05  Tags: 深度学习  点击:(96)  评论:(0)  加入收藏
深度学习是机器学习的一个子领域,它采用了一个特定的模型:一族通过某种方式连接起来的简单函数。由于这类模型的结构是受到人类大脑结构的启发而创造出来的...【详细内容】
2021-02-26  Tags: 深度学习  点击:(269)  评论:(0)  加入收藏
基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展。如今,它被用于图像分类、人脸识别、图像中物体的识别、视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用上。...【详细内容】
2021-01-07  Tags: 深度学习  点击:(87)  评论:(0)  加入收藏
什么是深度学习深度学习有如下一些众所周知且被广泛接受的定义。(1)深度学习是机器学习的子集。(2)深度学习使用级联的多层(非线性)处理单元,称为人工神经网络(ANN),以及受大脑结构和...【详细内容】
2020-12-07  Tags: 深度学习  点击:(184)  评论:(0)  加入收藏
本文将介绍在 Windows 计算机上配置深度学习环境的全过程,其中涉及安装所需的工具和驱动软件。出人意料的是,即便只是配置深度学习环境,任务也不轻松。你很有可能在这个过程中犯错。我个人已经很多次从头开始配置深度学...【详细内容】
2020-12-02  Tags: 深度学习  点击:(97)  评论:(0)  加入收藏
一代深度学习框架研究于璠华为技术有限公司摘要:从人工智能的历史出发,简述深度学习发展历程以及目前的挑战,通过介绍新一代深度学习框架的特点,分析总体框架,阐述自动并行、自动...【详细内容】
2020-11-10  Tags: 深度学习  点击:(94)  评论:(0)  加入收藏
HelloGitHub 推出的《讲解开源项目》 系列。这一期是由亚马逊工程师:Keerthan Vasist,为我们讲解 DJL(完全由 Java 构建的深度学习平台)系列的第 4 篇。...【详细内容】
2020-11-03  Tags: 深度学习  点击:(86)  评论:(0)  加入收藏
▌简易百科推荐
作为数据科学家或机器学习从业者,将可解释性集成到机器学习模型中可以帮助决策者和其他利益相关者有更多的可见性并可以让他们理解模型输出决策的解释。在本文中,我将介绍两个...【详细内容】
2021-12-17  deephub    Tags:AI   点击:(15)  评论:(0)  加入收藏
基于算法的业务或者说AI的应用在这几年发展得很快。但是,在实际应用的场景中,我们经常会遇到一些非常奇怪的偏差现象。例如,Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】
2021-11-08  数据学习DataLearner    Tags:机器学习   点击:(32)  评论:(0)  加入收藏
11月2日召开的世界顶尖科学家数字未来论坛上,2013年诺贝尔化学奖得主迈克尔·莱维特、2014年诺贝尔生理学或医学奖得主爱德华·莫索尔、2007年图灵奖得主约瑟夫·斯发斯基、1986年图灵奖得主约翰·霍普克罗夫特、2002...【详细内容】
2021-11-03  张淑贤  证券时报  Tags:人工智能   点击:(39)  评论:(0)  加入收藏
鉴于物联网设备广泛部署、5G快速无线技术闪亮登场,把计算、存储和分析放在靠近数据生成的地方来处理,让边缘计算有了用武之地。 边缘计算正在改变全球数百万个设备处理和传输...【详细内容】
2021-10-26    计算机世界  Tags:边缘计算   点击:(45)  评论:(0)  加入收藏
这是几位机器学习权威专家汇总的725个机器学习术语表,非常全面了,值得收藏! 英文术语 中文翻译 0-1 Loss Function 0-1损失函数 Accept-Reject Samplin...【详细内容】
2021-10-21  Python部落    Tags:机器学习   点击:(43)  评论:(0)  加入收藏
要开始为开源项目做贡献,有一些先决条件:1. 学习一门编程语言:由于在开源贡献中你需要编写代码才能参与开发,你需要学习任意一门编程语言。根据项目的需要,在后期学习另一种语言...【详细内容】
2021-10-20  TSINGSEE青犀视频    Tags:机器学习   点击:(37)  评论:(0)  加入收藏
SimpleAI.人工智能、机器学习、深度学习还是遥不可及?来这里看看吧~ 从基本的概念、原理、公式,到用生动形象的例子去理解,到动手做实验去感知,到著名案例的学习,到用所学来实现...【详细内容】
2021-10-19  憨昊昊    Tags:神经网络   点击:(47)  评论:(0)  加入收藏
语言是人类思维的基础,当计算机具备了处理自然语言的能力,才具有真正智能的想象。自然语言处理(Natural Language Processing, NLP)作为人工智能(Artificial Intelligence, AI)的核心技术之一,是用计算机来处理、理解以及运...【详细内容】
2021-10-11    36氪  Tags:NLP   点击:(48)  评论:(0)  加入收藏
边缘计算是什么?近年来,物联网设备数量呈线性增长趋势。根据艾瑞测算, 2020年,中国物联网设备的数量达74亿,预计2025年突破150亿个。同时,设备本身也变得越来越智能化,AI与互联网在...【详细内容】
2021-09-22  汉智兴科技    Tags:   点击:(54)  评论:(0)  加入收藏
说起人工智能,大家总把它和科幻电影中的机器人联系起来,而实际上这些科幻场景与现如今的人工智能没什么太大关系。人工智能确实跟人类大脑很相似,但它们的显著差异在于人工智能...【详细内容】
2021-09-17  异步社区    Tags:人工智能   点击:(57)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条