深度学习优化算法研究取得进展

时间：2022-03-30 15:25:16 来源：中科院之声作者：

近年来，在材料科学、人工智能芯片等前沿领域，深度学习受到广泛的研究和应用。具体来说，深度学习通过学习样本数据的内在规律和表示层次实现机器像人一样具有分析和学习的能力，因而在材料科学研究中可以帮助分析高维、非线性的特征数据；在人工智能芯片研发中可以提供高效、通用的网络模型。区别于传统的浅层学习，深度学习一般具有深层的神经网络模型结构，比如目前最复杂的深度模型BERT含有1亿个以上的参数。因此，深度模型的训练（也就是求解模型的参数）一直是一项具有挑战性的任务。

一般来说，求解深度模型参数的训练算法具有两个重要的性能指标：算法的收敛速度和泛化能力。目前，应用较广泛的训练算法是随机梯度下降算法（SGD）和学习率自适应的随机梯度下降算法（如Adam和AdaBelief），其中SGD具有良好的泛化能力，但是收敛速度缓慢；Adam和AdaBelief具有较快的收敛速度，但是泛化能力不如SGD。因此，使优化算法同时具备良好的泛化能力和快速的收敛速度是深度学习领域内的研究热点之一。

中国科学院苏州纳米技术与纳米仿生研究所研究员刘欣等针对学习率自适应的随机梯度下降算法Adabief在强凸条件下的收敛速度是否可以进一步提高的问题进行了首次尝试，并给出了肯定的答案。团队利用损失函数的强凸性，提出了一种新的算法FastAdaBelief（图1），该算法在保持良好的泛化能力的同时，具有更快的收敛速度。

图1 FastAdaBelief算法伪代码

该团队根据理论证明的结果，进行了一系列的实验研究，验证了所提出的算法的优越性。首先，在softmax回归问题上的实验验证了FastAdaBelief比其他算法的收敛速度更快（图2）；然后，在CIFAR-10数据集上完成了多组图像分类任务，结果表明，在实验对比算法中，FastAdaBelief具有最快的收敛速度（图3），并且具有最好的泛化能力（图4）；最后，在Penn Treebank数据集上的文本预测任务中，FastAdaBelief算法可以最快训练出深度模型，并且得出的模型具有最小的混沌度（图5）。重要的是，该团队发现FastAdaBelief在损失函数为强凸和非凸的情况下收敛速度都是最快的，因此证明了它作为一种新的基准优化算法的巨大潜力，可以广泛应用于各种深度学习场景中。

图2 softmax回归问题中各算法的收敛速度对比

图3 CIFAR-10数据集上各算法的收敛速度对比

图4 CIFAR-10数据集上各算法的泛化能力对比

图5 Penn Treebank数据集上各算法的收敛速度对比

该研究工作从理论上证明了FastAdaBelief的收敛速度比其他自适应优化算法快，并且通过大量实验验证了该算法的泛化能力比其他自适应优化算法强，这可以帮助完成很多场景下的深度模型训练任务，尤其是在样本数据短缺、硬件计算算力不足的情况下。因此，在材料科学研究领域和人工智能芯片研发领域都具有很大的应用前景。

相关工作以FastAdaBelief: Improving Convergence Rate for Belief-based Adaptive Optimizers by Exploiting Strong Convexity为题发表在IEEE Transactions on Neural.NETworks and Learning Systems上。

来源：中国科学院苏州纳米技术与纳米仿生研究所

Tags：深度学习点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

深度学习中的梯度裁剪策略比较

在深度学习的训练过程中，梯度裁剪是一种常用的技术，用于防止梯度爆炸问题，即梯度的值变得非常大，导致模型训练不稳定。梯度裁剪通过限制梯度的最大值或最小值，帮助模型更稳定地收...【详细内容】

2024-03-05　　Search: 深度学习点击:(33)　　评论:(0)　　加入收藏

深度学习的未来：趋势和新兴技术

深度学习是人工智能(AI)的一个子集，持续推动技术进步，塑造机器感知、分析和响应数据的方式。本文将探索将在未来几年重新定义人工智能格局的最新趋势和新兴技术。模型规模指数...【详细内容】

2024-02-19　　Search: 深度学习点击:(55)　　评论:(0)　　加入收藏

基于深度学习的虚拟现实图像生成技术研究与应用

随着虚拟现实（VirtualReality，简称VR）技术的快速发展，人们对于逼真、沉浸式的虚拟体验需求不断增加。而虚拟现实图像生成是VR技术中的重要环节之一，它通过模拟和生成逼真的虚拟场...【详细内容】

2024-01-04　　Search: 深度学习点击:(148)　　评论:(0)　　加入收藏

深度学习框架解读—Yolov5/Yolov7/Halcon对比分析

作为一名机器视觉深度学习算法工程师，我从技术实现、性能、适用场景和易用性等方面来评价YOLOv5、YOLOv7和Halcon中的深度学习框架。以YOLOv5和YOLOv7进行比较，并结合Halcon的...【详细内容】

2024-01-03　　Search: 深度学习点击:(49)　　评论:(0)　　加入收藏

基于深度学习的人体姿态估计技术探索

人体姿态估计是计算机视觉领域的重要研究方向之一，旨在通过对图像或视频中人体姿势的分析和理解，推测出人体的关节点位置和姿态信息。近年来，随着深度学习技术的进步和应用，基于...【详细内容】

2024-01-02　　Search: 深度学习点击:(82)　　评论:(0)　　加入收藏

深度学习中的图像生成对抗攻击与防御方法综述

随着深度学习技术的快速发展，图像生成对抗攻击成为了一个备受关注的研究领域。图像生成对抗攻击是指通过对抗样本的生成，欺骗深度学习模型，使其产生错误的分类结果。为了应对这...【详细内容】

2023-11-28　　Search: 深度学习点击:(251)　　评论:(0)　　加入收藏

面向时间序列数据的深度学习应用综述

时间序列数据是指按照时间顺序排列的数据集合，如股票价格、气象数据、交通流量等。深度学习作为一种强大的机器学习技术，已经在时间序列数据分析中取得了显著的成果。本文将对...【详细内容】

2023-11-27　　Search: 深度学习点击:(113)　　评论:(0)　　加入收藏

深度学习之模型压缩、加速模型推理

简介当将一个机器学习模型部署到生产环境中时，通常需要满足一些在模型原型阶段没有考虑到的要求。例如，在生产中使用的模型将不得不处理来自不同用户的大量请求。因此，您将希望...【详细内容】

2023-11-20　　Search: 深度学习点击:(206)　　评论:(0)　　加入收藏

深度学习模型与人类认知的对比与解释

深度学习模型是近年来人工智能领域的热门研究方向，其在图像识别、自然语言处理等任务上取得了令人瞩目的成果。然而，与人类认知相比，深度学习模型仍存在一些差距。本文将探讨深...【详细内容】

2023-11-17　　Search: 深度学习点击:(163)　　评论:(0)　　加入收藏

超大规模数据下的分布式深度学习模型训练技术

随着互联网和物联网的快速发展，数据规模呈现爆炸式增长。在这样的背景下，如何高效地训练深度学习模型成为了一个亟待解决的问题。传统的深度学习模型训练方式往往需要大量的计...【详细内容】

2023-11-08　　Search: 深度学习点击:(260)　　评论:(0)　　加入收藏

▌简易百科推荐

AI圈公开的秘密：天下模型一大抄

抄袭已经成为AI世界公开的秘密。据The Information周一的文章，许多初创公司的AI聊天机器人很可能是采用了OpenAI和其他公司的数据开发的。这些机器人在某些任务上可以媲美GPT...【详细内容】

2024-04-17　　　　华尔街见闻　　Tags:AI圈　点击:(3)　　评论:(0)　　加入收藏

“AI+”进入中学课堂，家长何以很矛盾？

据4月15日《中国青年报》报道，近年来，随着ChatGPT等模型的快速迭代，生成式人工智能(AIGC)技术逐渐成为大众广泛关注的焦点。新技术的发展给各行各业带来新的可能和挑战，对教育领...【详细内容】

2024-04-17　　　　工人日报　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

Sora加入Adobe全家桶，视频改图加戏样样行

基于 Adobe 自己的大模型 Firefly 的能力，可以在视频素材上直接添加或减少内容，转场时感觉少点烘托背景的镜头，用 OpenAI 的 Sora 可以自动生成一段。Adobe 全家桶马上就要拥有...【详细内容】

2024-04-16　　　　机器之心　　Tags:Sora 　点击:(2)　　评论:(0)　　加入收藏

光明日报：孩子用AI写作业，该担忧吗？

随着科技的发展，人工智能技术不断得到拓展与完善。而今，文字输出、信息检索、方案优化，乃至居家生活，越来越多的人已经离不开AI的帮助。与此同时，根据媒体报道，近期，一些“独具慧眼...【详细内容】

2024-04-16　　　　光明日报　　Tags:AI写作业　点击:(5)　　评论:(0)　　加入收藏

“弱智吧”成最佳中文AI语料库，究竟什么算优质数据？

出品｜搜狐科技作者｜郑松毅谁能想到，被誉为“最大原创段子手孵化地”的弱智吧，最近竟摇身一变成了——最佳中文AI训练语料库？由此受到启发，是否并不是训练AI的优质数据不...【详细内容】

2024-04-16　　搜狐科技　　　　Tags:优质数据　点击:(3)　　评论:(0)　　加入收藏

ChatGPT 应用商店？可能是一个万能应用程序！

OpenAI 在去年 11 月召开了一次开发者大会，首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示，它将很快推出一个市场，开发人员和非技术人员...【详细内容】

2024-04-12　　视角先锋队　　　　Tags:ChatGPT 　点击:(9)　　评论:(0)　　加入收藏

Kyligence发布企业级AI解决方案！AI数智助理降低数据使用门槛

智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道，昨日大数据分析和指标平台供应商Kyligence（硅智信息）召开了数智论坛暨春季发布会，并分享和探讨Data+AI产品及解决方案在金...【详细内容】

2024-04-12　　　　智东西　　Tags:Kyligence 　点击:(7)　　评论:(0)　　加入收藏

百度Create AI剧透：“三大开发神器”升级，模型增至77个，三步即可生成应用

智东西（公众号：zhidxcom）作者| 香草编辑| 李水青智东西4月11日报道，今日，在百度Create AI开发者大会预沟通会上，百度披露了“三大开发神器”AgentBuilder、AppBuilder、ModelBuild...【详细内容】

2024-04-12　　　　智东西　　Tags:Create AI 　点击:(7)　　评论:(0)　　加入收藏

李彦宏最新内部讲话：开源大模型不如闭源，后者会持续领先

界面新闻记者 | 李如嘉界面新闻编辑 | 宋佳楠4月11日，界面新闻获悉，百度创始人、董事长兼首席执行官李彦宏在一场内部讲话中首次谈及文心大模型为何不开源，以及对于大模型开源...【详细内容】

2024-04-12　　　　界面　　Tags:李彦宏　点击:(8)　　评论:(0)　　加入收藏

AI未来或超越“最聪明的人”？专家谈发展如何兼顾公平

中新社北京4月11日电 (记者马帅莎)到明年底或2026年，人工智能(AI)或超越“最聪明的人”，美国知名企业家埃隆·马斯克近日对人工智能的这一大胆猜想引起关注，这比他去年...【详细内容】

2024-04-12　　　　中国新闻网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

推荐资讯

Create 2024百度AI开	“刘强东”当主播，扶得
AI圈公开的秘密：天下模	聚焦“一房二卖”等问
今年买二手房最划算？70	周鸿祎力挺手机支架
Android 15 有望引入	全球首个AI程序员Devi