您当前的位置:首页 > 电脑百科 > 人工智能

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

时间:2022-02-24 15:10:12  来源:  作者:新智元

编辑:LRS

【新智元导读】神经网络越大越好几乎已成了共识,但这种想法和传统的函数拟合理论却相悖。最近微软的研究人员在NeurIPS上发表了一篇论文,用数学证明了大规模神经网络的必要性,甚至应该比预期的网络规模还大。

 

当神经网络的研究方向逐渐转为超大规模预训练模型,研究人员的目标似乎变成了让网络拥有更大的参数量,更多的训练数据,更多样化的训练任务。

 

当然,这个措施确实很有效,随着神经网络越来越大,模型了解和掌握的数据也更多,在部分特定任务上已经超越人类。

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

 

但在数学上,现代神经网络的规模实际上有些过于臃肿了,参数量通常远远超过了预测任务的需求,这种情况也被称为过度参数化(overparameterization)。

 

NeurIPS上的一篇论文中最近就这一现象提出了一种全新的解释。他们认为这种比预期规模更大的神经网络是完全有必要的,只有这样才能避免某些基本问题,这篇论文中的发现也为这一问题提供一种更通用的见解。

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

 

论文地址:https://arxiv.org/abs/2105.12806

 

文章的第一作者Sébastien Bubeck在MSR Redmond管理机器学习基础研究组,主要在机器学习和理论计算机科学中跨越各种主题进行交叉研究。

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

 

神经网络就该这么大

 

神经网络的一项常见任务是识别图像中的目标对象。

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

 

为了创建一个能够完成该任务的网络,研究人员首先为其提供许多图像和对应目标标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的目标。

 

换句话说,训练过程使得神经网络记住了这些数据。

 

并且,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签,这个过程称为泛化。

 

网络的大小决定了它能记忆多少东西。

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

 

可以用图形化的空间来理解。假设有两个数据点,把它们放在一个XY平面上,可以用一条由两个参数描述的线来连接这些点:线的斜率和它与纵轴相交时的高度。如果其他人也知道这条直线的参数,以及其中一个原始数据点的X坐标,他们可以通过观察这条直线(或使用参数)来计算出相应的Y坐标。

 

也就是说,这条线已经记住了这两个数据点,神经网络做的就是差不多类似的事情。

 

例如,图像是由成百上千的数值描述的,每个像素都有一个对应的值。可以把这个由许多自由值组成的集合在数学上相当于高维空间中一个点的坐标,坐标的数量也称为维度。

 

传统的数学结论认为,要用一条曲线拟合n个数据点,你需要一个有n个参数的函数。例如,在直线的例子中,两个点是由一条有两个参数的曲线描述的。

 

当神经网络在20世纪80年代首次作为一种新模型出现时,研究人员也这么认为,应该只需要n个参数来适应n个数据点,而跟数据的维度无关。

 

德克萨斯大学奥斯汀分校的Alex Dimakis表示,现在实际情况已经不是这样了,神经网络的参数数量远远超过了训练样本的数量,这说明了教科书上的内容必须得重写进行修正。

 

研究人员正在研究神经网络的鲁棒性(robustness),即网络处理小变化的能力。例如,一个不鲁棒的网络可能已经学会了识别长颈鹿,但它会把一个几乎没有修改的版本误标为沙鼠。

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

 

2019年,Bubeck和同事们正在寻求证明关于这个问题的定理,当时他们就意识到这个问题与网络的规模有关。

 

在他们的新证明中,研究人员表明,过度参数化对于网络的鲁棒性是必要的。他们提出平滑性(smoothness),来指出需要多少个参数才能用一条具有等同于鲁棒性的数学特性的曲线来拟合数据点。

 

要想理解这一点,可以再次想象平面上的一条曲线,其中x坐标代表一个像素的颜色,y坐标代表一个图像标签。

 

由于曲线是平滑的,如果你稍微修改一下像素的颜色,沿着曲线移动一小段距离,相应的预测值只会有少量的变化。另一方面,对于一条锯齿状的曲线,X坐标(颜色)的微小变化会导致Y坐标(图像标签)的巨大变化,长颈鹿可以变成沙鼠。

 

Bubeck和Sellke在论文中证明,平滑拟合高维数据点不仅需要n个参数,而且需要n×d个参数,其中d是输入的维度(例如,784个像素的图像输入维度为784)。

 

换句话说,如果你想让一个网络稳健地记住它的训练数据,过度参数化不仅是有帮助的,而且是必须的。该证明依赖于一个关于高维几何的事实,即随机分布在球体表面的点几乎都是彼此相距一个直径的距离,点与点之间的巨大间隔意味着用一条光滑的曲线来拟合它们需要许多额外的参数。

神经网络为何越大越好?NeurIPS论文证明:鲁棒性是泛化的基础

 

耶鲁大学的Amin Karbasi称赞论文中的证明是非常简洁的,没有大量的数学公式,而且它说的是非常通用的内容。

 

这一证明结果也为理解为什么扩大神经网络的简单策略如此有效提供了一个新的途径。

 

其他研究揭示了过量参数化有帮助的其他原因。例如,它可以提高训练过程的效率,也可以提高网络的泛化能力。

 

虽然我们现在知道过量参数化对鲁棒性是必要的,但还不清楚鲁棒性对其他事情有多大必要。但通过将其与过度参数化联系起来,新的证明暗示鲁棒性可能比人们想象的更重要,这也可能为其他解释大模型的益处研究做铺垫。

 

鲁棒性确实是泛化的一个先决条件,如果你建立了一个系统,只是轻微地扰动它,然后它就失控了,那是什么样的系统?显然是不合理的。

 

所以,Bubeck认为这是一个非常基础和基本的要求。

 

参考资料:

https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural.NETworks-do-better-20220210/



Tags:神经网络   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
图神经网络中的动态图结构建模方法研究
图神经网络是一种能够处理图结构数据的人工智能模型,近年来在图像识别、社交网络分析等领域取得了显著的成果。然而,传统的图神经网络往往只能处理静态图结构,无法有效地建模动...【详细内容】
2023-11-28  Search: 神经网络  点击:(175)  评论:(0)  加入收藏
神经网络优化算法的新思路:从梯度下降到自适应学习率
神经网络的优化是深度学习中的关键问题之一。传统的优化算法,如梯度下降,虽然在训练神经网络时取得了一定的成功,但其存在一些问题,如学习率的选择困难、收敛速度慢等。为了克服...【详细内容】
2023-11-16  Search: 神经网络  点击:(132)  评论:(0)  加入收藏
Photoshop2024版带神经网络滤镜安装教程
PS正式版目前更新到了2024,版本为25.0。下面演示下,怎样安装。安装步骤1、下载得到安装包后,先解压。鼠标右键,【解压到当前文件夹】2、双击 Set-up 开始安装3、这里可以更改安...【详细内容】
2023-11-15  Search: 神经网络  点击:(319)  评论:(0)  加入收藏
科学家研发出具有类似人类系统泛化能力神经网络
中新网北京10月26日电 (记者 孙自法)人工智能(AI)能像人类一样思考吗?国际著名学术期刊《自然》最新发表一篇计算机科学论文称,研究人员研发出一个具有类似人类系统泛化(syste...【详细内容】
2023-10-26  Search: 神经网络  点击:(210)  评论:(0)  加入收藏
从测度传输的角度来理解和利用神经网络的重要性
神经网络作为深度学习的核心算法,已经在各个领域实现了突破性的应用。然而,我们可以从另一个角度来理解神经网络的重要性,即测度传输(measuretransport)的角度。本文将介绍测度传...【详细内容】
2023-09-27  Search: 神经网络  点击:(289)  评论:(0)  加入收藏
可以接受任意尺寸图像的全卷积神经网络
全卷积神经网络(FullyConvolutional NeuralNetwork,简称FCN)是一种可以接受任意尺寸图像的深度学习模型,它在语义级别的图像分割任务中得到了广泛应用。相较于传统的神经网络结...【详细内容】
2023-09-27  Search: 神经网络  点击:(253)  评论:(0)  加入收藏
走进图像分割的神奇世界:卷积神经网络探秘
图像分割是计算机视觉领域的重要任务,其目标是将一幅图像划分成具有语义信息的不同区域。在图像分割方法中,基于传统的卷积神经网络(CNN)的方法具有广泛的应用。本文将介绍基于...【详细内容】
2023-09-26  Search: 神经网络  点击:(208)  评论:(0)  加入收藏
解决梯度消失问题的神经网络结构及其广泛应用
Highway网络是一种特殊的神经网络结构,旨在解决深度神经网络中的梯度消失问题。它通过引入门控机制,允许网络选择性地传递输入信号或学习到的特征,从而提高网络的学习能力和表...【详细内容】
2023-09-26  Search: 神经网络  点击:(310)  评论:(0)  加入收藏
前馈神经网络中的多层感知器是什么?
在当今数据驱动的世界中,机器学习的应用愈发广泛,而前馈神经网络(FeedforwardNeural Network)作为一种重要的模型结构,在处理各类复杂问题中表现出色。其中,多层感知器(MultilayerP...【详细内容】
2023-09-25  Search: 神经网络  点击:(290)  评论:(0)  加入收藏
马斯克机器人大进化!全新技能解锁,启用端到端神经网络
马斯克的机器人大进化。一年前首次上台时动作还略显僵硬,现在居然成了瑜伽大师。还用上了自动驾驶系统同款的端到端神经网络架构,无需任何规则代码就学会分拣物品。用马斯克自...【详细内容】
2023-09-25  Search: 神经网络  点击:(132)  评论:(0)  加入收藏
▌简易百科推荐
ChatGPT 应用商店?可能是一个万能应用程序!
OpenAI 在去年 11 月召开了一次开发者大会,首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示,它将很快推出一个市场,开发人员和非技术人员...【详细内容】
2024-04-12  视角先锋队    Tags:ChatGPT   点击:(8)  评论:(0)  加入收藏
Kyligence发布企业级AI解决方案!AI数智助理降低数据使用门槛
智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道,昨日大数据分析和指标平台供应商Kyligence(硅智信息)召开了数智论坛暨春季发布会,并分享和探讨Data+AI产品及解决方案在金...【详细内容】
2024-04-12    智东西  Tags:Kyligence   点击:(7)  评论:(0)  加入收藏
百度Create AI剧透:“三大开发神器”升级,模型增至77个,三步即可生成应用
智东西(公众号:zhidxcom)作者| 香草编辑| 李水青智东西4月11日报道,今日,在百度Create AI开发者大会预沟通会上,百度披露了“三大开发神器”AgentBuilder、AppBuilder、ModelBuild...【详细内容】
2024-04-12    智东西  Tags:Create AI   点击:(5)  评论:(0)  加入收藏
李彦宏最新内部讲话:开源大模型不如闭源,后者会持续领先
界面新闻记者 | 李如嘉界面新闻编辑 | 宋佳楠4月11日,界面新闻获悉,百度创始人、董事长兼首席执行官李彦宏在一场内部讲话中首次谈及文心大模型为何不开源,以及对于大模型开源...【详细内容】
2024-04-12    界面  Tags:李彦宏   点击:(5)  评论:(0)  加入收藏
AI未来或超越“最聪明的人”?专家谈发展如何兼顾公平
中新社北京4月11日电 (记者 马帅莎)到明年底或2026年,人工智能(AI)或超越“最聪明的人”,美国知名企业家埃隆·马斯克近日对人工智能的这一大胆猜想引起关注,这比他去年...【详细内容】
2024-04-12    中国新闻网  Tags:AI   点击:(5)  评论:(0)  加入收藏
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(5)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(10)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(7)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(7)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(5)  评论:(0)  加入收藏
站内最新
站内热门
站内头条