您当前的位置:首页 > 电脑百科 > 硬件技术 > 硬件知识

为什么AI计算一定要用GPU?

时间:2024-04-25 10:48:36  来源:  作者:了不起的云计算

随着ChatGPT大火,GPU成为了目前最热单品,一个顶级的GPU可以卖到数万美元。由于对其产品的需求激增,英伟达(NVIDIA)的市场估值更是飙升至2万亿美元以上。

你有没有好奇:为什么AI会带火GPU?AI计算一定要用GPU吗?

今天我们就来一起聊一下GPU到底是什么?

▉ 什么是GPU,与CPU有何区别?

在GPU火之前,提到最多的就是CPU,那么二者有什么区别呢?CPU是不是会被GPU取代呢?

下面我们来看下二者的具体区别:

CPU是Central Processing Unit的错写,CPU通常被称为计算机的"大脑",主要来承担计算的处理功能,操作系统和应用程序运行等操作都必须依赖它来进行,CPU 还决定着计算机的整体速度。

GPU是Graphics Processing Unit的缩写,其最初的设计是用于辅助3D渲染,能同时并行更多指令,其非常适合现在比较热门的动漫渲染、图像处理、人工智能等工作负载。

简单来说,CPU是为延迟优化的,而GPU则是带宽优化的。CPU更善于一次处理一项任务,而且GPU则可以同时处理多项任务。就好比有些人善于按顺序一项项执行任务,有些人可同时进行多项任务。

为演示 CPU 与 GPU 的不同,英伟达曾经邀请亚当·萨维奇 (Adam Savage) 和杰米·海尼曼 (Jamie Hyneman) 利用机器人技术和彩弹再现了一幅广为人知的艺术作品--蒙娜丽莎的微笑。这个视频充分展示了CPU和GPU工作的过程。如下面的视频:

了不起的云计算

,赞

60

可以通过打比方来通俗的解释二者的区别。CPU就好比一辆跑车,而GPU则相当于一辆货车,二者的任务都是从A位置将100 Packages运送到B位置,CPU(跑车)可以在RAM中快速获取一些内存数据(货物),而GPU(货车)执行速度较慢(延迟更高)。但是CPU(跑车)每次只能运送2 Packages,需要50次才能运送完成。

然而GPU(货车)则可以一次获取更多内存数据进行运输。

换句话说,CPU更倾向于快速处理少量数据(例如算术运算:5*6*7),GPU更擅长处理大量重复数据(例如矩阵运算:(A*B)*C)。因此,虽然CPU单次运送的时间更快,但是在处理图像处理、动漫渲染、深度学习这些需要大量重复工作负载时,GPU优势就越显著。

目前AI计算的数据类型跟图像处理,深度学习的类型更相似,这也是导致GPU供不应求的重要原因。

那么是什么CPU和GPU有何不同呢?那还具体来看一下。

▉ GPU和CPU有何不同?

首先是二者架构核心不同

通过下面两张图可以有助于我们理解CPU和GPU工作方式的不同。上文中我们提到,CPU是为顺序的串行处理而设计的,GPU则是为数据的并行而设计的,GPU有成百上千个更小、更简单的内容,而CPU则是有几个大而复杂的内核。

GPU内核经过优化,可以同时对多个数据元素进行类似的简单处理操作。而且CPU则针对顺序指令处理进行了优化,这也导致二者的核心处理能力的不同。

网上有一个比喻用来比较 GPU 和 CPU 核心的区别,我觉得非常贴切,CPU的核心像学识渊博的教授,GPU的核心更像一堆小学生,只会简单的算数运算,可即使教授再神通广大,也不能一秒钟内计算出500次加减法,因此对简单重复的计算来说单单一个教授敌不过数量众多的小学生,在进行简单的算数运算这件事上,500个小学生(并发)可以轻而易举打败教授。

其次是内存架构不同

除了计算差异之外,GPU还利用专门的高带宽内存架构将数据送到所有核心,目前GPU通常用的是GDDR或HBM内存,它们提供的带宽比CPU中的标准DDR 内存带宽的带宽更高。

GPU处理的数据被传输到这个专门的内存中,以最大限度地减少并行计算期间的访问延迟。GPU的内存是分段的,因此可以执行来自不同内核的并发访问以获得最大吞吐量。

相比之下,CPU内存系统对缓存数据的低延迟访问进行了高度优化。对总带宽的重视程度较低,这会降低数据并行工作负载的效率。

第三,是并行性

专用内核和内存的结合使GPU能够比CPU更大程度地利用数据并行性。对于像图形、渲染这样的任务,相同的着色器程序可以在许多顶点或像素上并行运行。

现代GPU包含数千个核心,而高端CPU最多只有不到100个核心。通过更多的核,GPU可以以更高的算术强度在更宽的并行范围内处理数据。对于并行工作负载,GPU核心可以实现比CPU高100倍或更高的吞吐量。

相比之下,阿姆达尔定律意味着CPU对一个算法所能获得的并行加速是有限的。即使有100个内部核心,由于串行部分和通信,实际速度也限制在10倍或更低。由于其大规模并行架构,GPU可以实现几乎完美的并行加速。

第四,是即时(JIT)编译方面

GPU的另一个优点是即时(JIT)编译,它减少了调度并行工作负载的开销。GPU驱动程序和运行时具有JIT编译功能,可以在执行之前将高级着色器代码转换为优化的设备指令。

这为程序员提供了灵活性,同时避免了CPU所需的传统离线编译步骤。JIT还支持基于运行时信息的优化,综合效果将GPU开销降低到几乎为零。

相比之下,CPU必须坚持预编译的机器码,不能根据运行时行为自适应地重新编译,因此CPU的调度开销更高,灵活性也更差。

第五,在编程模型方面

与CPU相比,GPU还提供了一个更加出色的并行编程模型CUDA,开发人员可以更快速编写并行代码,而不必担心低级别的线程、同步和通信等问题。

CUDA和OpenCL提供C/ C++编程语言,其中代码专注于跨抽象线程的并行计算,凌乱的协调细节在幕后被无形地处理。

相反,CPU并行性要求使用OpenMP等库直接处理线程。在线程管理、锁和避免竞争条件方面,存在明显的额外复杂性。这使得从高层考虑并行性变得更加困难。

第六,二者响应方式不同

CPU基本上是实时响应,对单任务的速度要求很高,所以就要用很多层缓存的办法来保证单任务的速度。

GPU往往采用的是批处理的机制,即:任务先排好队,挨个处理。

第七,二者的应用方向不同

CPU所擅长的像操作系统这一类应用,需要快速响应实时信息,需要针对延迟优化,所以晶体管数量和能耗都需要用在分支预测、乱序执行、低延迟缓存等控制部分。

GPU适合对于具有极高的可预测性和大量相似的运算以及高延迟、高吞吐的架构运算。目前广泛应用于三大应用市场:游戏、虚拟现实和人工智能。

另外,GPU还可以应用于自动驾驶、医疗影像分析、金融风控等领域。不过,由于不同应用场景对GPU性能的要求不同,因此在选择GPU时需要考虑其计算能力、功耗和应用领域等因素。需要根据任务类型选择最合适的GPU,并进行优化以发挥其性能优势。

▉ GPU的下一步是什么?

由于内核数量和运行速度的提高,GPU的数字处理能力正在稳步提高。但这些改进主要是由台湾台积电(TSMC)等公司在芯片制造方面的改进所推动的。

目前,单个晶体管(任何计算机芯片的基本组成部分)的尺寸正在减小,这使得在相同数量的物理空间中可以放置更多的晶体管。但这并不代表传统GPU对于人工智能相关的计算任务是最佳的。

正如GPU最初设计是为图形提供专门的处理来加速计算机一样,各种加速器也被设计用来加速机器学习任务。由AMD和NVIDIA等公司正在为传统的GPU制造各种加速器来提供其对人工智能等场景的计算需求,例如NVIDIA CUDA以及AMD的ROCm都能够为开发者提供了一个全面的环境,用于创建、优化和部署 GPU 加速应用,确保在各种平台上实现高性能和可扩展性。

除此之外,例如谷歌的张量处理单元和Tenstorrent的Tensix Cores芯片,都是从头开始设计,被用于加速深度神经网络。

通常,数据中心GPU和其他AI加速器通常比传统GPU附加卡配备更多内存,这对于训练大型AI模型至关重要。人工智能模型越大,GPU的能力就要越强,准确度越高。

为进一步加快训练速度,处理更大AI模型(例如ChatGPT),研发者可将许多数据中心GPU汇集到一起形成超级计算机。而这需要更复杂软件方可正确利用可用的数字处理能力。另一种方法则是创建一个非常大规模的加速器,例如芯片初创企业Cerebras生产的“晶圆级处理器”(wafer-scale processor)。

同时,CPU方面的发展并未停滞。AMD和英特尔的最新CPU内置低级指令,可加速深度神经网络所需的数字运算。这一附加功能主要有助于“推理”任务,即利用其他已经开发的AI模型。

但目前来说,要训练人工智能模型,首先需要GPU或者类似GPU的大型加速器。

为特定的机器学习算法创建更专业的加速器是可能的。例如,最近一家名为Groq的公司生产了一种“语言处理单元”(LPU),专门设计用于沿着ChatGPT的路线运行大型语言模型。

但历史表明,任何爆火的机器学习算法都很快地达到顶峰然后式微——因此昂贵的GPU或加速器硬件可能很快就过时。

目前,中国的GPU芯片在市场份额上仍然占据较小的比例,但国产GPU芯片的入局者也越来越多,越来越多的国内企业向图形处理领域转型,比如芯动科技、景嘉微等,国产GPU芯片也有了更好的发展机遇。随着美国实施更多的出口管制措施,或将为"中国芯"崛起制造机会窗口,这可能导致英伟达在中国市场面临更大的竞争压力。



Tags:GPU   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
为什么AI计算一定要用GPU?
随着ChatGPT大火,GPU成为了目前最热单品,一个顶级的GPU可以卖到数万美元。由于对其产品的需求激增,英伟达(NVIDIA)的市场估值更是飙升至2万亿美元以上。你有没有好奇:为什么AI会...【详细内容】
2024-04-25  Search: GPU  点击:(0)  评论:(0)  加入收藏
颠覆GPU、打倒英伟达!深扒12家AI芯片独角兽
谁将成为屠龙者?2024开年,去年大涨的科技股一片惨跌,但引领AI浪潮的总龙头英伟达依然势头不减。没有哪家芯片公司不眼红英伟达的地位,随着AI产业的蛋糕越做越大,硬件赛道也肉眼可...【详细内容】
2024-01-16  Search: GPU  点击:(79)  评论:(0)  加入收藏
三分钟搞懂CUDA和GPU编程
CUDA(Compute Unified Device Architecture)是由NVIDIA开发的并行计算平台和编程模型,支持开发人员利用GPU的强大计算能力进行通用计算任务。本文介绍使用CUDA进行GPU编程的基...【详细内容】
2023-12-06  Search: GPU  点击:(162)  评论:(0)  加入收藏
GPU架构知识
图形处理单元(或简称GPU)会负责处理从PC内部传送到所连接显示器的所有内容,无论你在玩游戏、编辑视频或只是盯着桌面的壁纸,所有显示器中显示的图像都是由GPU进行渲染的。对普通...【详细内容】
2023-11-24  Search: GPU  点击:(223)  评论:(0)  加入收藏
GPU架构与渲染性能优化
Labs 导读在开发图形渲染应用时,渲染性能优化是一个绕不开的主题,开发者往往遵循一些优化准则来构建自己的应用程序,包括数据合并、模型减面、减少采样次数、减少不必要渲染等...【详细内容】
2023-11-20  Search: GPU  点击:(184)  评论:(0)  加入收藏
AI 时代的 GPU 生存工具包:每个开发人员必须了解的基本知识
随着传统的顺序算法到日益流行的并行算法,GPU 将成为加速复杂计算不可或缺的工具。在 AI 和机器学习任务等具有海量数据集和复杂的神经网络的架构中,GPU 的并行处理能力具有很...【详细内容】
2023-11-17  Search: GPU  点击:(232)  评论:(0)  加入收藏
S-LoRA:一个GPU运行数千大模型成为可能
编辑:蛋酱一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训练和服务成本会变得非常高昂。低...【详细内容】
2023-11-16  Search: GPU  点击:(218)  评论:(0)  加入收藏
CPU vs GPU:谁更适合进行图像处理?
CPU 和 GPU 到底谁更适合进行图像处理呢?相信很多人在日常生活中都会接触到图像处理,比如修图、视频编辑等。那么,让我们一起来看看,在这方面,CPU 和 GPU 到底有什么不同,哪个更胜...【详细内容】
2023-11-14  Search: GPU  点击:(196)  评论:(0)  加入收藏
借助Python库CuPy,发掘GPU的威力
译者 | 布加迪审校 | 重楼CuPy简介CuPy是一个Python库,与NumPy和SciPy数组兼容,为GPU加速计算而设计。通过将NumPy换成CuPy语法,您可以在英伟达CUDA或AMD ROCm平台上运行代码。...【详细内容】
2023-11-07  Search: GPU  点击:(372)  评论:(0)  加入收藏
TensorDB:高性能向量数据库与GPU加速的未来
向量检索是一项强大的信息处理技术,它将文本、图像、音频等数据转化为数学向量,从而实现高效的搜索和分析功能,向量数据库作为大模型的一项重要基础设施已经被广泛应用。当前,全...【详细内容】
2023-11-03  Search: GPU  点击:(151)  评论:(0)  加入收藏
▌简易百科推荐
为什么AI计算一定要用GPU?
随着ChatGPT大火,GPU成为了目前最热单品,一个顶级的GPU可以卖到数万美元。由于对其产品的需求激增,英伟达(NVIDIA)的市场估值更是飙升至2万亿美元以上。你有没有好奇:为什么AI会...【详细内容】
2024-04-25  了不起的云计算    Tags:GPU   点击:(0)  评论:(0)  加入收藏
华为笔记本将接入盘古大模型!全新华为MateBook X Pro即将发布
快科技4月10日消息,华为官方宣布,华为将于4月11日举办新品发布会。据了解,此次发布会将推出全新的华为MateBook X Pro,而预热海报的主题是“轻且强”。这里的“强”不仅仅是指性...【详细内容】
2024-04-10    快科技  Tags:华为笔记本   点击:(13)  评论:(0)  加入收藏
走进光纤世界:揭秘光纤接口的四大类型
光纤技术作为现代通信的基石,已经广泛应用于各种数据传输场景中。它以高速率、长传输距离、抗干扰性强、低衰减以及带宽占用小等优点,成为了数据通信领域中的重要物理层连接方...【详细内容】
2024-04-10  胜为光通信服务商    Tags:光纤接口   点击:(10)  评论:(0)  加入收藏
什么是光纤?光纤的原理是什么?你能想象没有光纤通讯的世界么?
一根像头发丝一样细的光纤改变了什么?说它改变了世界,一点也不为过。还记得老式的电脑传输吗?你下载一首歌可能需要3分钟,一部电影可能需要两小时,那时候叫做“拨号上网”;后来铜...【详细内容】
2024-04-10  知识TNT    Tags:光纤   点击:(11)  评论:(0)  加入收藏
五个多屏使用笔记本的注意事项
你是否发现自己需要频繁地在窗口之间切换,或者在你的笔记本电脑显示屏上挤满了多个窗口?是时候考虑购买第二个显示器了。 多个显示器可以显著提高工作效率,因为你有更多的屏幕...【详细内容】
2024-03-20  梁佳乐  微信公众号  Tags:笔记本   点击:(20)  评论:(0)  加入收藏
开源鸿蒙适配芯片到底都做了哪些工作?
随着智能设备市场的不断扩大和技术的进步,鸿蒙操作系统成为了备受瞩目的开源项目。作为一个全场景智能生态的基础,鸿蒙不仅仅是一个操作系统,还涉及到硬件层面的适配。然而,开源...【详细内容】
2024-01-16  触觉智能    Tags:鸿蒙   点击:(63)  评论:(0)  加入收藏
电脑主板上的纽扣电池没电时,会出现什么问题呢?
什么是纽扣电池?电脑主板上的纽扣电池通常被称为CMOS电池。是用于提供电源给主板上的实时时钟(RTC)和存储BIOS设置数据的小型电池。 纽扣电池的寿命是多久?纽扣电池的寿命通常在...【详细内容】
2024-01-14  新视力工控电脑  今日头条  Tags:纽扣电池   点击:(134)  评论:(0)  加入收藏
微软将增加Copilot专用按键 推动人工智能时代到来
微软宣布将新增Copilot键,专门用于Windows PC键盘上的人工智能(AI)助手。这意味着新的一年里,Windows将迎来重大转变,走向更为智能化的未来,让人工智能从硬件到软件全方位融入,打造...【详细内容】
2024-01-05  PChome电脑之家    Tags:Copilot   点击:(149)  评论:(0)  加入收藏
AI领衔!2023年数码硬件大事件盘点 哪个技术让你印象深刻
2023年在数码硬件领域里许许多多令人兴奋的新产品和新技术正式问世,给玩家用户们都带来了全新的体验。在这篇文章中,我们将进行2023年的数码大事件进行盘点,看看这其中哪个给你...【详细内容】
2024-01-03    中关村在线  Tags:数码硬件   点击:(56)  评论:(0)  加入收藏
双头Type-C接口:解析充电方向的奥秘
随着科技的飞速发展,电子设备之间的连接与充电方式也在不断地革新。其中,Type-C接口以其高效、便捷的特性,逐渐成为了主流。特别是双头Type-C线,更是为用户带来了前所未有的便利...【详细内容】
2024-01-02  小米地瓜    Tags:Type-C   点击:(175)  评论:(0)  加入收藏
站内最新
站内热门
站内头条