成为“AI芯片之王”，要烧掉多少钱？-简易百科

30秒快读

1、英特尔、台积电一喜一忧，国产AI芯片第一股寒武纪登陆A股科创板，当天大涨229.9%，风云变幻的芯片圈，隐藏着什么变局？

2、从CPU、GPU到xPU，下一代AI芯片的主流框架会是什么？中国AI芯片企业是做专用芯片还是通用芯片，是横在创业者面前的一道难题。

3、谁是下一个AI芯片之王？中国会出现像英伟达一样的企业吗？

一份布满愁云的财报，暗示着芯片厂商们的又一场战事拉开序幕。

7月24日，英特尔在今年2季报中宣布，因7nm芯片工艺存在缺陷，进展落后与原计划的6个月，同时量产日期也被推迟了近一年。

当天，英特尔收盘暴跌16.24%。

另有媒体报道，英特尔已将2021年6nm芯片代工订单交于台积电，后者还有望获得5nm、3nmCPU芯片的代工。

受该利好消息刺激，7月27日台积电创下83.4美元/股的历史新高。截至7月29日收盘，台积电的市值高达4289亿美元，是当天英特尔收盘市值的两倍多。

台积电和英特尔市值对比，图源：东方财富网

一忧一喜间，暗示着英特尔自销自产的时代落幕。曾经的CPU芯片巨头如今陷入颓靡。但江湖中，后浪们正在奋起追逐。

7月20日，国产AI芯片第一股寒武纪登陆A股科创板，当天大涨229.9%。

7月17日，寒武纪发布科创板上市公告，图源：寒武纪

当人工智能进入越来越多人的生活，这片江湖争夺或许会聚焦于AI芯片上。

根据Gartner预测，全球AI芯片的市场规模将有望从2018年的42.7亿美元上升到2023年的323亿美元，2019-2023年平均增速约为50%。

如果说，英特尔和英伟达象征着CPU、GPU芯片的荣光，那么在AI芯片赛道中，谁会是下一个霸主？

从CPU、GPU到xPU

深度学习是目前AI的神经网络主流算法，需要处理大量非结构化数据和“蛮算”。这对芯片的多核并行运算、片上存储、带宽、低延时访存等提出了较高需求。

事实上，CPU芯片可以用于AI运算，适用于逻辑复杂的串行计算。由于CPU中有晶体管用于构建控制电路和高速缓冲存储器，缩减了计算单元的空间，也在一定程度上限制了算力。

CPU集成电路上有数以万计的晶体管，图源：英特尔

目前深度学习下的图像识别、语音识别的计算主要涉及矩阵向量乘法、加法，计算逻辑也不复杂，主要靠数据大量多次计算，因此相比串行运算的CPU，具有并行运算能力的GPU芯片性能更高，更适合深度学习。

CPU和GPU架构对比，图源：OmniSci

这是为什么GPU一哥英伟达能在AI芯片市场占有一席之地。据广证恒生研报数据，英伟达在数据中心GPU市场占有率超过80%。2019年度，英伟达数据中心业务收入占比增长至接近三成。

除了CPU、GPU外，ASIC被认为是下一代AI芯片主流架构。针对特定任务专门设计框架，ASIC芯片能在快速提升算力的同时降低能耗。

ASIC专用集成芯片架构，为特定应用需要而设计制造的集成电路，图源：AnySilicon

谷歌的TPU（张量处理单元）便是其中之一。谷歌定义了十几个为神经网络计算而设计的高级指令，采用单线程控制，避免缓存、多道处理等问题，提高了深度学习运算效率。不过，和所有ASIC芯片一样，TPU是一款非通用芯片。

谷歌TPU芯片，图源：google Cloud

在众多xPU芯片中，Graphcore推出的IPU（智能处理单元）是一款激进产品。

这款专为AI训练、推理任务设计的新型处理器，运用大规模并行同构众核架构。

Graphcore推出的IPU（智能处理单元）芯片，图源：Graphcore

加州大学圣芭芭拉分校教授谢源曾表示，在运算过程中，把数据从内存搬到处理单元所需能量占比非常大，而数据搬运效率不会因摩尔定律发展而提高。

IPU采用的是大规模分布式片上SRAM（静态随机存取储存器），数据不储存在片外，意味着运算过程中可以直接调动，节省能耗和时延。不过，一旦供电不足，会导致部分数据缺失。为此，IPU相应减少了用于机器学习运算单元面积。

IPU芯片内部结构，图源：Graphcore

日前，Graphcore已发布第二代IPU GC200，晶体管数量高达594亿个，内部有1472个独立的处理器内核，能够执行8832个独立的并行线程，均由900MB的RAM支持。

装有4个IPU GC200芯片的机器，每一枚芯片内有高达594亿个晶体管，图源：Graphcore

此外，IPU GC200芯片另一亮点为能适用于稀疏样本数据的深度学习。

新的架构有的方法是为每个处理核心配备了专用存储单元，能更有效分散和搜集信息，避免部分数据被过滤。

Graphcore曾被多家媒体对标为下一家英伟达。

介绍这款特立独行的产品时，高级副总裁兼中国区总经理卢涛表示，“IPU不是GPU，但现在很多芯片公司做的其实还是GPU，在某些领域，未来一段时间里，IPU可能会和GPU呈现竞争胶着状态，“这是最大的挑战，也是最大的机会。”

垂直领域突围战

对于不少中国AI芯片企业而言，选择做专用芯片还是通用芯片，是一道难题。

亿欧科创事业部商业分析师张继文直言，目前行业中还没有诞生一款真正意义上的AI通用芯片，因为不同场景下，对芯片算力有不同要求。

比如，安防领域对图像处理要求比较高，智能家居对语音处理要求很高，而自动驾驶需要多模态处理。

“现阶段设计者仍在具体场景下摸索，建议做垂直领域的芯片。”她表示。

如果你是一个不走心的芯片设计师，做出芯片并不难。如果不愿意付ARM框架授权费用，可以选开源的Risk-V框架，去除无用功能后，从GitHub下载代码，交由芯片厂家做模型转换。

图源：GitHub

但在中科院自动化研究所研究员王金桥看来，这样的算法无法保证算法的精度。

设计芯片时，设计师需要对网络规模、参数、效果等选项不断调整，提高芯片的适配能力。如果芯片已经固定了支持的网络结构，之后要想更换，只会前功尽弃。

根据亿欧智库数据，ASIC芯片的开发费用高达800-2500万美元以上，开发周期长达1-3年。这是耗费的资本。

这便是专注于ASIC芯片研发，寒武纪的困顿。在招股书上，寒武纪预计今年净利润亏损4亿元至6.5亿元。寻求资本市场融资，是这次寒武纪上市的缘由。

寒武纪近几年财务状况，图源：寒武纪招股书

据悉，寒武纪计划分别以IPO募集资金7亿元、6亿元、6亿元和9亿元用于投资云端训练芯片及系统、新一代云端推理芯片及系统、新一代边缘端人工智能芯片及系统和补充流动资金。

图源：寒武纪招股书

比资本更重要的，还有人才。王金桥感慨AI芯片领域设计人才稀缺。在成为芯片设计师前，需要至少3-5年的工作经验。

行业一流的设计师，起码要在生产线上跟过10年，以防流片失败。

芯片生产过程中，流片是从设计走向量产的关键一步，这需要按照图纸在晶圆上进行蚀刻、制定晶圆尺寸，工艺复杂，整个过程有40多道工序，每一步细小失误的累积，便会功亏一篑。

此前小米澎湃S2流片失败5次，被报道称烧掉十多亿元。这是流片背后的痛。

网上关于小米澎湃S2流片失败5次烧掉几十亿的传闻，图源：网络

目前AI领域稀缺的是设计，懂算法的，不懂硬件，反之亦然，这需要建立好生态，改变高校课程结构。

王金桥表示看好寒武纪的成长，这个团队来自中科院，有核心技术，只是成立不过5年，仍显稚嫩。“中国会有一家像英伟达一样的企业，虽然还有很长的路要走。”他说。

作者／IT时报记者孙鹏飞

编辑／挨踢妹

排版／黄建

图片／PxHere、东方财富网、英特尔、OmniSci、

Google Cloud、Graphcore、GitHub、亿欧智库、寒武纪招股书、网络

来源／《IT时报》公众号vittimes

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为