30秒快读
1、英特尔、台积电一喜一忧,国产AI芯片第一股寒武纪登陆A股科创板,当天大涨229.9%,风云变幻的芯片圈,隐藏着什么变局?
2、从CPU、GPU到xPU,下一代AI芯片的主流框架会是什么?中国AI芯片企业是做专用芯片还是通用芯片,是横在创业者面前的一道难题。
3、谁是下一个AI芯片之王?中国会出现像英伟达一样的企业吗?
一份布满愁云的财报,暗示着芯片厂商们的又一场战事拉开序幕。
7月24日,英特尔在今年2季报中宣布,因7nm芯片工艺存在缺陷,进展落后与原计划的6个月,同时量产日期也被推迟了近一年。
当天,英特尔收盘暴跌16.24%。
另有媒体报道,英特尔已将2021年6nm芯片代工订单交于台积电,后者还有望获得5nm、3nmCPU芯片的代工。
受该利好消息刺激,7月27日台积电创下83.4美元/股的历史新高。截至7月29日收盘,台积电的市值高达4289亿美元,是当天英特尔收盘市值的两倍多。
台积电和英特尔市值对比,图源:东方财富网
一忧一喜间,暗示着英特尔自销自产的时代落幕。曾经的CPU芯片巨头如今陷入颓靡。但江湖中,后浪们正在奋起追逐。
7月20日,国产AI芯片第一股寒武纪登陆A股科创板,当天大涨229.9%。
7月17日,寒武纪发布科创板上市公告,图源:寒武纪
当人工智能进入越来越多人的生活,这片江湖争夺或许会聚焦于AI芯片上。
根据Gartner预测,全球AI芯片的市场规模将有望从2018年的42.7亿美元上升到2023年的323亿美元,2019-2023年平均增速约为50%。
如果说,英特尔和英伟达象征着CPU、GPU芯片的荣光,那么在AI芯片赛道中,谁会是下一个霸主?
01
从CPU、GPU到xPU
深度学习是目前AI的神经网络主流算法,需要处理大量非结构化数据和“蛮算”。这对芯片的多核并行运算、片上存储、带宽、低延时访存等提出了较高需求。
事实上,CPU芯片可以用于AI运算,适用于逻辑复杂的串行计算。由于CPU中有晶体管用于构建控制电路和高速缓冲存储器,缩减了计算单元的空间,也在一定程度上限制了算力。
CPU集成电路上有数以万计的晶体管,图源:英特尔
目前深度学习下的图像识别、语音识别的计算主要涉及矩阵向量乘法、加法,计算逻辑也不复杂,主要靠数据大量多次计算,因此相比串行运算的CPU,具有并行运算能力的GPU芯片性能更高,更适合深度学习。
CPU和GPU架构对比,图源:OmniSci
这是为什么GPU一哥英伟达能在AI芯片市场占有一席之地。据广证恒生研报数据,英伟达在数据中心GPU市场占有率超过80%。2019年度,英伟达数据中心业务收入占比增长至接近三成。
除了CPU、GPU外,ASIC被认为是下一代AI芯片主流架构。针对特定任务专门设计框架,ASIC芯片能在快速提升算力的同时降低能耗。
ASIC专用集成芯片架构,为特定应用需要而设计制造的集成电路,图源:AnySilicon
谷歌的TPU(张量处理单元)便是其中之一。谷歌定义了十几个为神经网络计算而设计的高级指令,采用单线程控制,避免缓存、多道处理等问题,提高了深度学习运算效率。不过,和所有ASIC芯片一样,TPU是一款非通用芯片。
谷歌TPU芯片,图源:google Cloud
在众多xPU芯片中,Graphcore推出的IPU(智能处理单元)是一款激进产品。
这款专为AI训练、推理任务设计的新型处理器,运用大规模并行同构众核架构。
Graphcore推出的IPU(智能处理单元)芯片,图源:Graphcore
加州大学圣芭芭拉分校教授谢源曾表示,在运算过程中,把数据从内存搬到处理单元所需能量占比非常大,而数据搬运效率不会因摩尔定律发展而提高。
IPU采用的是大规模分布式片上SRAM(静态随机存取储存器),数据不储存在片外,意味着运算过程中可以直接调动,节省能耗和时延。不过,一旦供电不足,会导致部分数据缺失。为此,IPU相应减少了用于机器学习运算单元面积。
IPU芯片内部结构,图源:Graphcore
日前,Graphcore已发布第二代IPU GC200,晶体管数量高达594亿个,内部有1472个独立的处理器内核,能够执行8832个独立的并行线程,均由900MB的RAM支持。
装有4个IPU GC200芯片的机器,每一枚芯片内有高达594亿个晶体管,图源:Graphcore
此外,IPU GC200芯片另一亮点为能适用于稀疏样本数据的深度学习。
新的架构有的方法是为每个处理核心配备了专用存储单元,能更有效分散和搜集信息,避免部分数据被过滤。
Graphcore曾被多家媒体对标为下一家英伟达。
介绍这款特立独行的产品时,高级副总裁兼中国区总经理卢涛表示,“IPU不是GPU,但现在很多芯片公司做的其实还是GPU,在某些领域,未来一段时间里,IPU可能会和GPU呈现竞争胶着状态,“这是最大的挑战,也是最大的机会。”
02
垂直领域突围战
对于不少中国AI芯片企业而言,选择做专用芯片还是通用芯片,是一道难题。
亿欧科创事业部商业分析师张继文直言,目前行业中还没有诞生一款真正意义上的AI通用芯片,因为不同场景下,对芯片算力有不同要求。
比如,安防领域对图像处理要求比较高,智能家居对语音处理要求很高,而自动驾驶需要多模态处理。
“现阶段设计者仍在具体场景下摸索,建议做垂直领域的芯片。”她表示。
如果你是一个不走心的芯片设计师,做出芯片并不难。如果不愿意付ARM框架授权费用,可以选开源的Risk-V框架,去除无用功能后,从GitHub下载代码,交由芯片厂家做模型转换。
图源:GitHub
但在中科院自动化研究所研究员王金桥看来,这样的算法无法保证算法的精度。
设计芯片时,设计师需要对网络规模、参数、效果等选项不断调整,提高芯片的适配能力。如果芯片已经固定了支持的网络结构,之后要想更换,只会前功尽弃。
根据亿欧智库数据,ASIC芯片的开发费用高达800-2500万美元以上,开发周期长达1-3年。这是耗费的资本。
这便是专注于ASIC芯片研发,寒武纪的困顿。在招股书上,寒武纪预计今年净利润亏损4亿元至6.5亿元。寻求资本市场融资,是这次寒武纪上市的缘由。
寒武纪近几年财务状况,图源:寒武纪招股书
据悉,寒武纪计划分别以IPO募集资金7亿元、6亿元、6亿元和9亿元用于投资云端训练芯片及系统、新一代云端推理芯片及系统、新一代边缘端人工智能芯片及系统和补充流动资金。
图源:寒武纪招股书
比资本更重要的,还有人才。王金桥感慨AI芯片领域设计人才稀缺。在成为芯片设计师前,需要至少3-5年的工作经验。
行业一流的设计师,起码要在生产线上跟过10年,以防流片失败。
芯片生产过程中,流片是从设计走向量产的关键一步,这需要按照图纸在晶圆上进行蚀刻、制定晶圆尺寸,工艺复杂,整个过程有40多道工序,每一步细小失误的累积,便会功亏一篑。
此前小米澎湃S2流片失败5次,被报道称烧掉十多亿元。这是流片背后的痛。
网上关于小米澎湃S2流片失败5次烧掉几十亿的传闻,图源:网络
目前AI领域稀缺的是设计,懂算法的,不懂硬件,反之亦然,这需要建立好生态,改变高校课程结构。
王金桥表示看好寒武纪的成长,这个团队来自中科院,有核心技术,只是成立不过5年,仍显稚嫩。“中国会有一家像英伟达一样的企业,虽然还有很长的路要走。”他说。
作者/IT时报记者 孙鹏飞
编辑/挨踢妹
排版/黄建
图片/PxHere、东方财富网、英特尔、OmniSci、
Google Cloud、Graphcore、GitHub、亿欧智库、寒武纪招股书、网络
来源/《IT时报》公众号vittimes