如果说乔布斯向全球科技行业亲身诠释了牛仔裤将成为最顶级的时尚;那顶着东西方不同面孔的黄仁勋和埃隆·马斯克则反复提醒着世界,黑皮夹克才是属于新时代的大佬 icon。
今年的特斯拉 AI Day 上,马斯克没有花费太多时间暖场。舞台屏幕左右分开,人形机器人擎天柱(Optimus)迈着六亲不认的步伐闪亮登场。
如果你叫擎天柱,那么在你胸前的一定就是赛博坦星的至宝——领导模块(Matrix Of Leadership)了?
终于亮相的机器人
量产单价可能是Model 3的一半
作为变形金刚八十年代引进国内时期的忠实拥趸,充满领袖和人格魅力的柱子哥对我来说有极崇高的特殊含义,所以后面还是用 Optimus 的英文原名来称呼这台传说中 Tesla Bot 的原型机。
各种线路和金属零件裸露在外的 Optimus 走得四平八稳,频频向台下的与会人士挥手致意。
在演示视频中,Optimus 不仅能够自主行走,帮特斯拉办公室的员工搬运快递、提起水壶浇花。
另一方面,Optimus 在特斯拉工厂扮演起一名荣耀的车间工人也是有模有样。
这也是这次 AI Day 之前,在我们的分析中,第一代 Optimus 所能承担最普遍、也是最具代表性的工作。也就是说,Optimus 的第一批大客户,很可能是世界各地的特斯拉超级工厂 Gigafactory。
不过,这副好像自己从实验室离家出走的模样还不是 Optimus 的标准形态。屏幕再次左右分开,装上外壳的 Optimus,在三位特斯拉团队的壮汉簇拥之下出现。
这一版本的 Optimus 比起上一位来讲,外观上的完成度更高,想来是相比原型机更加接近量产的状态:外观上更加类人,自由度也要更高一些。
用高达(Gundam)世界观解释机体演进的术语来说,好像应该叫做先行量产型?不,好像还差了不少,这台试做机型也还要好几周的时间才能正常下地走路。
实际上,就算特斯拉机器人团队在过去的一年中每天工作十几个小时、一周工作七天,Optimus 还是处在十分早期的阶段,未来还有很多空间将其在上市前做得更好。
按照马斯克的构想,未来 3 至 5 年内 Optimus 的开发就能成熟。在特斯拉机器人业务达到数百万台的量产规模时,其单台售价将会大大低于汽车,预计价格将不会高于每台 2 万美元——注意,远低于特斯拉 Model 3 标准续航升级版不到 4 万美元的单价。
熟悉马老师语言体系的各位都知道,这个 roadmap 不用特别当真。这不是嘲讽,而是提醒大家,合理地放平期待。
话归正题。铺垫十分到位,要是卖药的话,接下来该出疗效了。
马斯克表示,特斯拉 AI Day 的目的,是用最酷的技术演示,吸引最有才华的技术人群,一起把成果量产,帮助千百万人。
「Make it hAppen」。
类似的话术在第一个阶段密集地出现,马斯克以十分美式的风格,反复提醒有识有志之士们加入特斯拉,发光发热。
接下来,特斯拉机器人团队的技术负责人们轮流上台介绍了 Optimus 的细节和各项进展。
让我们忘记在去年八月 AI Day 2021 上公布的赛博猛男形象,先出场的 Optimus 相当于实现了基础功能的开发平台。后面那个看上去完成度更高的「船新版本」,将会继续不断地改进。
完整的特斯拉人形机器人「Optimus」重 73 公斤;
静坐时功耗为 100W;
快速步行时功耗为 500W;
全身上下包含了 200 个以上的自由度,其中手部可以实现 27 个自由度。
从最开始公布到现在,Optimus 已经进行了三次演进。
Optimus 的传感器阵容之中,核心是与特斯拉 FSD 系统相似的摄像头。核心能量供给组件为一块 2.3kWh 的电池组,整个配电和计算系统集成到「机体」的上半身也就是躯干部分。具体来说的话,在这张透视图中,Optimus 体内蓝色的是电子系统,橘色部分是电机。
之所以这么设计,是在某种程度上参考了特斯拉汽车的成熟设计,尽可能地减少线束的数量。
现版本 Optimus 全身上下共有 28 处电机执行器——理解成人类的关节就好。比起之前宣布的 40 个减少了四分之一以上,目的也很简单,为了降低整体功耗。
这实际上很好理解。就像智能手表的续航水平,比起单次充电就能维持动辄一两周的正常使用,一天不充电就趴窝就跟闹着玩儿似的。
Optimus 充满电后可以运行一整天。技术负责人没有说明这个「运行」是相对常规的使用情况,还是要去码头扛大包这种极端的高强度劳动。
为了让「脑子」更「清醒」,Optimus 使用了一颗特斯拉自研的 SoC 作为其智能中枢的关键组件,支持 wifi 和 LTE(4G)网络连接。考虑到机器人身处的场景与汽车的巨大差异,无线网络、音频输入等支持,是保护人类用户和 Optimus 双方安全的必要组成。
由于 Optimus 的腿脚还不太利索,特斯拉机器人团队的其中一位负责人表示,他们在 Optimus 上使用了和电动车碰撞安全测试相同的预测模型,通过计算来预测 Optimus 在各种姿势和体态下正常工作的表现,这其中包含了摔倒等情况等情况。
为了保护机体,结构基础的优化也成为了团队工作的重点,胸前设置了能量吸收区域,不仅能够帮助机体在摔倒时避免将胳膊和关节等关键组件损坏,还能避免直接「摔傻」。
这些有点像是人类的生理结构特性,和在即将跌倒的瞬间反射性采取的一系列生理防御机制。毕竟,受伤之后不管是人类的治疗、静养,还是机器人的维修、检查,各种意义上来讲都挺贵的不是吗。
说到像人,特斯拉机器人团队为 Optimus 加入了仿生学概念的设计。比如,仿照人类膝盖关节的构成,将机器膝盖的关节分为 4 个电机。
这么做的前提包含了一系列精密的计算。团队对试验过程中收集到的各种数据,通过微积分的方式进行了大量模拟,来微调电机的功率。一方面降低行动的功耗,另一方面避免了「用力过猛」导致的机体失衡等潜在危险因素。
节省成本的关键之一,是在前面提到的 Optimus 全身上下 28 处电机中,只采取了 6 种不同的设计。用极简的平台化设计来提高产能,还能一并降低维护的成本,很有特斯拉的工业风格不是吗?
这些关键的电机中,关键部位的负荷能力之大,单个组件就足以吊起一台三角钢琴。
作为人类身上最为精巧的组件,对手部肌肉的控制与灵活运用,可以说是人类进化的关键之一。在这方面,特斯拉机器人团队为 Optimus 设计了精密但灵敏的小型电机,使之不仅具备搬动沉重物体的能力,还能灵巧地处理那些对精度有较高要求的工作。
为了帮助 Optimus 实现基础动作,还用上了动作捕捉系统,学习人类搬动物品时的运动轨迹,再结合机体的解构特点,对整个体态控制进行规划。
虽然说 Optimus 用上了很多特斯拉汽车的技术,但对于制造机器人来说,可是大大的不同。毕竟汽车只需要考虑在路上跑的情况,而设想中双足人形机器人的活动场景则要比特斯拉汽车复杂得多。步行只是基础,从上下楼梯、蹲下站起、转身到搬动物体、拧螺丝、电钻打孔等等等等,都是 Optimus 需要面对的重任。
说到这里,让我们顺便捞一下 87 版《机械战警》里火力和武德一样充沛,却在下楼梯摔得四仰八叉的反派机器人 ED-209。
《机械战警》中的第一代 ED-209 机器人
在变得有用之前,Optimus 从 2022 年 4 月的蹒跚学步,到 9 月份正常走路,花了 5 个月时间。幸好马斯克在创造生命方面足够有天赋,相信在跟育儿差不多的培育人工智能上也会比同行们走得更快。
为什么特斯拉一定要将自己的量产型机器人设计成人形?
第一,因为难。相对于非人形机器人,人形使得其设计和实现难度极具增加。但是实现它,对特斯拉上下来说意义更加巨大。
第二,更具可能性。现实世界中,应用于各行各业的机器人已经很多。举个简单的例子,我们中很多人都见过驮着菜品的传菜机器人穿梭于餐厅、或是顶着屏幕在医院大厅四处溜达的信息窗口机器人。
这些无一例外都是针对单一场景进行设计的。而形体和动作方式更接近人类的人形机器人,在使用场景的可能性上大大超过形态各异的「前辈」们,也更加具备进入人类生活的基本条件。
特斯拉要做的是有用的机器人,而不是技术玩票。
马斯克在多个场合表示,Optimus 人形机器人会是特斯拉最重要的产品开发项目,甚至会比汽车业务与 FSD 计划更有价值。
特斯拉机器人最初的定位,就是代替人们从事重复枯燥、具有危险性的工作。而为了让其走得更长远,在家做饭、修剪草坪、照顾老人这些让机器人走进千家万户的基本场景,才会是特斯拉机器人在人类生活中最真实的写照。
尽管今年的 AI Day 绵延不绝地持续了好几个小时,马斯克还是没有忘记在活动结束后第一时间上线跟网友们激情互动。这不,他还说之后 Optimus 机器人还会有猫女(catgirl)版。
说实话,如果特斯拉上下真有这个闲心的话,我到希望他们以后出个 Daft Punk 版,也许这才更能衬托马斯克的那身黑皮夹克。
法国传奇电子音乐组合 Daft Punk
一年80倍,FSD迭代驶上快车道
相比于初次亮相的人形机器人原型机,FSD 算是老生常谈了。作为老朋友的 FSD,很难再看到颠覆性的技术飞跃,但是硬核的优化也不少。
首先是测试规模的扩大。目前,FSD Beta 自动驾驶测试版有 16 万名客户,2021 年还只有 2000 名。一年之间,测试数量扩大了 80 倍。对于坚持纯视觉路线的 FSD 来说,推送规模的扩大,意味着能够提供源源不断的高价值数据作为「养料」。
利用自动标注、模拟的训练数据,来训练由识别算法和环境建模算法等构成的 FSD 主体算法框架,完成整个迭代的过程,是 FSD 自动驾驶算法的开发流程。
在去年的 AI DAY 上,特斯拉透露了在自动驾驶技术上使用了 Occupancy.NETworks 神经网络模型,直接在神经网络中完成 2D 的图像平面到 3D 的 BEV 空间的变换,提升了多摄像头感知下的准确性和稳定性。今年,进一步将整个闭环流程优化。
比如,为了提高效率,特斯拉建立了一个「自动标注机器」,用智能标注代替人工标注。
借助自动标志机制,能够在相机显示不清楚时使用其他剪辑来填充图片,更智能地选取视频帧,提高视频帧质量的同时减少数量,将训练速度提高 30%。
同样地,仿真模拟的效率和质量也进行了优化。基于车辆采集到的真实信息,可以将通常要几个星期人工完成的重建模拟环境,在不到 30 分钟内完成。
目前,FSD 深度神经网络达到 100 万参数,15 万+神经网络层,37.5 万个链接,过去一年里工程师们对 7.5 万个神经网络模型进行训练。这些都是优化训练模型的结果。
不只是训练模型的到了优化,在决策方面也做出了优化。这次特斯拉的工程师们专门提到了对自动驾驶的史诗级难题——无保护左转做出的改进,在无保护左转时,不仅能识别、预判行为的行为,也能识别小狗。
其实在最近 FSD 的几次更新中,无保护左转更自然、减少激进的「极限操作」一直是一个趋势,这也让自动驾驶越来越更接近人的驾驶行为。
当然,在优化了 FSD 后,马斯克又来「放卫星」了,「从技术角度来看,我们已经具备了年底进入全球市场的能力。」
已经数不清这是第几次 FSD 全面开放的预告了,不过技术之外各地区监管政策,才是决定国内车主们能不能体验到 FSD 的关键。
Dojo 超级计算机:
剑指英伟达,觊觎亚马逊
去年在 AI DAY 上亮相时,Dojo 就因为赶超芯片大厂的潜力备受关注。今年 Dojo 直接拉出了英伟达 A100 来对标。
Dojo 超级计算机的单个训练模块由 25 块特斯拉自研的神经网络训练芯片——D1 组成。由于每个 D1 芯片之间都是无缝连接在一起,相邻芯片之间的延迟极低,训练模块最大程度上实现了带宽的保留。
相比于去年首发时,Dojo 的设计更加集成。这使得一个 Dojo 训练模块,相当于 6 个通用 GPU 性能,而能耗和成本仅相当于 1 个 GPU。
简单来说,Dojo 能将通常需要几个月的工作减少到一个星期。
在与英伟达 A100 的对比中,特斯拉的工程师给出了 Dojo 和英伟达 A100 在跑经典图像分类模型 ResNet-50 时的结果,Dojo 可以实现比 A100 更高的帧率;而跑神经网络模型 Occupancy Network 时,Dojo 的性能倍增;最终的目标是 4.4 倍于 A100 的单芯片训练速度,和更低的能耗、成本。
当然,对于实力强劲的 Dojo,马斯克的预期也不是只给特斯拉自己用,「也会考虑 AWS 一样的方式对外商用。」
看来,Dojo 的目标对手不只有英伟达,也有亚马逊云。
2023 年第一季度,第一个 Dojo Exa POD 就将完工面世,对于大家最直接的用处,可能就是大幅度提高 FSD 数据处理的速度。
最后
就在 AI DAY 的前一天,马斯克在社交网络上说,这次活动的目的是为了招聘人工智能和机器人领域的工程师。
不知道极客的工程师们,有没有被这场全程硬核的 AI DAY 「撩」到呢?