究竟是什么催生了人类的重大进步?
AI target=_blank class=infotextkey>OpenAI公司研发的ChatGPT已经成为一举一动都备受全球瞩目的重大创新事件,甚至被称为工业革命以来最了不起的发明之一。
但这个伟大的发明是怎么产生的?
在很漫长的时间里,OpenAI都是不太被科技界关注的小透明——核心领导团队由两位没有学位的美国人和两位外国移民组成;研发团队采用的也是连谷歌都不看好的非常激进的技术路线。
图1. OpenAI的4位领导者
OpenAI的4位领导者都是三四十岁的小年轻:
首席执行官,山姆·阿尔特(17.820, -0.65, -3.52%)曼(Sam Altman),斯坦福大学学过计算机专业,中途退学;
首席技术官,米拉·穆拉蒂(Mira Murati),阿尔巴尼亚移民的女儿;
总裁,格雷格·布罗克曼(Greg Brockman),上过哈佛大学和麻省理工,但最终都退学了;
首席科学家,伊利亚·苏茨科弗(Ilya Sutskever),原本是俄罗斯人,小时候跟随父母先移民到以色列,后又移民到加拿大,最后来到美国。
但最终,这群人带着几十人的核心团队,搞出了最震撼的科技。
图2. OpenAI的核心团队成员肯尼斯·斯坦利
OpenAI的核心团队成员肯尼斯·斯坦利和乔尔·雷曼在复盘ChatGPT的成功路径时,将其归因于他们在研究时发现的一个重要算法——新奇性搜索(Novel Search)。为此,他们合著了《为什么伟大不能被计划》一书,分享了他们在研发人工智能算法的过程中,围绕新奇性搜索这一算法展开的几个重要实验。
“为了实现我们的最高目标,我们必须先愿意放弃这些目标。”(To achieve our highest goals we must be willing to abandon them.)
肯尼斯和乔尔用上面这句带有箴言味道的总结来定义新奇性搜索的底层逻辑,这种算法完全不考虑是否有利于接近目标,而只评估某一路径的新奇性,“只问新不新,不问好不好”。哪怕这个方案是机器人(14.010, -0.60, -4.11%)往墙上撞,或者一站起来就跌倒。产出的方案再怪异、再不靠谱也没关系,只要是新奇的就留下。
图3.OpenAI的核心团队成员乔尔·雷曼
他们进一步解释,“新的算法不是要去特定的地方,而是最大化去任何地方的能力……人工智能算法通常有着明确的目标。但后来我意识到,即使我们没有给这些算法设定明确的目标,它们也能够取得令人惊叹的结果,甚至比那些设定了目标的算法更优越。”
但正是在这个算法的驱动下,在迷宫中探索的机器人,在没有尝试走出迷宫的时候,反而更快走出了迷宫;双足机器人认为“摔倒是好事”,并因此学会了踢腿,反而走得更远……
本期【泉果探照灯】将分享OpenAI核心专家在研发AI过程中的几项重要实验,以及引申的一些投资理念,更好地解释新奇性搜索算法对我们常规认知的颠覆性和启发性。
迷宫实验
当机器人忘记目标 学会摔跤
一个被告知寻求新奇行为的机器人,自行学会了如何避开墙壁、如何穿行走廊、如何脱离迷宫,而这些动作都没有被当做指令或奖励的目标。
传统的人工智能的编程领域,是有很强的目标导向的。但正是这种强目标导向的研究思路将他们带入了痛苦的瓶颈期,在瓶颈期中,他们忽然意识到,其实所谓的目标,具有潜在的“欺骗性”。
最典型的实验是机器人迷宫实验。以下为其中的一个迷宫示意图。大圆圈是机器人的初始位置,小圆圈是迷宫的出口——目标点位。
图4. 机器人迷宫实验示意图
· 传统算法
传统的目标算法将机器人的目标设定为走出迷宫。此时机器人进展迟缓。原因在于,在这一目标的驱动下,机器人认为所有更靠近终点的行为都是更好的;因此,为了靠近目标,机器人经常会走进具有欺骗性的死胡同,从距离上看,它确实离目标点更近了,但从解决路径的维度来看,它其实离走出迷宫的正确路径更远了。
因此,真正要走出迷宫,反而要先在直线距离上远离目标点,去找其他出路。
· 新奇性搜索
迭代算法“新奇性搜索”完全没有设定目标,机器人并不知道它要走出迷宫,机器人只有一个原则——“寻找更新的路径”。
在这样的理念驱动下,这套算法会随机生成一组解决方案,通过评估方案的新奇性并保留新奇性比较高的方案,让机器人的解决方案,如同生物演化一样发生一定的变异,如此往复循环,直到达到预定的迭代次数或者将问题彻底解决。
综上所述,它“只问新不新,不问好不好”,奖励所有更新奇的测试举动,并在此基础上继续创新。
图5. 目标在什么情况是有用的?
在初始阶段,新奇性搜索和传统算法差别不大,机器人也是先走进离目标点很近的死胡同,但在算法运行一段时间之后,发现机器人走出迷宫的时间在不断加速。因为,这样的算法让机器人不怕任何试错,他们会“撞墙”,但通过撞墙,他们很快学会了如何避免撞墙。当机器人绕过了一堵从未绕过的墙,对该行为的继续优化可能会让他走的更远。这跟很多创造性思维相同,一个有趣的想法,往往会启发其他更有趣的想法。
测试数据显示,在40次目标导向的实验中,机器人只成功了3次。而在40次“新奇性搜索”的重复实验中,却有39次都成功走出了迷宫。
一个被告知寻求新奇行为的机器人,学会了如何避开墙壁、如何穿行走廊、如何脱离迷宫。
同样的结果也出现在双足机器人(biped robot)的实验中。当把目标设定为用双腿行走时,机器人的进步很慢,因为目标的欺骗性,机器人认为一切导致摔倒的行为都被认为是“不好”的,从而尽量避免可能导致摔倒的行为。而采用了“新奇性搜索”后,机器人则是去尝试五花八门的新姿势,哪怕摔倒,只要以一种从未有过的方式摔倒,也是“好的行为”。
事实证明,机器人从“不会摔倒”到“愿意摔倒”,是个飞跃式进步。
图6. 通过新奇性搜索发现的双足机器人行走步态的一个周期,Frame=画面(1、2、3、4……12)
“新奇性搜索”中的机器人再次碾压了目标驱动型的实验表现。它通过不断尝试,很快就学会了踢腿以及摆动身体,而这些都是维持平衡的基础,它也因此更快地实现了行走。
视频来源:Ke.NETh Stanley: Why Greatness Cannot Be Planned: The Myth of theObjective
值得注意的是,“新奇性搜索”和设定目标情况下的“暴力破解”是不一样的。暴力破解是“穷尽一切可能”;“新奇性搜索”则倾向于以某种特定顺序来产生行为,而顺序是探索和发现的关键因素。
在目标驱动下,我们期望搜索行为的质量是从坏到好不断提升的,但是这个好坏判定中隐藏着“欺骗性”,就像那个离目标点很近的死胡同一样,它看上去更好了,实际上更坏了。然而,“新奇性搜索”因为放弃了目标,就没有了好坏的判定,它提供了更有趣的顺序:从简单到复杂。
当所有最容易得到的结果耗尽之后,剩下的新行为就会变得复杂。这跟符合认知的顺序,就好像不先学会走路,就很难去跳HipHop一样。同时,信息量和复杂性相辅相成,更复杂的行为包含更多信息,因此越复杂的尝试中,也越可能包含解决问题的方法。
当尝试有价值观指引:新奇和有趣,且搜索范围足够广,好东西就会随之而来。
伟大的路径是
一块块踏脚石形成的创新链
通往伟大的路径从来都不是直线,而是一块块踏脚石形成的创新链。
通常我们会认为,目标是清晰可见时,才有希望去实现。然而,面对复杂问题,比如前沿科技的突破,很多时候更像在迷雾重重的沼泽地里寻宝,此时设定目标反而会局限一个人的探索范围。我们要做的是,寻找一个个踏脚石(Stepping Stones),走向沼泽深处,探索尽可能大的区域。
而这里的“踏脚石”往往是跟“新奇性”挂钩的。就像前面的例子,一个以双足行走为目标的机器人,学习的速度远远慢于尝试新奇动作的机器人。因为通往行走的踏脚石,并不是平稳迈步,反而是在不断尝新中的摔倒、踢腿和摆动身体。
图7. 风险投资人保罗·格雷厄姆
被誉为“硅谷之父”的天才程序员,风险投资人保罗·格雷厄姆就说:“在高科技领域的杰出研究,不一定有多完善,但一定是新的!只有使用全新的创意和理论,才会涌现革命性的产品,解决那些前人无法解决的难题。”
回望人类历史,很多伟大的成就都不是被精心计划出来。之所以不能设定目标,因为踏脚石无从预测。
比如,微波炉的发明其实源于雷达探测装置的启发。电磁波早在20世纪二三十年代就投入使用了,直到1946年,美国军工企业的一位工程师,在测试雷达时,无意中发现兜里的巧克力融化了,才意识到原来电磁波可以加热食物。
如果这位工程师的目标只是发明微波炉,那么他肯定不会想到去研究雷达。
与此相似,莱特兄弟发明飞机最早用的是自行车技术。YouTube最早就是个视频约会网站,后来发现大家喜欢在上面分享五花八门的所有类型的视频。
这些说明,伟大的路径源于“妙手偶得”,这可能并不是特例,而是常理。
通往伟大珍宝的路径从来都不是直线,而是一块块踏脚石形成的创新链。这种情况下,求新就是求好,出奇就是出色,有趣就是有戏。
好投资不是“优等生”
而是“寻宝者”
在一个“好东西”分布不均匀的世界,即使你有一半时间都在犯错,最后依然可以赢。
科学作家万维钢曾经提到过这种寻宝者心态,他对比了工作生活中常遇到的两种思维模式:
一是“优等生心态”,就是希望所有功课全优。这样的人怕犯错,认为所有失败都应该被指责,所有浪费都应该反省。
第二种就类似上文提到的“寻宝者心态”,即不断尝试各种事情,其中有“对”的事儿,也有“当初看起来不那么对”的事儿。
在确定性的环境中,优等生心态是值得提倡的。比如,如果你是一位老师,你得把每堂课都讲好,善待每一个学生。如果你是个厨师,你也得尽量让每道菜都体现高水平。
但在不确定的环境中,如果你是个企业家、投资人、领导者、科研人员,你就更需要换成寻宝者思维。你不能怕犯错,而且要不断尝试。因为在一个“好东西”分布不均匀的世界,用一句扎心的话讲,失败是普遍的,成功是罕见的。因此,即使你有一半时间都在犯错,最后依然可以赢。
图8. 著名收藏家海因茨·贝格鲁恩
海因茨·贝格鲁恩(Heinz Berggruen)是世界公认的20世纪现代艺术最具影响力的收藏家之一。2000年,贝格鲁恩将他收藏的毕加索、布拉克、克利和马蒂斯的众多作品中的一部分以1亿多欧元的价格卖给了德国政府。这笔交易因为过于划算,实际上被德国政府看作一笔捐赠——这些藏品的私人市场价超过了10亿美元。
一个人能收集数量如此庞大的杰作,实在令人感到震撼。在艺术是一个标准非常主观的领域。为什么有人能早早预见到未来什么样的作品会炙手可热?
是靠眼光?还是靠运气?
一家投资公司地平线研究集团(Horizon Research)对此提供了第三种解释。
“伟大的投资者会买入大量的艺术品。”这家公司在报告中写道,“这些藏品中的一小部分最终会成为价值连城的作品。当投资者持有这些藏品的时间足够长,这系列投资组合的整体收益就会趋近其中表现最好的部分的收益。发生的一切就是这么简单。”
总结一句就是,在价格合适的时候以组合形式买入,然后静静等待其中的优质标的脱颖而出。即使海因茨·贝格鲁恩藏品中的99%都没有升值,只要剩下的1%是毕加索这种大师,其他都无关紧要。
图9. 位于柏林的贝格鲁恩博物馆
巴菲特也在2013年的股东大会上说过,他一生中大概拥有过400-500只股票,而他大部分钱是靠其中的10只股票赚的。芒格马上补充了一句,说如果把伯克希尔最成功的几笔投资拿掉,他们的投资成绩是非常平庸的。
寻宝要靠搜索,靠试错。就像芒格一天到晚看报表,因为看得很多才能选出一个好公司。
真正的宝物是搜索出来的,不能只看着遥远的未来,而是要找到最可达的一块块踏脚石,持续探索。
正如美国演员布拉德·皮特(Brad Pitt)接受演员工会奖时的感言所说:“我拍了30年电影,从中发现了一个简单的道理:有些作品会成功,有些不会。没必要去深究哪些会成功,继续拍下去就行。”
寻宝者思维要求你从世间的纷繁复杂中找到那些真正有价值的东西,而真正有价值的东西必定你是有可能错过的,所以你得尽可能多的去接触那些可能有价值的东西。
正如肯尼斯·斯坦利和乔尔·雷曼给出的答案:“不拘泥于目标,不要死板地设定具体方案,以兴趣为持久动力,以漫游寻宝为心态,才是抵达伟大与成功彼岸的底层逻辑。”
参考资料:
《为什么伟大不能被计划》 作者:肯尼斯·斯坦利和乔尔·雷曼
《寻宝者思维》 万维钢 《读者》2022年第19期
Novelty Wins, “Straight Toward ObjectiveLoses!”, Reuben Hersh, July 2015, University of New Mexico
Kenneth Stanley: Why Greatness Cannot Be Planned: The Myth of the Objective, Oct 6, 2015, TTI/Vanguard‘s Collaboration and the Workplace of the Future
How Overfocusing on Goals Can Hold Us Back, Andrew J. Smart, Mar 17, 2016, Harvard Business Review
泉果博物馆
肯尼斯和乔尔在《为什么伟大不能被计划》一书中,还讲述了猫王和摇滚乐的故事,用来说明他们的观点——没有目标,反而有可能通往最伟大的发现。
没有人试图去发现摇滚乐,因为无人知道其有没有存在的可能。摇滚乐的灵感源于爵士乐、布鲁斯蓝调、福音和乡村音乐。在某种程度上,上述音乐流派都充当了摇滚乐的踏脚石。
备受尊敬的爵士乐手贝西伯爵(Count Basie)在摇滚乐的诞生过程中起到了思想引领者的作用,他曾说:“如果你想琢磨出一个新的方向,或一种真正的新方法来做某件事,你只需要演奏自己的音乐,然后自由发挥即可。真正的发明家在创作上无非就是‘随心而动,随意而行’。”
“猫王”埃尔维斯·普雷斯利在摇滚乐的普及中居功至伟。有趣的是,他极富辨识度的嗓音,也并非刻意的安排。吉他手斯科特·摩尔(Scotty Moore)回忆道:“猫王突然就开始唱一首歌,蹦蹦跳跳得像个傻瓜,然后比尔拿起他的贝斯,也开始装疯卖傻,随后我也被传染了。录音师探头问:‘你们干嘛呢?’我们说:‘我们也不知道。’”
所以谁能想到,正是猫王不经意间的“失心疯”,而非某种苦心孤诣、旨在改革流行音乐的强烈欲望,改变了摇滚乐的世界。
猫王和摇滚乐的故事说明,目标可能会阻碍新发现,而没有目标,反而有可能通往最伟大的发现。