AGI是Artificial General Intelligence的缩写,即通用人工智能。
AGI的目标是实现人类般的通用智能,这意味着AI可以像人类一样理解任意通用任务, 并以人类的智力水平执行完成。
基本上, 除了"自我意识"的生成,AGI就是人类对人工智能的终极梦想了。
无论是近一年来火爆的AI绘画,还是当红炸子鸡ChatGPT,AI研究应用的终极目标, 都是向着AGI通用人工智能的大一统目标在迈进。
读者是否有同感, 这几年各种AI大模型的发展和突破, 着实有让人眼花缭乱之感?
本文主要把现代到当下一些AI的重要节点做了时间线梳理和简单分析,或有助于大家来理清楚这些年AI发展的关键脉络。
1942年
时间回到80年前, 科幻泰斗阿西莫夫提出了著名的"机器人三定律”:
机器人不得伤害人类,或坐视人类受到伤害;
除非违背第一定律,否则机器人必须服从人类命令;
除非违背第一或第二定律,否则机器人必须保护自己。
这三个定律是人工智能和机器人技术的哲学基础,是对如何设计人工智能系统的基本原则的阐述,至今都有着重要的参考意义。
1950年
计算机科学之父艾伦·图灵(Alan Turing)发表了具有里程碑意义的论文《Computing machinery and Intelligence(计算机器与智能)》。论文预言了创造出具有真正智能的机器的可能性,第一次提出图灵测试(The Turing test)的概念:
如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。
1956年
AI概念诞生。
美国的达特茅斯学院举行了一次具有传奇色彩的学术会议(Dartmouth Conference), 探讨用机器模拟人类智能的问题。计算机专家约翰·麦卡锡提出了AI"人工智能”一词。这被广泛认为是人工智能正式诞生的日子。参与会议的学者们是最早的AI研究先驱。
从1956年到现代,这几十年来AI研究的起伏,有兴趣的读者可以参考本号另一篇文章从爆火的chatGPT讲起: 自然语言生成式AI的前世今生, 你想了解的一切>
当今大众关于AI的记忆,或许是从1997年开始的:
1997年
5月11日, IBM公司的电脑"深蓝”战胜了国际象棋世界冠军卡斯帕罗夫,成为首个击败国际象棋世界冠军的AI系统。
1998年
现代卷积神经网络CNN诞生。
1980年,日本学者福岛邦彦(Kunihiko Fukushima)模仿生物的视觉皮层(visual cortex),设计了人工神经网络"neocognitron”,这是现代卷积神经网络的雏形。
经过多年前赴后继的研究,1998年杨立昆(Yann LeCun,现任Meta首席人工智能科学家)基于前人基础,构建了更加完备的卷积神经网络L.NET-5,在手写数字的识别问题中取得了成功。LeNet-5被认为是现代卷积神经网络的基本结构。
卷积神经网络CNN是当今"深度学习"AI模型的计算基础架构。一直到2017年Transformer架构横空出世后,CNN才被取代。
2003年
Yoshua Bengio在2003年发表了《A Neural Probabilistic Language Model》,这是第一篇基于人工神经网络打造自然语言模型的论文,提出了具有奠基意义的NNLM"神经网络语言模型"。它在得到语言模型的同时也产生了副产品"词向量"。
2006年
杰弗里·辛顿(Geoffrey Hinton)在science期刊上发表了重要的论文《Reducing the dimensionality of data with neural networks》,提出深度信念网络(Deep Belief Networks,DBNs),"深度学习"正式诞生。
2009年
李飞飞主导的Image Net正式发布,有超过1000万数据,两万多个类别。为全世界的AI学者提供了开放的标注图像大数据集。
2010年开始,Image Net大规模视觉识别挑战赛(ILSVCR)开始举办,全世界图像领域深度学习的专家们同台竞技和交流,从此拉开了计算机视觉的新篇章。
2012年
google的吴恩达和Jef Dean使用1.6万个CPU(那时的GPU生态还在婴幼儿阶段)训练了一个当时世界上最大的人工神经网络,用来教AI绘制猫脸图片。训练数据是来自YouTube的1000万个猫脸图片,1.6万个CPU整整训练了3天。
对于计算机AI领域,这是一次具有突破性意义的尝试。AI第一次"生成"了一个图像内容:一张模糊的猫脸
2013年
Google的托马斯·米科洛夫(Tomas Mikolov)带领研究团队发表了论文《Efficient Estimation of word Representations inVector Space》,提出了Word2Vec。
Word2Vec可以根据给定的语料库,通过优化后的训练模型可以快速有效地将一个词语表达成高维空间里的词向量形式,为自然语言处理领域的应用研究提供了新的工具。
2014年1月
谷歌斥资400亿美元收购了位于伦敦的明星人工智能企业DeepMind。
2014年12月
GAN(对抗式生成网络)诞生。
2014 年,Lan Goodfellow从博弈论中的"二人零和博弈"得到启发 ,创造性的提出了生成对抗网络(GAN,Generative Adversarial Networks),他在2014年的NIPS会议上首次发表了相关论文,用两个神经网络即生成器(Generator)和判别器(Discriminator)进行对抗。在两个神经网络的对抗和自我迭代中,GAN会逐渐演化出强大的能力。
作者在最早的文章里形象的把GAN比喻为伪造者和警察:伪造者总想造出以假乱真的钞票,而警察则努力用更先进的技术去鉴别真伪。在博弈过程中,双方都不断提升了自己的技术水平。
GAN号称21世纪最强大的算法模型之一,"Gan之父"Ian Goodfellow也一跃成为AI领域的顶级专家。
2015年12月
OpenAI公司于美国旧金山成立。
OpenAI诞生的原因是很有趣的:DeepMind被Google收购的消息震动了硅谷,如果发展下去,DeepMind很有可能成为最早实现AGI通用人工智能的公司。为了打破GoogleAI技术的垄断,在一次私人聚会后,大佬们一拍即合成立了OpenAI。
其中包括,钢铁侠Elon Musk,当时已是著名创业孵化器 Y Combinator 的负责人现在成为OpenAI CEO的Sam Altman,以及著名天使投资人 Peter Thiel等硅谷大佬。
OpenAI作为一个非营利性组织运营,并立志要做DeepMind和Google无法做到的事情:开放和共享AI技术。
从今天的眼光看,尽管OpenAI后来的商业模式有所变化,但绝对实现了它诞生的最大愿景之一:狙击Google和DeepMind。
ChatGPT的推出加上微软Bing的推波助澜搞得Google实在是狼狈不堪。
2015年
11月, Google开源了重要的深度学习框架Tensor Flow;
同年,还是Google,开源了用来分类和整理图像的 AI 程序 Inceptionism,并命名为 DeepDream。尽管还很初级,但DeepDream被认为是第一个现代的AI绘画应用。
2016年
3月,Google的AlphaGo战胜围棋世界冠军李世石;
4月,Google深度学习框架TensorFlow发布分布式版本;
9月,Google上线基于深度学习的机器翻译;
2015到2016年,Google的AI能力可谓是风头一时无两。
2017年1月
Facebook人工智能研究院(FAIR)开源了PyTorch。PyTorch和tensorFlow从此成为了当今两大主流深度学习框架。
2017年7月
Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到新AI绘画模型,号称创造性对抗网络(CAN,Creative Adversarial Networks),
CAN在测试中,有53%的观众认为AI作品出自人类之手,这是类似的图灵测试历史上首次突破半数,这是AI绘画模型小小而扎实的一步。
Facebook在AI领域其实耕耘了很久,做过很多贡献,可惜后面搞Metaverse连公司名字都改成Meta了, 差点错过了当下这波AI的浪潮。
不过最近小札醒悟过来,终于官宣要All in AI。Meta还是很有实力的,奋起直追应为时未晚。
2017年12月
颠覆性的Tranformer架构出世了!
Googl机器翻译团队在年底的顶级会议NIPS上发表了里程碑式的论文《Attention is all you need》,提出只使用自注意力(Self Attention)机制来训练自然语言模型,并给这种架构起了个霸气的名字:Transformer。
所谓"自我注意力"机制,简单说就是只关心输入信息之间的关系,而不再关注输入和对应输出的关系。和之前大模型训练需要匹配的输入输出标注数据相比,这是一个革命性的变化。
Transformer彻底抛弃了传统的CNN和RNN等神经网络结构。在这篇论文发布之前,主流AI模型都基于CNN卷积神经网络和RNN循环神经网络(recurrent neural network); 而之后,便是Transformer一统天下。
Transformer架构的详细描述不在本文范围,读者只需要知道它具有两点无敌的优势:
自我注意力机制,让模型训练只需使用未经标注的原始数据,而无需再进行昂贵的的人工标注(标注输入和对应输出)。
并行效率是之前的AI模型结构被一直诟病的地方。抛弃了传统CNN/RNN架构后,基于Transformer架构的大模型训练可以实现高度并行化,这大大提高了模型训练的效率;
从此,大模型大数据大算力,大力出奇迹,成为了AI领域的标配。
感慨一下,Google首先发明了划时代的Transformer架构,但在5年后的今天,却被OpenAI打得喘不过气。这是命运的偶然吗?
2018年6月
OpenAI发布了第一版的GPT(Generative Pre-training Transformers)系列模型 GPT-1。
同时,OpenAI发表了论文《Improving Language Understanding by Generative Pre-training》
从论文里可以了解到,GPT-1具有1.17个参数,采用了12层的Transformer 解码器结构,使用5GB的无标注文本数据,在8个GPU上训练了一个月,然后再进行人工监督的微调。
不过,GPT-1并不是当年的明星,因为同年,Google的BERT大模型也发布了(当时的Google就是强啊)。
2018年10月
谷歌发布3亿参数的BERT(Bidirectional Encoder Representation from Transformers),意思即"来自Transformers的双向编码表示”模型。
GPT和BERT的诞生意味着预训练大模型(Pre-trained Models)成为了自然语言处理领域的主流。
和GPT相比,BERT最大的区别就是使用文本的上下文来训练模型,而专注于"文本生成"的GPT-1,使用的是上文。
基于"双向编码"的能力让BERT的性能在当时明显优异于第一代的GPT-1。
幸好,Open AI 并没有那么容易放弃,一直坚持只用上文训练的"单向编码"纯生成模式。直到GPT-3,神功初成。
2018年底
在共同创立公司三年后,钢铁侠马斯克辞去了Open AI董事会职务,原因是"为了消除潜在的未来冲突"。
实际情况是,2017年6月,马斯克挖走了OpenAI的核心人员Andrej Karpathy,担任Tesla的AI部门主管并直接向自己汇报,负责构建特斯拉的自动驾驶系统。
所以,确实是存在人才竞争"潜在冲突"的。
有趣的是,根据前不久的最新消息,ChatGPT大火之后,Andrej Karpathy同学又离开了Tesla回到了OpenAI。这是所谓"鸟择良木而栖":)
而马斯克放出了声音,要打造OpenAI的竞争者。不知首富同学是否遗憾当年不得不放走了OpenAI。
2019年2月
OpenAI发布了GPT-2。
GPT-2有48层Transformer结构,使用40GB文本数据训练,参数量突破到了15亿。
在同时发布的论文 《Language Models are Unsupervised Multitask Learners》 中,OpenAI描述了GPT2在经过大量无标注数据生成式训练后,展示出来的零样本(zero-shot)多任务能力。
所谓零样本学习就是用很大的通用语料去训练模型,然后不再需要做特定任务的训练,大模型就可以直接完成一些具体任务。
一个典型例子是翻译。GPT-2具备了良好的语言翻译能力; 而有趣的是,专门做翻译的模型通常使用标注好的语料(即两个不同语言的匹配数据)来训练。但GPT-2并没有使用这类数据,翻译效果还超过了很多专职翻译的小模型。
GPT-2揭示了一个有趣的现象,仅作为生成式任务来训练打造的大模型,开始具备了多种通用任务能力,比如GPT-2所具备的阅读理解和翻译等等。
2019年3-7月
3月份,OpenAI正式宣布重组,成为一家"利润上限(caped-profit)"的公司,规定了投资收益的上限。这是一个很特别的架构。
而近期披露的OpenAI最新投资架构也再次揭示了这个公司股权结构的与众不同。简单的说,OpenAI把自己租借给了微软,赚到1500亿美金后,将重新变为非营利性组织 -- 至少说是这么说的。
5月,Sam Altman辞去了 YC总裁的工作,开始担任新 OpenAI 的CEO。
7月,重组后的OpenAI拿到了微软包括Azure云计算资源在内的10亿美金投资, 微软将作为"首选合作伙伴”,今后可获得OpenAI 技术成果的独家授权。
自此,OpenAI后续技术成果不再承诺开源。
2020年5月
OpenAI发布了GPT-3。
GPT-3的初始版本在内部代号为"davinci",使用45TB文本数据训练,有1750亿参数。根据公开信息,模型的训练费用是1200万美金。因为太贵,只训练了一次。
随后,OpenAI发表了近70页的论文《Language Models are Few-Shot Learner》。这篇论文阐述了大模型的各种新能力,而最重要的就是标题所指出的小样本(few-shot)学习能力。
"few-shot"是一个专业术语,理解起来也简单,就是通过少量的几个例子就能学习一个新的任务。人们发现,GPT-3开始具有类似人类的能力,只要在提示里展示特定任务的几个示例,GPT-3就能完成新示例的输出。而无需进行针对性的额外微调训练。这也被称之为"上下文学习"(in context learning)
2020年6月
对AI绘画有重要意义的论文 《Denoising Diffusion Probabilistic Models》发表, 引入了DDPM模型。 作为领域的奠基之作,这篇论文第一次把2015年诞生的Diffusion"扩散模型"用在了图像生成上。
用扩散模型生成图像的过程,简单理解,就是我们熟知的图片"降噪":把一幅全部是噪点的随机图像通过AI算法反复"降噪"到最清晰,一个图像便生成了。
DDPM的出现把Diffusion扩散模型带到了一个新的高度。在不久之后,DDPM以及后续的Diffusion扩散模型就全面取代了GAN(生成式对抗网络),成为了AI绘画大模型当仁不让的主流技术。
2020年12月
由于不再认同转型后的公司文化和战略,OpenAI的部分核心团队出走。
12月31日,OpenAI发布新闻稿,宣布其研究副总裁Dario Amodei在OpenAI工作了近五年后离开了OpenAI。
OpenAI正是5年前成立的,这位研究副总看来是妥妥的创始核心。
Dario Amodei带着一些OpenAI的早期核心员工随后创办了Anthropic,推出了ChatGPT的直接竞品Claude。
被ChatGPT逼急了的Google最近刚给Anthropic紧急投资了3亿美金,以获得其10%的股份,并绑定了其云计算提供商的身份。
这里说个小知识,加州没有竞业协议,真的是创业者的天堂!
2021年1月
1月11日,Google发表论文《Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,提出了最新语言模型—Switch Transformer。
这个 Switch Transformer 模型以高达 1.6 万亿的参数量打破了 GPT-3 作为最大 AI 模型的统治地位,成为史上首个万亿级语言模型。
然而,时间会证明一切。2年后的今天,这个万亿参数的Switch大模型在当下似乎没产生任何水花,而千亿参数级别的GPT-3.5系列依然风生水起。这是不是说明一个问题:突破千亿阈值后,参数多少并不代表一切。
2021年2月
Open AI开源了新的深度学习模型 CLIP(Contrastive Language-Image Pre-Training)。
CLIP是一个多模态模型,用来判断文字和图像两个不同"模态"信息的关联匹配程度。
在CLIP之前,也有人尝试过这个方向,但OpenAI最大的创意是直接使用全互联网上已经标记过的图像数据,巧妙的避免了海量数据标注的昂贵费用。最后以接近40亿的互联网"文本-图像"训练数据打造了CLIP。
这次重要的开源直接推动了各大AI绘画模型的迅猛发展。CLIP的多模态能力正是各AI绘画大模型从文字到画面想象力的核心基础。
同时,OpenAI还发布了自己基于CLIP的 AI绘画DALL-E 模型。这或许是大众听说的第一个"文本生成图像"的AI绘画模型了。
从CLIP到DALL-E,显然OpenAI走在了AI绘画大模型潮流的最前端。
只是,OpenAI在AI绘画模型的商业决策上出现了失误:因为没有开放使用DALL-E以及后续DALL-E2,而又开源了关键的CLIP模型,导致目前AI绘画模型的光芒完全被其开源继承者Stable Diffusion,还有付费的Midjourney服务掩盖了。
正是在AI绘画模型上有苦说不出的经历,直接影响了后来OpenAI管理层的决策:决定在第一时间面向公众抢先推出 ChatGPT聊天机器人。
2021年4月
华为的盘古NLP大模型发布,号称是中国第一个千亿参数语言大模型。
2021年6月
6 月 30 日,OpenAI 和 Github 联合发布了 AI 代码补全工具 GitHub Copilot,这个工具可以在 VS Code 编辑器中自动完成代码片段,也是 OpenAI 拿了微软 10 亿美元之后的第一个重大成果。
而Copilot 的AI技术核心正是OpenAI的新模型CodeX。这个模型在随后的8月份也对外发布了。
根据相关论文 《Evaluating Large Language Models Trained on Code》,OpenAI基于GPT-3,使用大量公开代码数据训练出了Codex模型。
Codex拥有120亿参数,使用了159G代码数据进行训练,模型可以将自然语言描述转换为代码。而效果吗,看看码农们对Copilot的赞不绝口就知道了。
AI生成代码的时代终于到来了。
据称,Codex的训练数据来自于公共数据源的数十亿行源代码,而其中最重要的来源,无疑正是微软所买下的GitHub 这个世界上最大的开源代码平台。
使用GitHub代码训练模型这个事情还引起了一些程序员关于代码版权的热烈讨论。
不过,正如画师们对砸了自己饭碗的AI绘画大模型怨声载道而然并卵。。。能力突破的AI对人类初级技能的全面覆盖,恐怕是一个不得不接受的事实。
从商业角度上看,CodeX的诞生和Copilot的成功证明了OpenAI和微软的商业合作确实是一个双赢。
2021年10月
第一个开源的AI绘画大模型Disco-Diffusion诞生!
发布在Github上的Disco-Diffusion是整个2022年AI绘画旋风的起点。从Disco-Diffusion开始,AI绘画大模型突飞猛进的发展让所有人目不暇接,揭开了AI的新时代。
2021年12月
百度第三代文心语言大模型,2600亿参数的ERNIE3.0 Titan发布。
百度文心和华为盘古都是GPT-3量级的模型,关于国产大模型的具体判断,读者有兴趣可以参考本号国产ChatGPT们的真相>一文
2022 年 3 月
OpenAI发布InstructGPT, 同时发表论文《Training language models to follow instructions with human feedback》。
根据论文,InstructGPT基于GPT-3模型做了进一步微调,并且在模型训练中加入了人类的反馈评价数据。
这里出现的RLHF "从人类反馈中强化学习",正是后面ChatGPT所依赖的一个关键技术。
2022年4月
OpenAI发布了AI绘画大模型DALL-E 2。
同一时间,面向公众的付费AI绘画服务Midjourney也发布了。
和开局王炸,第一年就赚取了大把真金白银的MidJourney相比,使用受限的DALL-E 2并没有在大众人群里产生多少影响力。
如之前所说,OpenAI在绘画大模型的开放上过于保守了,也许还有优先和微软技术合作的考量在内...
总之,非常遗憾,绘画模型的风头完全被付费的Midjourney和随后的Stable diffusion抢走。
2022年5月
OpenAI发布代号为text-davinci-002的新版大模型,GPT系列正式迈入3.5时代。
有趣的是,按照OpenAI官方文档说法:
is a base model,so good for pure code-completion tasks
is an InstructGPT model based on
就是说,代号为code的002号模型是3.5系列的基础模型,而代号为text的002号模型是基于code 002模型用指令微调技术得到的 (insturctGPT)
如果,OpenAI没有在模型名字上混淆视听,一个有趣而合理的推断是:GPT-3.5系列的基础核心模型首先是依赖于代码(Code)大数据训练,而不是普通文本(Text)训练的
如果这个推断差不太多,那么众多ChatGPT的追随者们,如希望自家能力真正比肩基于GPT-3.5的ChatGPT, 那必须要补的一课,就是代码数据的训练了。
2022年6月
6月15日,谷歌研究院联合DeepMind和斯坦福大学等在arxiv上发表了一篇论文:《Emergent Abilities of Large Language Models(大语言模型的突现能力)》。
这篇综述性的文章对过往文献结论做了整理,研究了5 个语言模型系列(谷歌 LaMDA,PaLM 和 OpenAI 的 GPT-3,以及 DeepMind 的 Gopher,Chinchilla )的 8 种突现能力。如下所示:
其核心要点是:
大模型拥有复杂推理和思维链能力。所谓思维链,是指在输入里写出示例的具体推断步骤,大模型就可以实时学习这个推理(并不需要重新训练)并给出相仿示例的正确答案; 并且,大模型可以拆解复杂推理步骤一步步得到最终结果。
思维链能力是突然"涌现"的,如上图,当参数规模超过千亿时,思维链能力就指数级爆发了。
根据目前观察,参数达到千亿以上的大模型才可能拥有强大的思维链能力,而这只是必要条件:有些千亿参数大模型没能展现出思维链能力。
事实上,根据OpenAI的内部研究,初始版本的GPT-3 思维链能力也很弱,而以为基础的GPT-3.5版本系列则体现了很强的思维链能力。因此,一个有趣的假设是,GPT-3.5系列思维链能力的"涌现",除了达到千亿参数的基础条件外,使用代码进行训练也是一个必不可少的前提。
这个假设对于码农来说很容易接受:程序代码语言本身就特别强调逻辑严密性,而且上下文清晰没有混淆之处(这里特指那些"好"的代码...)。
所以,如果说学习"好的代码"能提高人类或者AI的逻辑思维和推理能力,程序员们一定不会反对这种看法。
2022年7月
DeepMind破解了几乎所有已知的蛋白质结构,其AlphaFold算法数据库里包含了2亿种已知蛋白质结构,这将是人类生命科学的重量级弹药库。
被Google收购之后,DeepMind的活力已经大不如前,至少在聚光灯下是如此。这一次,在另一条重要的赛道上,这家老牌团队还是努力刷出了存在感。
2022年8月
stability.ai开源了Stable Diffusion绘画大模型的源代码!
开放模型数据使用的AI模型不少,但开放全部源码的顶级AI大模型可以说寥寥无几,Stable Diffusion就是其中最耀眼的开源明星。
Stable Diffusion是当今技术最顶尖的AI绘画大模型; 基于Stable Diffusion开放的源码,大游戏公司的自建AI美术资源生产流程,创业小团队的AI绘画相关产品,已经如同雨后春笋般涌现出来。
2022年9月
红杉资本发布了传播甚广的文章《生成式AI:一个创造性的新世界》,文中预测,生成式AI有可能创造数百万亿美元的经济价值。
不得不说,红杉的嗅觉绝对是这个星球第一的:
仅仅两个月后,注定载入科技史册的ChatGPT就发布了。
2022年10月
Meta推出Make-A-Video,Google推出Imagen video,两巨头几乎在同一时间推出了文字生成视频的模型。
尽管当前"文字生成视频"的大模型还纯属玩具阶段,和已经进入工业生产状态的AI绘画模型无法相提并论。但这仍然是个好的开始:人类动动嘴皮子,已经可以生成高质量的音乐和图画了; 没有理由不相信,不久的将来,AI可以直接从文字描述生成高质量的长视频。
大胆再往前走一步:加上ChatGPT这类AI的文字生成能力,人类很快连编故事都不需要,就可以得到一部电影视频了。
只是,这一天的到来,人类自己是否已经准备好了呢?
2022年11月
ChatGPT发布。随后的事情,大家都知道了。
有意思的是,ChatGPT并不在OpenAI原本的产品路线图上,完全是无心插柳的结果。
我们知道,为了进一步改进GPT-3系列模型,OpenAI走上了"从人类反馈中强化学习"(RLHF)的路子。为了让AI能持续和人类沟通来不断反馈完善模型,搞出一个聊天机器人就是最好的用户测试接口。
基于这么一个简单的理工男思路,从2022年初开始,团队开始打造ChatGPT。
然后,打造出了一个惊世骇俗的AI产品。
已有众多文章360度无死角点评了ChatGPT,这里仅简单列举一些有趣的点。
ChatGPT的特点:
ChatGPT具有很强的逻辑推理能力,能拆解复杂的内容,分成多个步骤进行推理,得到最终答案。这也就是"思维链"级别的推理能力。
ChatGPT可以主动承认错误,听取用户意见,并优化答案。
ChatGPT可以质疑不正确的问题,可以承认自身对专业技术的不了解。
ChatGPT的局限性:
一本正经胡说八道:ChatGPT有很强的"创造可信答案"的倾向,会给出有误导性的回答。而且错误隐蔽在正确的信息之中,难以发现。这和生成式AI的本性有关:AI倾向于生成一个看起来正确的内容。
然而,和AI绘画输出有点小问题无伤大雅的性质完全不同,这也许是文字生成式AI在应用上的致命问题:
如无法确保输出的100%正确性,那么其实际应用价值将大打折扣。
输出对问题措辞敏感:同一个问题,调整提问的方式,可能会得到不同的回答。这意味着输出结果还不够稳定。
缺少垂直领域知识:这倒是创业者们的好机会。基于ChatGPT系统打造专属的垂直领域大模型吧。
算力昂贵:千亿参数级别的模型,即使是跑模型应用(不是模型训练),也需要大量算力。当然了,这是大厂商们云计算的好机会。
2023年2月
OpenAI的CEOSam Altman这几天刚发了新文章,宣布OpenAI的使命是确保AGI造福全人类:
"长期来看,过渡到一个拥有超级智能的世界可能是人类历史上最重要,最有希望,最可怕的项目"
列举一下Sam Altman在文中阐明的OpenAI三原则:
希望 AGI 能够赋予人类在宇宙中最大程度地繁荣发展的能力
希望 AGI 的好处、访问权和治理得到广泛和公平的分享。
希望成功应对巨大风险。在面对这些风险时,理论上似乎正确的事情在实践中往往比预期的更奇怪。
作为前文的呼应,也列出时间线第一条的"阿西莫夫机器人三定律",相互参考。
机器人不得伤害人类,或坐视人类受到伤害;
除非违背第一定律,否则机器人必须服从人类命令;
除非违背第一或第二定律,否则机器人必须保护自己。
从80年前阿西莫夫的天才想象,到今天,AI能力已真切影响着每一个普通人的生活 (甚至砸掉人的饭碗)。
AGI的愿景仍在不远的前方,但一个AI的时代已经到来。