下面就这 10 个灵魂拷问,分享一些我自己的观点。
如果做基础大模型,需要上亿美金的前期投入,如何融到这么多资,如何招到靠谱的算法、数据和 infra 团队?现在已经有这么多做基础大模型的公司,包括巨头和明星创业公司,现在入局已经没有先发优势,如何跟这些大佬竞争?
如果不做基础大模型,只是用其他商用模型的 API,成本太高;开源模型的能力又不足。如何建立护城河?
我的观点:这涉及到对大模型未来趋势的判断。很多人认为基础模型未来是巨头赢者通吃,美国几家,中国几家,像目前的云计算市场一样,大多数市场都被几家巨头占据,很难有小公司的机会。
我认为这个判断只是部分正确。最强大的基础模型,比如 GPT-4 甚至 GPT-5,很可能是闭源模型,出现赢者通吃的局面。但这样的模型推理成本会很高,就像现在 GPT-4 读一篇论文要 10 美金,只有高净值客户和探索科学前沿的场景才消费得起。而更广泛的需求,比如聊天、语音助手、智能客服、简单文书写作、知识问答等,目前 LLaMA 2 经过适当微调后已经基本满足需求,未来一年开源模型的能力会快速进步,赶上 GPT-3.5 的能力,可以低成本地满足大众需求。
可以说,GPT-4 甚至更强的模型是苹果,开源模型是Android/ target=_blank class=infotextkey>安卓,分别对应不同的市场。开源模型的市场可能更大,但也会更加百花齐放。闭源模型的市场也不小,但会高度集中。
为什么我认为开源模型的能力会不断进步呢?一方面,大模型训练的算法和数据逐步变得平民化,越来越多的信息被公开或者泄露出来,像 Vicuna 这样的微调模型事实上是在从 GPT-4 中 “蒸馏” 数据;另一方面,目前已经是百模大战的局面,如果一家公司的模型不足以竞争过最强大的闭源模型,那么会有一些公司选择走开源路线,就像如今 Meta 占据了开源模型的先机。
未来大规模的应用为了降低成本,一定会使用不同大小的模型解决不同难度的问题;同时还有一些结合了行业私有数据和 know-how 的模型,尽管可能只是在基础模型上微调,但私有数据和流程成为护城河。这就像是如今云计算平台会提供不同型号的虚拟机,有的 CPU 多,有的内存多,有的 GPU 多,等等。基础模型也将像云计算平台的 IaaS 一样,成为一种重资产的通用基础架构(云计算的资产是服务器,大模型公司的资产是模型和数据),几年之后拼的主要是成本。
To B,容易陷入定制开发和价格战,像上一波 AI 浪潮中的一些公司一样,最后拼的是客户关系和价格。技术团队创业,能搞定客户吗?做的事情除了 AI 本身以外,还有很多外包性质的定制化开发,规模不容易 scale,明星创业公司的人力成本那么高,能把工资和 GPU 成本赚回来吗?
To C,国内能拿到牌照吗?就算拿到牌照了,敢保证不输出违规言论吗?技术团队创业,能搞定 C 端产品的设计和营销吗?面向 C 端的大模型能收回成本吗?
如果做海外市场,现在中美关系这么紧张,美国客户放心用中国公司的产品吗?就算公司运营主体放在美国,中国人的身份还是不令人放心。
我的观点:To B 其实是两类截然不同的市场,to 小公司和 to 大公司、政府。
To 小公司还是像 to C 一样,做规模化可复制的产品,采用订阅或者 API 收费的模式。国内的 to 小公司相对海外来说难做一些,因为国内公司的付费能力不如发达国家那样强。如果是做大模型本身,做应用的公司为 API 付费是天经地义。但如果只是做大模型和应用之间的中间件,国内的付费意愿相对较弱。因此中间件公司最好是把大模型包起来,提供模型 + 中间件的解决方案。
To 大公司、政府是高度依赖客户关系的,技术可能不一定是最重要的,团队内一定要有懂商业的人。团队需要构成人才梯队,不要都招高端人才。大单中包括一定的外包性质的定制化开发工作,由普通程序员做就行了。
To C 是高度依赖产品设计的,技术也不一定是最重要的。在很多场景下,普通用户不一定能感知到 GPT-4 和 LLaMA 70B 的差异。团队中一定要有懂产品的人。不是所有事情都让 GPT-4 做,有些事情甚至不用大模型就能做。就像我们不会每个开发任务都雇佣最顶级的程序员,不同级别的程序员承担不同类型的开发任务。
不管是 to B 还是 to C,尽量不要定位成取代人,而要定位成人的助手,能够帮助人扩展能力的边界,做到一个人自身能力做不到的事情。比如一个不懂编程的人可以在 ChatGPT 的帮助下,用一个星期的闲暇时间开发一个前后端齐备的网站。一个没有很多学术背景的 AI 程序员可以在 ChatGPT 的帮助下,一天读 100 篇 AI 领域的最新论文。
首先,做助手可以避免模型不可预测性带来的很多风险,因为模型不会自主去做可能产生严重后果的事情,而是需要人的确认。这就像秘书不会代替老板做出重大决策一样,只是会给老板一些决策参考。其次,智能助手相比通用问答可以规避很多合规风险。
海外市场不等于美国市场,美国政府不等于美国人民。首先,有很多跟中国友好的国家和地区仍然可以做生意。其次,即使在美国,to C、to 小公司相比 to 大公司、to 政府在背景审查方面的要求没有这么严格。
现在拜登不允许美元资本投资中国的 AI 公司。就算有办法拿到美元资本,有美元资本投资的公司就很难做中国的政府和国企项目了。就算公司设在美国,做出海生意,中国人也很难拉到白人的投资。
人民币资本的出资方对回款周期要求较高,在 A 轮及以后经常要求创业者签署回购甚至对赌协议,资本对公司快速产生营收的压力会很大。
我的观点:创业公司除非是全明星团队,不宜一开始铺的摊子太大。更适合从细分市场(niche market)开始,寻求细分市场垄断,快速产生营收,然后提炼出可复制的产品,扩展到更广阔的领域。
大多数创业公司一开始只需要一个孵化器性质的天使投资人,如果团队内有大佬,甚至不需要投资人。等到产品到了可规模化复制的阶段,再引入投资人。这也是历史上大多数创业公司的路线,先有产品和用户,后有投资,而不是先用 PPT 拉大量投资,压上自己的所有声誉,还背负着变现的沉重压力。在有盈利的情况下再引入投资,不仅更容易,条款也通常对创业者更为友好。
我认为创业公司最大的两个优点就是 fast 和 privacy。Fast 就是船小好调头,敏捷开发,快速试错。很多公司一开始做的产品并不是最终形成可复制商业模式的产品。Privacy 就是不被人过度关注,一方面避免商业机密泄露,另一方面避免在方向争论和说服别人中花费过多精力,不管白猫黑猫,抓住老鼠就是好猫。
在当前的国际形势下,如果不打算押宝一边的话,中美双线布局是一个可行的做法,两边的运营主体、投资人、算力平台、客户都可以隔离,这样不管风云变幻,都有两条路可以走,可以满足不同区域客户对合规的需求。
手机的智能助手依赖手机作为入口,办公的智能助手依赖 office 套件作为入口,企业管理的智能助手依赖 ERP 和 OA 软件作为入口,社交的智能助手依赖社交软件作为入口……
是不是这一波 AI 的机会都在大厂,只要把现有应用加上一个自然语言接口,就从原来的 GUI 变成了 NUI(Natural language UI)?这样的话,创业公司很难有机会。
我的观点:移动互联网最早期的应用确实是把传统互联网应用套上了一个移动 App 的壳子,比如网易变成了网易新闻客户端,百度变成了百度客户端,淘宝变成了淘宝客户端。但移动互联网浪潮也诞生了很多移动原生(Mobile Native)的 app,这些应用没有手机就不可能存在,例如:
大模型时代有没有 AI Native 的 app 呢?其实目前就有很多。例如:
当然,AI Native 应用还存在很多问题,例如大模型的高成本、幻觉、安全性、多模态、可靠执行长流程任务、长时间记忆、引入企业内部知识库等问题尚未解决,导致应用场景受限。如果真的解决了所有这些问题,头号玩家或者西部世界将不再是梦想。这也正是做技术的好机会:这波 AI 浪潮将更多地有技术驱动,而不仅是由产品和商务驱动。
为什么 16 年这波 AI 浪潮不是移动互联网级别的机会,而大模型这波就是呢?首先,16 年的 CV 和 NLP 都是单点技术,很难泛化到通用场景,每个场景都需要大量定制成本。而这一波大模型是通用技术,GPT 本身就是一语双关(Generative Pretrained Transformers,General Purpose Technology)。
其次,大模型成为了人类脑力的延伸。为什么移动互联网重要?因为智能手机是人类感觉的延伸。目前的大模型已经能够帮人做一些简单重复的脑力劳动,也能帮人做图片视频生成这类人类不擅长的事情。未来的大模型会成为人类智力的延伸,比人更聪明,那将又是一次巨大的机会。
AGI(通用人工智能)是 AI 领域的圣杯,它达到甚至超越人类的智能,一旦做成,人类可能都不用做脑力劳动了,人类的社会形态可能都会发生巨大的变化。你们的路线图是否通向 AGI?
你们现在做的东西在 AGI 的关键路径上吗?如果不在,以后是不是就被取代了?
我的观点:要不要做 AGI,其实跟要不要做基础大模型是类似的问题。就目前大多数人的认知,AGI 需要非常大的模型,消耗的算力巨大。我在接受智造公社采访的时候就说,算力可能成为 AGI 的关键瓶颈。
算力瓶颈体现在材料和功耗两方面。材料方面的限制是芯片产能,虽然硅在地球上的储量巨大,但把硅变成芯片的工艺非常复杂,需要大量的精密仪器和其他材料,因此芯片的产能有限。现在台积电的先进工艺已经被预定一空,其中英伟达明年可能有 100 万片左右的 AI 芯片产能,其中大约一半已经被微软和 OpenAI 预定走,剩下的也要优先供应美国,中国的所有公司能拿到芯片就谢天谢地了。因此,目前在美国订购 H100 需要几个月的货期,在中国订购 H800 更是货期在半年以上。
CoreWeave 通过跟英伟达合作,拿已有的 AI 芯片抵押用来买新的 AI 芯片,已经融资 23 亿美金,比头部 AI 应用公司加起来的融资额都多,真是卖铲子的比淘金的赚钱了。CoreWeave 的 H100 零售定价 7 个月就可以回本,即使大客户价格较低,相比通用云计算来说也是回本非常快了。
功耗方面的限制是能源,目前人类在可控核聚变、常温超导等领域还没有取得突破性进展,能源的供给只能线性增长,能源的消耗又受制于芯片的制程。目前数据中心已经占到人类总能源消耗的 2% 左右,很难大规模提升。能源稀缺具体的表现就是 IDC 租用资源紧张,在发达地区新建数据中心也受到很多限制。
算力瓶颈跟 AGI 有什么关系呢?AGI 需要大量的算力,而芯片制程、芯片产能和能源又限制了可用算力的总规模,因此至少在短期内,AGI 仍将是非常昂贵的东西。
AGI 非常昂贵的特性决定了它主要服务于高净值客户和前沿科技探索。就像大多数人不会找一个院士来辅导小学数学题,大多数需求一定是用更为廉价的模型解决。小学老师和院士都是社会中非常关键的职业,它们的分工不同。
哪些公司适合做 AGI?基础大模型的头部公司,就像微软有 MSR,google 有 DeepMind 和 Google Brain,Meta 有 FAIR,华为有 2012 实验室,阿里有达摩院,等等。国内做基础大模型的几家头部创业公司也有很好的机会。大公司的财务状况越稳健,在基础研究上的投入就会越多。当然,当小公司成长到一定规模,也有做基础大模型甚至 AGI 的机会。
做成 AGI 并不意味着人类不再需要脑力劳动。AGI 就算再聪明,也需要人类告诉它做什么。在充满了 AGI Agent 的世界中,每个人都需要完成从独立贡献者到团队贡献者的转变,带领一批 AGI Agent 协作完成任务。
大模型的幻觉问题众所周知,例如问它 “林黛玉倒拔垂杨柳” 可能就编出一大段子虚乌有的故事。越小的模型幻觉问题一般越严重。
在企业级场景中,幻觉的后果可能很严重,例如问大模型去年某个项目执行的情况怎么样,这个项目根本不存在,如果模型编出了一堆故事,还因为它学习了企业内部项目的惯例而编的像模像样,那没有人敢放心使用这个大模型。
我的观点:幻觉问题本质上是由 Transformer 的训练方法和测试数据集的设计导致的。标准化的测试数据集,都是像人类的考试一样,出一些题,答对了就给分,打错了不得分。老师很早就告诉我们,考试时哪怕不会也不要空着,特别是客观题,万一蒙对了呢。
Transformer 的训练方法也是捂住一个 token(可以理解成单词),看能不能预测对下一个 token。大规模预训练语料基本上都是有问题、有答案的,内容不会戛然而止,因此训练出的模型也是很少输出 “我不知道”。
因此,要解决幻觉问题,本质上要从训练和测试数据集开始,不能仅靠 alignment(对齐)。例如,测试时针对回答错的情况应该倒扣分,不回答只是不得分。
从短期来看,解决幻觉问题还有两个权宜之计。第一是构建模型的 “测谎仪”。我们知道人在说谎的时候脑电波会有波动,测谎仪就是这个原理。那么大模型在编造事实的时候,它内部的状态是否也有异常之处呢?是否可以构建一个小模型,使用大模型推理过程中的中间结果,推断模型是否在说谎呢?
第二是在大模型之外构建事实校验(factual check)系统。事实校验可以使用向量数据库、基于关键词的传统信息检索技术、知识图谱、搜索引擎等构建外部知识库。将用户的问题和大模型的回答拿到外部知识库中搜索,用另外一个大模型比对大模型回答与 top K 结果所述事实是否匹配。如果匹配,那么大概率不是在胡编乱造;如果不匹配,那么有可能就是在胡编乱造。
解决幻觉问题可能还能使较小的大模型表现出相当于较大的大模型的能力。实验证明,未经对齐的大模型知道更多的细节,例如科大的某门课是哪个老师教的,这种级别的细节大模型都知道。但经过对齐之后,大模型就只知道科大的校长是谁了。也就是说,微调和对齐会丢失模型通用能力中的细节记忆。如果通过模型外围系统更更好地解决幻觉、安全性等问题,有可能较小的大模型也能表现出不俗的事实记忆能力,从而降低成本。
Infra 在国内一般叫中间件。国内喜欢端到端的整体解决方案,把中间件单独拆出来不好卖。
云厂商是不是也会做 infra?云厂商也会做高性能训练和推理平台。
大模型的开发者是不是也会做 infra?LangChain 未来会不会成为模型的一部分?
我的观点:大模型 infra 可以分为三类:诸如 CoreWeave 的算力平台,诸如 Lepton.AI、Colossal 和 OneFlow 的训练和推理系统,诸如 LangChain 的模型和应用之间的中间件。
算力平台就是提供算力租用的云服务,根本优势在于规模。规模越大,能拿到的硬件价格就越低,同时建设数据中心的固定开销能被分摊。但这是否意味着小的算力平台就没有机会了呢?
如果 AI 算力没有成为瓶颈,那么就像通用 CPU 算力一样,小的算力平台很难有机会。就像区块链熊市的时候只有大型矿场才能利用规模优势和电力成本优势赚到钱,挖矿的散户很难回本。但目前的 AI 算力成为瓶颈,很多云厂商的 A100/H100 都售罄了,就像区块链牛市的时候一样,只要有渠道买到 GPU 卡,哪怕转手卖掉,都能赚钱。这就像我 2017 年挖矿的时候一样,尽管我是用零售价买卡,用的是 1.5 元一度的工业用电,但仍然能赚钱。
在 GPU 卡短缺、数据中心能源短缺的今天,算力平台的关键竞争力是能搞到卡。小型算力平台也可以找到小公司作为客户,甚至一些比较大的大模型创业公司都在以几十台的增量租用 GPU 卡。只要这波 AI 热潮还在继续,算力平台就是一门稳赚不赔的生意。
训练和推理系统一方面是优化,一方面是简化编程。
优化方面包括提高性能,降低成本,降低延迟,减少故障导致的停机时间等。我认为,训练性能优化的空间相对比较小,因为 state-of-the-art 的训练框架在中小规模集群上已经能够达到 70%~80% 的有效算力利用率,提升的空间不多了。大规模集群的训练受到网络带宽和故障的影响,有效算力利用率还不高,优化的空间较大。
现在大多数框架对故障处理的优化还相对较少,事实上 checkpoint、故障检测、topology-aware 的故障恢复都有很多可做的,而且有些研究说明直接忽略故障节点的梯度也是一种可行的方法。
推理性能优化的空间更大,因为 Transformer 的结构,很多场景下有效算力只有 10%~20%。如果做 batching,时延和带宽又会成为 trade-off。学术界因为大多数时间都花在训练上,推理优化相关的研究也较少。比如 Berkeley 的 vLLM 可以把推理性能优化 2~4 倍。此外,模型本身的一些改进也可以大幅优化推理性能。
PyTorch 就是靠编程简单打败了 Tensorflow。在大模型时代,由于预训练模型加入少量领域私有数据就能微调出一个领域模型来,很多场景下甚至连数据标注都不用,只要把领域内部资料扔进去就行,这就大大降低了大模型微调的门槛,使不懂编程、不懂大模型的人也可以做微调。例如百度的 EasyDL 就是做这个的。
模型和应用之间的中间件目前国外做的比较多,例如 LangChain、AutoGPT、Martian 等等。国内一些人认为随着大模型能力的提升,大模型本身会逐步收编中间件的能力,因此只要把大模型做好就行了。我不认同这种观点。
如果把大模型想象成一个人,中间件就是社会规则,把人组成一个社会。当人类还在原始社会的时候,几乎没有社会规则的概念;而随着文明的进步,人和人之间的关系愈发复杂,社会规则也更加完善。《人类简史》认为,人本身的智力在几千年间并没有显著的提升,人类使用工具的能力和人类的社会组织结构才是人类文明之光。我认为,大模型本身的智商固然重要,大模型与外部环境交互的能力和大模型之间协作的组织结构才能让大模型走得更远。
LangChain 解决的是大模型与外部环境交互的问题,如何对接外部数据怨,如何构建长期记忆,等等。
AutoGPT 解决的是大模型之间协作的问题,它当然还有一些局限,MindStorm 这个学术工作在它基础上做了一些改进。不过这些工作最大的问题是 AI 在完成任务的时候完全是独立自主的,人类无法对其施加影响。试想一个产品经理让一个程序员开发一个软件,一开始把软件设计需求写得清清楚楚,然后就当甩手掌柜等着程序员全部做完,不靠谱吧?一般都是边做边沟通,及时修正设计。因此,执行复杂任务的大模型系统一定需要有与人类实时沟通的能力。
Martian 解决的是如何将用户请求路由到多种大模型的问题,对每个问题在每个大模型的回答质量、成本和延迟进行估计,然后根据用户对回答质量和成本、延迟的需求,选择合适的大模型。它的基础假设就是不同大模型擅长不同类型的任务,并且成本高的模型回答质量高,成本低的模型回答质量低。
NVIDIA H100 还支持了机密计算(confidential computing),可以保证模型和数据不会被泄露,从而使得把模型部署到第三方的云平台更加安全。
最后还要提一点,模型和应用之间的中间件有可能成为新的编程语言和程序调用(RPC)接口。大模型的一大特点是能够把编程界面从程序语言改变成自然语言,从而使得自然语言编程成为可能。这就不仅改变了人机界面,还改变了机器与机器的界面。
公司有什么护城河?是技术,是客户资源,还是什么?
我的观点:基础模型公司的护城河:算法、算力、数据、品牌。算法、算力和数据是众所周知的 AI 三驾马车。但以这三点作为护城河也存在很多挑战。
因此,就像搜索引擎一样,单靠算法、算力和数据堆出来的搜索结果质量并不能决定一切。在百模大战中,品牌是很关键的。比如,就算现在 GPT-4 变笨了,Claude 在很多场景下已经追得不错,Claude 还支持更长的上下文,大多数人仍然更相信 GPT-4,这就是品牌的力量。在大模型能力不成熟时,不要急于发布自己的大模型。例如能力比不上 LLaMA 的模型就不要发布了。
应用公司的护城河:成本、个性化、网络效应。第一,如果读一篇论文还是像 GPT-4 那样需要 10 美金,生成一段 7.5 分钟的视频还是像 Runway ML 一样需要 95 美金,大多数人就不可能用得起大模型。如何低成本地实现高质量的内容生成,是应用的关键竞争力。
第二,目前的大多数 AI 应用比较通用,缺少个性化,例如生成图片、写文章的工具都没有考虑到用户的个性,用户粘性不强,可替代性高。现在的聊天机器人甚至不会主动联系用户,都是问一句答一句,就更不用说有自己的思想、情感和故事了。我认为,个性化的 agent 或者 assistant(助手)会成为未来大模型应用的趋势。
在移动互联网浪潮中,个性化推荐已经是提高用户粘性的关键技术。这一波大模型浪潮,个性化仍将是提高用户粘性的关键。一个陪伴用户多年的大模型就像一个合作多年的伙伴,会产生信任和依赖。大模型在解决长上下文和外部知识库问题后,不需要针对每个用户进行微调,就可以用统一的模型服务海量用户的个性化助手,并保证用户间数据的隔离性。
第三,目前的大多数 AI 应用中,每个用户都是一个信息孤岛,缺少用户之间的互动。
网络效应是互联网浪潮的重要推手。网络效应就是所谓的梅特卡夫效应(Metcalfe Effect)。一个网络,用的人越多,这个网络对每个用户的价值越大,就有越多的人愿意成为这个网络的用户,这个网络的价值就越大,形成良性循环。
Facebook、Linkedin 都是利用了网络效应,但网络效应不只适用于社交网络。铁路网、公路网、电网等运输网络,以及电报网、电话网等通讯网络都有网络效应。在互联网浪潮中,Google 的 PageRank 是页面之间的网络,索引的页面越多,PageRank 就越精准。eBay 是根据用户之间的交易网络来评估卖家的声誉。Paypal 也是根据用户之间的交易网络来发现欺诈。
我认为,基于大模型构建的个性化助手应该形成一个社交网络,就像斯坦福搞的 generative agents 一样,能够在虚拟世界中自主交互和行动。这样就能形成网络效应,社交网络中的 agent 越多,网络对每个 agent 的价值就越大。
中间件公司的护城河:生态。中间件的竞争力关键是性能吗?成本对应用公司来说确实很重要,因此性能也是中间件的关键竞争力,但是很难成为中间件公司长期的护城河,因为研究训练推理性能优化的人太多了,并且有效算力利用率的极限就是 100%。
在软件的世界里,做的早比做的好很多时候更重要。比如谷歌的 gRPC,性能其实不算好,但是已经成了 RPC 的事实标准。只有需要极致性能的用户才会考虑用其他优化过的 RPC 框架。gRPC 成功的地方就在于生态,它可以与服务治理、负载均衡、Web service 等很多外围组件集成,如果换成其他 RPC 框架,这些外围系统很多是没法用的。
大模型中间件同样需要占据生态位,与上游应用、下游基础大模型和其他中间件集成。这种集成最好不是像 OpenAI API 这样很容易被替代的。
很多 to B 的公司容易陷入外包定制,从这里拿到一单,再从那里拿到一单,每一单的需求都不是标准化的,需要大量定制化开发。结果虽然初期就有一定的营收,但规模很难扩大。
很多 to C 的公司做出一个产品之后,可能只是火一阵,没有形成用户粘性;也可能面向的客户群体或者推广能触达的客户群体比较小,其他潜在的客户群体不知道这个产品的存在。
我的观点:是否能 scale,关键在于产品有多通用。通用市场和细分市场其实是一对矛盾。通用市场规模一般比较大,但是客单价往往较低,而且竞争对手众多;细分市场规模较小,但是很多有较高的客单价,竞争对手相对也少一些。并不是越通用,理论上模式越 scale,最后营收和利润就一定最好。小而美的创业公司也很可能不错。
上一波 AI 主要是 to B 的市场,而且解决方案通用性不强,因此经常需要针对客户需求进行定制。大模型的特点就是通用性强,因此如果要做到 scale,一定需要做通用的产品。就像华为有很多行业解决方案,但都是由标准化的基站、交换机、路由器等组合而成,不会为每个客户定制一套基站。
一些 to B 的客户仍然会有非 AI 的定制开发需求,此时如前面讲的,需要组成人才梯队,不是所有任务都需要派出海军陆战队,外包开发的任务派民兵去就行了。
To C 的用户粘性问题在前面已经回答过,一方面是个性化,另一方面是网络效应。设想一下《头号玩家》的场景,就能知道现在的大模型还有多少差距,该往什么方向努力了。现在很多人总是说 AI 缺少应用场景,其实电影和科幻小说里面已经给了一些参考答案了,做不出来是技术或者成本的问题。
用滑雪场打个比方,雪道多宽指的是市场规模,雪道多长指的是行业所处的阶段,雪道的坡度指的是行业的竞争格局。需要搞清楚所做的事情是 “+AI” 还是 “AI+”,也就是这件事情是不是离开了 AI 就做不成了。如果 AI 仅仅是锦上添花的作用,那么就要小心是不是可能更适合现有的玩家。
L4 自动驾驶之所以难做,不仅是因为上一代 AI 技术不够通用,需要大量的 if-else 来处理 corner case,更重要的是法律问题,万一自动驾驶撞死了人,谁去坐牢?AI 能帮人做很多事情,就是不能帮人坐牢。
如今各国政府对大模型也有很多监管要求,是否有可能在不阉割模型通用能力的前提下,满足隐私和内容合规方面的监管要求?
我的观点:大模型的定位应该是助理,这就意味着法律责任主要是在用户,这也是目前软件和互联网产品通行的责任归属方式。在一些场景下,助理也可能自主作出一些对外部环境有影响的行为,这时如果做错了,大模型开发者就需要承担法律责任。
针对隐私和内容合规问题,大模型自身当然可以通过 alignment 来减少不合规内容的输出,但 alignment 做得过强又容易损失模型本身的能力,例如 LLaMA 2 Chat 对于 “How to kill a linux process” 的问题也会拒绝回答,这就闹出笑话了。我认为,与其阉割模型本身的思想,不如在模型外部增加内容合规检查。
内容合规检查不是简单的敏感词匹配,否则就变成了 “我爱北京敏感词,敏感词上太阳升”。内容合规需要是独立的大模型,使用合规和不合规内容构成的语料库训练,在输入和输出层面上都可以做。
为什么说阉割模型本身的思想很难呢?由于中文语料的质量和数量相对英文语料都更少,即使做中文大模型,一般也需要用英文和中文语料同时训练。如果单纯使用贴吧之类的中文语料,训练出来的模型可能是一个段子手,但难以回答严肃的问题。这样一来,即使我们能保证中文语料的合规性,但很难保证英文语料也都是合规的。此外,如果大模型完全没见过不合规内容,那么就没有能力识别它,可能很容易就掉进了坑里。
在本文中,从消除幻觉、个性化到内容合规,我反复强调模型外围系统的重要性。基础大模型就像是计算机体系结构里的 CPU,外围系统就像是围绕 CPU 的内存、磁盘、网卡、GPU 等芯片。计算机操作系统、分布式系统和体系结构里的很多概念都可以在大模型系统中找到对应,我在《从网络到 AI:我的一点思考》中有所阐述。
隐私问题其实并不难解决,只要不拿用户的数据做训练就行了。因为 ChatGPT 用了用户的数据做训练,很多人认为隐私问题很难解决。其实很容易。
问题来了,如果不允许使用用户数据做训练,那么如何构建数据飞轮呢?尽管有很多隐私计算的技术,但我认为保护隐私和数据飞轮可能本质上就是难以兼得的。举一个简单的例子,用户问了一个隐私话题,”A 是 B 的女朋友吗“,并且对回答进行赞或者踩,如果根据用户反馈的赞或者踩更新了模型,那么大模型就学到了 A 和 B 之间关系这个隐私信息。
大模型创业正在从狂热逐渐回归理性。狂热是因为大家发现 AI 真的能够理解自然语言了,通过了图灵测试,成为了一项通用技术。回归理性是因为大家意识到,大模型距离走进千行百业、改变人类生活还有一定距离,一方面是可控性、安全性、长期记忆等基础能力仍然存在差距,另一方面是成本仍然较高。
大模型创业总是面临大量的灵魂拷问。想,都是问题;做,才是答案。两岸猿声啼不住,轻舟已过万重山。