“智能就是一种生产力。”
作者|武静静
编辑|栗子
还记得《钢铁侠》里的AI助手贾维斯吗?
作为托尼的得力助手,它既可靠又聪明,不仅可以连接到任意计算机终端,操控托尼的钢铁侠战服,还会和托尼一起商量行动计划。
拥有像贾维斯一样的AI助手一直是人类对于机器伙伴的美好畅想。但在现实中,人们只能和没那么聪明的Siri、Alex这样的语音助手相处。直到大语言模型出现之后,新的可能性发生了——作为一种加持了大模型能力的智能体,新的AI Agent走进了人们的视野。
和Copilot不一样,新一代的AI Agent(以下统一简称Agent)看上去更像贾维斯——只需要说出你想做什么,Agent就可以自己规划并执行任务,也可以连接很多服务和工具来达成目标。相比之下,Copilot这样的应用则需要依赖清晰明确的prompt才能很好地发挥作用。
很多人认为Agent是大语言模型之后的下一个机会。比尔盖茨认为,Agent公司的出现将对谷歌、亚马逊以及其他大公司构成潜在威胁:“这是一件大事。Agent会了解你所有的信息,也会知道更多你不知道的信息,这意味着,用户永远不会再访问搜索网站,也不必使用生产力工作,一切都将通过Agent来完成。”
“大型科技公司和创业公司都有可能抓住这次Agent的机会,如果微软没有介入,我会感到失望。”比尔盖茨说。
OpenAI的联合创始人Andrej Karpathy认为:“普通人、创业者和极客在构建Agents方面比OpenAI更有优势,大家处于平等竞争的状态。”
众多开发者、院校、创业公司正在纷纷入局。国外, AutoGPT、Generative Agent、GPT-Engineer、BabyAGI、HyperWrite、MetaGPT、GPT Researcher等项目一度引发热议。加了大型语言模型能力的Agent不仅可以生成内容,还可以直接解决各种场景中的各种问题。
近日在Github上,多Agent框架构建的MetaGPT项目在短短2周时间就获得了25.8k星。有人借助MetaGPT在十分钟内就制作了FlAppy Bird小游戏,过程中完全不需要自己编写代码。
谷歌也在通过投资的方式关注这个领域的创新。今年5月,Agent公司Cognosys筹集了200万美元的种子轮资金,领投方就是Alphabet风险投资部门GV(google Ventures)的普通合伙人SangeenZeb。Cognosys打造的是一种基于Web的Agent产品,旨在优化工作流程、推进决策并提升各个领域的效能。
国内,我们也关注到一家聚焦于Agent方向的创业公司——澜码科技,今年8月,公司已获得IDG资本、联新资本、Atom Capital等头部机构的数千万人民币A轮融资。澜码的方向是基于底层⼤语⾔模型,开发新一代的智能助手(Agent)平台,助力企业提升业务流程质量和效率。公司成立于2023年2月,聚焦于to B领域,目前已经与金山办公等多家上市公司和独角兽企业达成战略合作。
国内外企业争相布局,为什么Agent会爆火?
Agent让科幻作品中对于能力超凡的AI助手的想象变成现实。
想象一下,你和Agent说想去三亚旅行,接下来,它马上就列出一个待办事件清单,开始着手规划。请假、订酒店、买机票、做旅行规划都不是问题,你唯一要做的事情就是等待出发。过程中,Agent会根据进展不断调整和增加新的待办来满足你的需求,直到旅行结束。
论执行力,没有人能比得过Agent。GitHub上的明星Agent项目AutoGPT已经被使用在各种场景中:有人把AutoGPT和其他软件集成直接买到了披萨 ,有人用AutoGPT进行市场调查,以便随时了解竞争对手信息;还有人直接用语音让AutoGPT在电脑上部署了应用程序。
Agent之所以在当下可以如此智能,最关键的技术变量就是大语言模型。此前,强化学习方法下训练的Agent,缺乏对于问题和技能的认识,只能在游戏等数字场景中进行分析规划模拟对抗,或者在小范围内实现规划运行,不具有泛化能力,也很难真正与人实现现实交互。大语言模型极大地拓展了Agent的能力边界,它相当于大脑,让Agent在接收到目标之后,可以自主进行逻辑推理和自我提示,不断寻找达成目标的最好方式,通过和其他软硬件相连,Agent可以熟练地使用计算机、浏览网页、读写文件、用信用卡付款。人唯一需要做的就是提供一个目标。
OpenAI应用研究主管LilianWeng在论文中对Agent的形容是:Agent=LLM(大型语言模型)+记忆+规划技能+工具使用。其中LLM是核心大脑;记忆、规划技能、工具使用则是Agents系统实现的三个关键组件。
如果大语言模型的Copilot是“副驾驶”,那自主拆解并执行任务的Agent可以称为“自动驾驶”,用户只需要上车告诉它目的地。“Copilot模式强调一个人在完成整个业务流程的过程中,每一步都可以获得AI辅助。这种模式的实用性非常强,可以用来生成面试问题、评估回答等。Agent比Copilot模式更具自主性,在接到人提出的目标后,可以自行计划并完成任务,还有可能去探索周围环境。”澜码科技CEO周健告诉「甲子光年」。
“当前我们主要在信息系统环境中使用AI,未来Agent可以和机器人融合,具有物理感知能力之后,就可以探索整个物质世界。”周健说。这种情况下,Agent与人类成为了亲密无间的伙伴,而不仅仅只是为人类服务的工具,人类也需要和Agent合作,做各种决策。
周健相信Agent背后大语言模型技术带来的是一场全新的大机会:“就像斯坦福大学做的25个智能体的小村庄那样,这种业务模式可以迁移到很多场景,比如做教育培训,机构可以在这样一个虚拟环境中进行职场培训,嵌入雇主打分功能,甚至还可以模拟创业环境。”
周健曾担任弘玑Cyclone CTO以及依图的10号员工,并在Google、阿里和MediaV等企业具有10年工作经验,主要从事分布式系统研发。作为to B行业的老兵,他选择从自己擅长的领域入手,创立了澜码科技,优先做专业场景下to B领域的Agent。
他和「甲子光年」分享了他看到的机会:“一方面,B端企业会为了更高价值的工作流进行额外的准确率付费,另一方面,对于创业公司而言,服务围着公司和岗位走,而不是人本身,更容易塑造自身的壁垒。”
“Agent平台有可能成为to B领域人机交互的入口级平台。”周健说。目前,基于大语言模型,澜码研发了能够连接人和系统的企业级Agent平台“Ask XBot”,在Agent平台“Ask XBot”上,员工可以用自然语言提出需求,调度Agent来完成任务,提升工作质量的同时降低了成本。
对于高喊着效率革命的to B领域而言,Agent的出现可能会掀起一轮新的生产力变革。英伟达机器学习专家Bojan Tunguz把新一代的Agent称之为“自动化的自然终点”:“原则上,智能体可被用于自动化任何其他过程。不难想象,一旦这些智能体变得高度精密、可靠,各个领域和行业的自动化程度将呈指数级增长。”
长久以来,“降本增效”一直是企业数字化、智能化的核心议题,这也是AI能在to B领域发挥关键作用的地方所在。从过去十几年发展的历程来看,AI的功能越强,覆盖的业务环节越多,闭环越完整,发挥的效能越大。
大语言模型支撑的Agent让企业智能化效率往前走了一大步。此前的自动化作业中,闭环和智能化能力有限,也只能作业在局部的场景和环节,大多解决单点问题,Agent则可以在涵盖大量信息的不可预测的环境中工作,拓宽了智能化的范畴。
“大语言模型带来的最大变化是半结构化或过程性的文档也能够被有效利用。”周健说,“此前的自动化解决的是基层员工的工作效率问题,只能处理很多重复性的工作,大语言模型之后,Agent可以复刻专家能力,解决更多的工作质量问题。”
比如,澜码招聘专家Agent基于大语言模型并充分学习了招聘专家知识,可以准确解析企业用人需求,并从各个渠道智能化、自动化的搜索人才,完成基于职位需求的岗位推荐,从而协助HR/猎头在人才筛选工作中大幅提升工作质量和效率,成为了企业内部真正专业的一位数字员工。“此前,HR需要根据企业实际用人需求,在人才库中,依靠固化的标签,寻找合适的人选,整个过程耗时长且环节繁琐,HR一般很难快速找到符合预期的人选信息。”周健提到。
在周健看来,诸如此类的场景有很多,对于企业而言,把专家知识通过技术手段赋能给Agent,让Agent具备相应的能力,就可以在企业的业务流程中,通过对话提供建议,从而显著提升业务质量和效率。
“以猎头场景为例,过去很多销售线索和简历信息分散在个人手中,公司很难做集中的个性化信息匹配。有了Agent之后,管理者就可以将信息沉淀在系统中,并通过简单的标签做个性化匹配,大大提升了销售效率。”
“智能就是一种生产力。”周健称。
依靠这种逻辑,澜码构建了Agent平台“Ask XBot”,平台分两层:第一层是专家赋能,专家通过拖、拉、拽以及对话交互的方式定义工作流程,教给机器,从而协助一线员工构建更高效工作的方法论;第二层是员工使用Agent,一线员工可以通过自然语言和Agent沟通并下达指令,让Agent协助完成数据分析、资料调取等工作。
“我们想把澜码打造成一个兼具通用性和易用性的平台,把这些API和Agent做好管理,让Agent包装不同的API,不同模型的Agent能够在上面更好地协作,让它们可以在平台上更有效率、更智能地服务好客户。 ”周健说道。目前,澜码除了有针对应用调取等场景的Text To Action(文-功能)功能,还在针对数据分析场景打造Text To SQL(文-数据库)、Text To Chart(文-图标)等功能。
和澜码一样,更多国内外正在积极加入到这场Agent建设潮中。
美国大语言模型明星创业公司Inflection AI也准备加入其中。据透露其正在开发一款私人助理,可以充当导师,以及处理在旅行过程中的行程预定、航班积分、酒店预定等任务。今年6月,Inflection AI的估值就达到40亿美元,累计融资额15.25亿美元,在基础大模型公司中仅次于OpenAI。
此前,亚马逊云科技也宣布了Amazon Bedrock Agents新功能,它可以把开发、部署和管理多个Agent的能力打包集成在一起,开发者只需要几次点击,就可以构建Agent应用。此举大大降低了Agent应用的开发门槛。可以预见,接下来,更多云服务也将在这个方向发力。
如火如荼的机会背后,现实的挑战和不确定因素也在逐步显现。技术层面,由于Agent面临的是更复杂的环境和交互,需要担任“大脑”的大语言模型在多模态能力上有所突破,才能更好地理解问题并解决问题;另一方面,由于物理世界的信息是多维度且动态的,Agent与物理世界的信息交互将会存在巨大的挑战。
此外,在to B领域,Agent也会面临一些现实难题。安全性首当其中。“尤其在to B领域,不同客户对数据安全和隐私保护的要求存在差异,Agent公司需要考虑保障数据的合规性,以便在符合法律法规的前提下使用相关数据。”周健告诉「甲子光年」。
数据层,如何按照大型模型友好的方式对其进行记录和整理也是一个关键难题。“现有的数据并非都适合大型模型处理,在处理各种半结构化和非结构化数据:如简历、邮件、微信聊天记录以及视频直播等数据的过程中,需要按照大型模型友好的方式对其进行记录和整理,才能真正的构建数据闭环,让Agent打穿场景。”周健提到。这意味着,对于企业而言,也需要即时记录各类数据,避免关键业务信息缺失对决策结果的影响。
“这些是难点,也是可以构建壁垒的地方。”周健说。
他认为,安全可靠、数据闭环,和基于这些产品形成的数据飞轮才是Agent公司的护城河。“数据是核心的竞争维度。数据有很多维度,互联网上的很多行为数据,企业内部专家的知识数据,企业自身业务闭环之后产生的决策数据,这些组合在一起,才是Agent发挥最大价值的地方。”
“Agent就像布满太阳能的电板,把这些数据能量源源不断的吸收进来,沉淀到企业内部,形成可以复用的方法论和资产,从而大幅提高企业的效能。”周健谈到。
现阶段,澜码的重点是:持续构建标杆客户、通用性、易用性这三个x、y、z能力轴。“前期必然围绕标杆客户与产品通用性去打造,之后从提升毛利的必要性出发,再去提升易用性。”目前澜码已经跑通了很多场景,与金山办公、特赞、轻流、优云服等厂商达成了合作。头部猎头公司和某软件外包上市企业是眼下的重要用户。
“未来,我相信会形成一个类似于滴滴或美团的企业大脑,能够与企业内所有员工进行互动。这将使过去线性、僵化的自动化流程转变为基于数据和行为经验的决策流程。”周健说。
Agent正在构建全新的软件可能,一种全新的人与机器的关系也拉开了帷幕。