01
—
AI Agent的定义
AI Agent一直是AI圈的热门话题,也是OpenAI 明确表示要发力的下一个方向。相比模型训练方法,OpenAI 内部目前更关注AI Agent 领域的进展。
以AI目前的发展阶段,尤其是LLM爆发后,AI Agent可以定义为:基于LLM驱动的Agent实现对通用问题的自动化处理。
AI Agent和ChatGPT、Claude等LLM(大语言模型)有什么区别呢?
LLM主要擅长处理和生成文本。它们可以回答问题、写文章、生成创意内容、帮助编程等等。但LLM主要是一个被动的工具,只在你给它输入时产生输出。
而AI Agent提供了更广泛的功能,特别是在与环境的交互、主动决策和执行各种任务方面。可以说,AI Agent是真正释放LLM潜能的关键。LLM作为核心,而AI Agent则为LLM提供了行动的能力。
02
—
AI Agent的架构
近期,一篇关于AI Agent的博客文章刷爆了AI圈,作者是Lilian Weng,现为OpenAI应用人工智能研究负责人。此文可视为AI Agent的全面科普。
此文探讨了以LLM为核心控制器构建AI Agent的概念。强调了如规划、记忆和工具使用等关键组件。LLM的潜力不仅仅是生成内容,它们可以被视为强大的通用问题解决者。
作者将AI Agent定义为LLM、任务规划、记忆和工具使用四个部分的组合。其中,任务规划涵盖了任务的细分和自我审视;记忆部分则包括感知型记忆、短时记忆和长时记忆;而工具使用则涉及任务的定义、选择模型、执行任务以及产生反馈。
通俗点说,AI Agent就是以LLM为大脑,再赋予任务规划能力、长短期记忆力、工具使用能力,即可实现自动化处理更复杂的任务。它具备独立的思考和认知功能、拥有记忆,能进行思考、逻辑推断和自我反思,可以阅读和在线学习,擅长利用适当的工具处理问题,还能策划并根据实际情况调整任务的优先级……
任务规划:
子目标与分解:AI Agent将大任务分解为较小的、可管理的子目标,从而有效地处理复杂任务。
处理复杂任务往往需要多个阶段,因此 AI Agents 必须先行了解并策划这些阶段。具备任务策划能力的 Agents 可以更深入地把握任务的结构和目的,并据此分配资源和做出最佳决策,从而确保任务的效率和完成质量。
反思与完善:AI Agent可以对过去的行为进行自我批评和反思,从错误中学习,并为未来的步骤进行完善,从而提高最终结果的质量。
在任务策划中,自省是关键的一步,它使 Agents 能够修正以往的决策、纠正之前的失误,从而不断优化其性能。在实际任务执行中,尝试和错误是常态,所以自省在这个过程中起到了核心作用。
记忆:
短期记忆:AI Agent利用模型的短期记忆进行上下文学习。
长期记忆:这为AI Agent提供了长时间保留和回忆信息的能力,通常通过利用外部向量存储和快速检索来实现。
工具使用:
AI Agent学会调用外部API以获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、访问专有信息源等。
人类的一大特点是会使用工具。我们通过创造、改进和使用外部物体来完成那些超出我们身体和思维能力的工作。同理,为LLM提供外部工具可以大大增强其功能,让它应对更为复杂的任务。目前,主要是教LLM如何利用外部工具的API来达到这一目的。
03
—
AI Agent的未来
AI Agent未来的发展趋势,大致可以划分为两个方向:自主代理(Autonomous Agent)和生成代理(Generative Agent)。
自主代理,如Auto-GPT,它能够根据人们通过自然语言提出的需求,自动执行任务并实现预期结果。在这种合作模式下,自主代理主要是为人类服务,更像是一个高效的工具;
生成代理,如斯坦福和谷歌的研究者共同创建的西部世界小镇。这是一个交互式的沙盒环境,在小镇上,生活着25个可以模拟人类行为的生成式AI智能体。它们会在公园里散步,在咖啡馆喝咖啡,和同事分享当天的新闻。,这种代理具有类似人的特质、独立决策和长期记忆等功能,它们更接近于“原生AI-Agent”。在这种合作模式下,代理不仅仅是为人类服务的工具,它们在数字世界中与其他代理建立社交关系。
清华也出了个 ChatDev,让 Agent 组了个游戏公司,有 CEO、设计师、程序员……多重角色,串联在一起完成开发工作。
简单来说,自主代理(Autonomous Agent)可以比喻为《我,机器人》或者钢铁侠的助理贾维斯,它不仅可以执行任务,还可以根据给定的目标自行规划、创造任务和不断进化。
而生成代理(Generative Agent)则像是《西部世界》中的机器人,它们在同一环境中生活,拥有自己的记忆和目标,不仅与人类交往,还会与其他机器人互动。
AI Agent是真正释放LLM潜能的关键。LLM作为核心,而AI Agent则为LLM提供了行动的能力。
得益于LLM的推动,AI Agent展现出了丰富的功能性,预示着AI Agent将如同生物的大爆发,与人类形成一种数字化的伴随/共生关系。
随着AI Agent的广泛应用,人类的合作网络也将升级为一个人类与AI Agent的自动化合作体系。这将推动人类社会的生产结构进一步升级,从而影响社会的各个方面。
一个具备交流能力并能自主/自动执行任务的智能网络将是互联网的下一阶段,而AI Agent正是我们与之交互和执行任务的智能工具。
未来,假如人人都配备一个AI agent,它们比人类更擅长处理大量信息和做出推理,我们的生活将发生什么样的变化呢?
我们的组织结构会发生重大变革。传统的公司可能不再是由大量的人类员工组成,而是由AI agent主导。这些agents可以24小时不停歇地工作,不需要休息,不会生病,也不会有情绪波动。它们可以快速、准确地完成各种任务,从数据分析到决策制定,再到执行任务。
我们的营销策略也会发生变化。传统的营销目标是吸引人类消费者,但在这个新世界里,我们可能更多地是在向人类的助理agent推销产品或服务。这意味着营销策略需要更加精准、智能,因为你不再是在说服一个有情感的人,而是一个只看数据和逻辑的机器。
产品设计也会有所不同。未来的产品可能不再是为人类设计的,而是为其他产品的AI agent设计的。这意味着产品需要具有更高的互通性、智能性和自动化程度。
……
还有哪些可能的变化呢?尽情展开想象吧!