链世界：一种简单而有效的人类行为Agent模型强化学习框架

时间：2024-01-30 13:12:48 来源：微信公众号作者：大噬元兽

强化学习是一种机器学习的方法，它通过让智能体（Agent）与环境交互，从而学习如何选择最优的行动来最大化累积的奖励。强化学习在许多领域都有广泛的应用，例如游戏、机器人、自动驾驶等。强化学习也可以用于干预人类的行为，帮助人类实现他们的长期目标，例如戒烟、减肥、健身等。这些任务通常是摩擦性的，也就是说，它们需要人类付出长期的努力，而不是立即获得满足。在这些任务中，人类往往表现出有限的理性，也就是说他们的行为并不总是符合他们的最佳利益，而是受到一些认知偏差、情绪影响、环境干扰等因素的影响。因此，如何用强化学习干预人类的有限理性，使其在摩擦性的任务中表现更好，是一个具有重要意义和挑战性的问题。

为了解决这个问题，一篇最近发表在AAMAS2024会议上的论文《Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks》提出了一种行为模型强化学习（BMRL）的框架，用于让人工智能干预人类在摩擦性任务中的行为。该论文的作者是来自哈佛大学、剑桥大学和密歇根大学的五位研究人员，他们分别是Eura Nofshin、Siddharth Swaroop、Weiwei Pan、Susan Murphy和Finale Doshi-Velez。他们的研究受到了Simons Foundation、National Science Foundation、National Institute of Biomedical Imaging and Bioengineering等机构的资助。他们的论文的主要贡献有以下几点：

1）他们提出了一种新的Agent模型，称为链世界（ChAInWorld），用于描述Agent在摩擦性任务中的行为。链世界是一种简单的马尔可夫决策过程（MDP）模型，其中Agent可以选择执行或跳过任务，从而增加或减少他们达到目标的概率。人工智能可以通过改变Agent的折扣因子或奖励来影响人类的决策。链世界的优点是它可以快速地对人类进行个性化，也可以解释人类的行为背后的原因。

2）他们引入了一种基于BMRL的Agent模型之间的等价性的概念，用于判断不同的Agent模型是否会导致相同的人工智能干预策略。他们证明了链世界是一类更复杂的人类MDP的等价模型，只要它们导致相同的三窗口人工智能策略，即由无效窗口、干预窗口和无需干预窗口组成的策略。他们还给出了一些与链世界等价的更复杂的人类MDP的例子，例如单调链世界、进展世界和多链世界，这些模型可以捕捉一些与人类行为相关的有意义的特征。

3）他们通过实验分析了链世界的鲁棒性，即当真实的Agent模型与链世界不完全匹配或不等价时，人工智能使用链世界进行干预的性能如何。他们发现链世界是一种有效且鲁棒的Agent模型，可以用于设计人工智能干预策略，在大多数情况下，它可以达到或接近最佳的性能，即使在一些极端的情况下，它也可以保持一定的水平。

我们将对这篇论文的主要内容进行更详细的解读和分析，从而帮助您更好地理解和评价这项研究的质量和意义。

首先，我们来看看什么是行为模型强化学习（BMRL）的框架，以及为什么它是一种适合用于干预人类行为的方法。BMRL是一种基于模型的强化学习的方法，它假设人工智能可以观察到人类的状态、行动和奖励，从而建立一个Agent的MDP模型。Agent的MDP模型由一组状态、一组行动、一个转移函数、一个奖励函数和一个折扣因子组成。Agent的目标是通过选择最优的行动来最大化他们的期望累积奖励。然而Agent的MDP模型可能存在一些问题，导致Agent的行为与他们的目标不一致，例如：

人类的折扣因子可能过低，导致人类过于看重短期的奖励，而忽视长期的后果。例如，一个想要戒烟的人可能会因为一时的瘾而放弃他的计划。

人类的奖励函数可能存在一些摩擦，导致人类执行任务的成本过高，而收益过低。例如，一个想要减肥的人可能会因为运动的痛苦而不愿意坚持他的计划。

人类的转移函数可能存在一些不确定性，导致人类执行任务的结果难以预测，而风险过高。例如，一个想要学习一门新语言的人可能会因为学习的难度而不敢尝试他的计划。

图1：BMRL概述，人类代理与环境交互，如标准RL中所示。人工智能主体的行为会影响人类主体。人工智能环境由人工智能主体+环境构成。

在这些情况下，人工智能可以通过干预人类的MDP模型的参数，来改变人类的行为，使其更接近他们的目标。例如，人工智能可以通过以下方式来干预人类的行为。

一是通过提供一些正向的反馈或奖励，来提高人类的折扣因子，从而增强人类对长期目标的关注。例如，人工智能可以通过发送一些鼓励的信息或提供一些小礼物，来激励一个想要戒烟的人坚持他的计划。

二是通过提供一些便利的工具或服务，来降低人类执行任务的成本，从而增加人类的收益。例如，人工智能可以通过提供一些个性化的运动计划或设备，来帮助一个想要减肥的人坚持他的计划。

三是通过提供一些有用的信息或建议，来降低人类执行任务的不确定性，从而减少人类的风险。例如，人工智能可以通过提供一些有效的学~~~

接下来，我们来看看什么是链世界（ChainWorld），以及为什么它是一种简单而有效的人类模型。链世界是一种由作者提出的人类MDP模型，它可以用来描述人类在摩擦性任务中的行为。

图2：链世界的图形表示。

链世界的基本结构如下：

链世界由

Tags：框架点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Web Components实践：如何搭建一个框架无关的AI组件库

一、让人又爱又恨的Web ComponentsWeb Components是一种用于构建可重用的Web元素的技术。它允许开发者创建自定义的HTML元素，这些元素可以在不同的Web应用程序中重复使用，并且...【详细内容】

2024-04-03　　Search: 框架点击:(7)　　评论:(0)　　加入收藏

Htmx，它到底是框架还是库？

在最近的前端开发技术的探讨中，htmx经常成为热议的话题。一些人批评它，认为尽管htmx批评现代前端框架过于复杂，但它自己却似乎也是一个复杂的框架。这种看法值得我们深入思考。...【详细内容】

2024-03-28　　Search: 框架点击:(16)　　评论:(0)　　加入收藏

五大跨平台桌面应用开发框架：Electron、Tauri、Flutter等

一、什么是跨平台桌面应用开发框架跨平台桌面应用开发框架是一种工具或框架，它允许开发者使用一种统一的代码库或语言来创建能够在多个操作系统上运行的桌面应用程序。传统上...【详细内容】

2024-02-26　　Search: 框架点击:(46)　　评论:(0)　　加入收藏

Spring Security权限控制框架使用指南

在常用的后台管理系统中，通常都会有访问权限控制的需求，用于限制不同人员对于接口的访问能力，如果用户不具备指定的权限,则不能访问某些接口。本文将用 waynboot-mall 项目举例...【详细内容】

2024-02-19　　Search: 框架点击:(39)　　评论:(0)　　加入收藏

Go Gin框架实现优雅地重启和停止

在Web应用程序中，有时候我们需要重启或停止服务器，无论是因为更新代码还是进行例行维护。在这种情景下，我们需要保证应用程序的可用性和数据的一致性。这就需要优雅地关闭和重...【详细内容】

2024-01-30　　Search: 框架点击:(67)　　评论:(0)　　加入收藏

链世界：一种简单而有效的人类行为Agent模型强化学习框架

强化学习是一种机器学习的方法，它通过让智能体（Agent）与环境交互，从而学习如何选择最优的行动来最大化累积的奖励。强化学习在许多领域都有广泛的应用，例如游戏、机器人、自动驾...【详细内容】

2024-01-30　　Search: 框架点击:(67)　　评论:(0)　　加入收藏

OpenHarmony - 基于ArkUI框架实现日历应用

前言对于刚刚接触OpenHarmony应用开发的开发者，最快的入门方式就是开发一个简单的应用，下面记录了一个日历应用的开发过程，通过日历应用的开发，来熟悉基本图形的绘制，ArkUI的组件...【详细内容】

2024-01-16　　Search: 框架点击:(54)　　评论:(0)　　加入收藏

阿里“AI替换万物”框架火爆社区，网友：偶像不需要真人了？

白交发自凹非寺量子位 | 公众号 QbitAIReplace Anything as you want。现在只需框住你需要保留的区域，AI就可以替换万物了！比如让霉霉穿上中国旗袍，结果发饰、服装、背景等各...【详细内容】

2024-01-15　　Search: 框架点击:(66)　　评论:(0)　　加入收藏

分布式事务框架选择与实践

分布式事务是处理跨多个服务的原子操作的关键概念，而选择适合应用场景的框架对于确保事务一致性至关重要。以下是几个常见的分布式事务框架，并讨论它们的使用和实践。1. XA协...【详细内容】

2024-01-05　　Search: 框架点击:(96)　　评论:(0)　　加入收藏

JavaScript前端框架2024年展望

Angular、Next.js、React和Solid的维护者和创作者们展望2024年，分享了他们计划中的改进。译自2024 Predictions by JavaScript Frontend Framework Maintainers，作者 Loraine...【详细内容】

2024-01-05　　Search: 框架点击:(89)　　评论:(0)　　加入收藏

▌简易百科推荐

Web Components实践：如何搭建一个框架无关的AI组件库

2024-04-03　　京东云开发者　　　　Tags:Web Components 　点击:(7)　　评论:(0)　　加入收藏

Kubernetes 集群 CPU 使用率只有 13% ：这下大家该知道如何省钱了

作者 | THE STACK译者 | 刘雅梦策划 | Tina根据 CAST AI 对 4000 个 Kubernetes 集群的分析，Kubernetes 集群通常只使用 13% 的 CPU 和平均 20% 的内存，这表明存在严重的过度...【详细内容】

2024-03-08　　InfoQ　　　　Tags:Kubernetes 　点击:(12)　　评论:(0)　　加入收藏

Spring Security：保障应用安全的利器

SpringSecurity作为一个功能强大的安全框架，为Java应用程序提供了全面的安全保障，包括认证、授权、防护和集成等方面。本文将介绍SpringSecurity在这些方面的特性和优势，以及它...【详细内容】

2024-02-27　　风舞凋零叶　　　　Tags:Spring Security 　点击:(52)　　评论:(0)　　加入收藏

五大跨平台桌面应用开发框架：Electron、Tauri、Flutter等

2024-02-26　　贝格前端工场　　　　Tags:框架　点击:(46)　　评论:(0)　　加入收藏

Spring Security权限控制框架使用指南

2024-02-19　　程序员wayn　　微信公众号　　Tags:Spring 　点击:(39)　　评论:(0)　　加入收藏

开发者的Kubernetes懒人指南

你可以将本文作为开发者快速了解 Kubernetes 的指南。从基础知识到更高级的主题，如 Helm Chart，以及所有这些如何影响你作为开发者。译自Kubernetes for Lazy Developers。作...【详细内容】

2024-02-01　　云云众生s　　微信公众号　　Tags:Kubernetes 　点击:(50)　　评论:(0)　　加入收藏

链世界：一种简单而有效的人类行为Agent模型强化学习框架

2024-01-30　　大噬元兽　　微信公众号　　Tags:框架　点击:(67)　　评论:(0)　　加入收藏

Spring实现Kafka重试Topic，真的太香了

概述Kafka的强大功能之一是每个分区都有一个Consumer的偏移值。该偏移值是消费者将读取的下一条消息的值。可以自动或手动增加该值。如果我们由于错误而无法处理消息并想重...【详细内容】

2024-01-26　　HELLO程序员　　微信公众号　　Tags:Spring 　点击:(84)　　评论:(0)　　加入收藏

SpringBoot如何实现缓存预热？

缓存预热是指在 Spring Boot 项目启动时，预先将数据加载到缓存系统（如 Redis）中的一种机制。那么问题来了，在 Spring Boot 项目启动之后，在什么时候？在哪里可以将数据加载到缓存系...【详细内容】

2024-01-19　　 Java中文社群　　微信公众号　　Tags:SpringBoot 　点击:(86)　　评论:(0)　　加入收藏

花 15 分钟把 Express.js 搞明白，全栈没有那么难

Express 是老牌的 Node.js 框架，以简单和轻量著称，几行代码就可以启动一个 HTTP 服务器。市面上主流的 Node.js 框架，如 Egg.js、Nest.js 等都与 Express 息息相关。Express 框...【详细内容】

2024-01-16　　程序员成功　　微信公众号　　Tags:Express.js 　点击:(85)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版