您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

最大熵强化学习算法SAC

时间:2020-07-05 10:42:27  来源:  作者:

模型结构

模型同时学习action value Q、state value V和policy π

  1. V中引入Target V,供Q学习时使用;Target Network使学习有章可循、效率更高。
  2. Q有两个单独的网络,选取最小值供V和π学习时使用,希望减弱Q的过高估计
  3. π学习的是分布的参数:均值和标准差;这与DDPG不同,DDPG的π是Deterministic的,输出直接就是action,而SAC学习的是个分布,学习时action需要从分布中采样,是Stochastic的。
最大熵强化学习算法SAC

 

Soft

Soft,Smoothing,Stable。

原始的强化学习最大熵目标函数(maximum entropy objective)如下,比最初的累计奖赏,增加了policy π的信息熵
A3C目标函数里的熵正则项和形式一样,只是作为正则项,系数很小。

最大熵强化学习算法SAC

 

Soft Policy Iteration中,近似soft Q-value的迭代更新规则如下:

最大熵强化学习算法SAC

 

其中V(s)为soft state value function:

最大熵强化学习算法SAC

 

根据信息熵的定义:

最大熵强化学习算法SAC

 

soft state value functionmaximum entropy objective在形式上还是一致的,系数α能通过调节Q-value消掉,可忽略。

TD3的soft state value function V形式与Soft Policy Iteration中类似,但是SAC的action是通过对policy π采样确定地得到,每条数据数据的信息熵就是其不确定性-logπ(a|s);但考虑整个批量batch数据,其整体还是π的信息熵,与maximum entropy方向一致。

信息熵越大,分布越均匀,所以最大化信息熵,有利于增加模型的探索能力。

Soft State Value 目标函数

通过Qπ网络近似V,注意s来自Experience Replay Buffer,但是a来自当前的π

最大熵强化学习算法SAC

 

Soft Q-Value 目标函数

通过V近似Q,这里的V来自TargetNetwork V
r(s,a)是环境的即时奖赏;s_t+1来自环境,由于环境是model-free,可以理解成s_t+1是确定的。

最大熵强化学习算法SAC

 

Policy 目标函数

通过Q近似π

  1. 基于π分布的采样增加扰动,for lower variance estimator。
  2. KL散度基于Q的分布近似忽略分母析分函数
  3. 采样之后,a是确定的,KL散度即熵的差容易求解,注意Q值来自神经网络,值可以scale,无需关注系数。
最大熵强化学习算法SAC

 

学习过程

整体采用Replay Buffer,三个目标函数分别进行梯度学习。

最大熵强化学习算法SAC

 

总结

  1. SAC的关键是引入最大熵,优化soft value。
  2. 最大熵会使action探索能力很强,模型效果更平稳,但注意需要场景也是接受较强的探索。
  3. 从结构上讲,模型冗余,在学习π和soft Q的情况下,又学习了soft V。
  4. 由于面临的是连续动作空间,求期望的地方,采取了采样近似,需要批次处理的数据集更加完整。
  5. 优化技巧比较晦涩,感觉很难通用。

 



Tags:算法SAC   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
模型结构模型同时学习action value Q、state value V和policy π。 V中引入Target V,供Q学习时使用;Target Network使学习有章可循、效率更高。 Q有两个单独的网络,选取最小...【详细内容】
2020-07-05  Tags: 算法SAC  点击:(457)  评论:(0)  加入收藏
▌简易百科推荐
前言Kafka 中有很多延时操作,比如对于耗时的网络请求(比如 Produce 是等待 ISR 副本复制成功)会被封装成 DelayOperation 进行延迟处理操作,防止阻塞 Kafka请求处理线程。Kafka...【详细内容】
2021-12-27  Java技术那些事    Tags:时间轮   点击:(1)  评论:(0)  加入收藏
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  量子位    Tags:蒸馏法   点击:(11)  评论:(0)  加入收藏
分稀疏重建和稠密重建两类:稀疏重建:使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3:工程地址在: http://webdiis.unizar.es/~raulmur/orbslam/ DSO(Direct Sparse Odometry)因为...【详细内容】
2021-12-23  老师明明可以靠颜值    Tags:算法   点击:(7)  评论:(0)  加入收藏
1. 基本概念希尔排序又叫递减增量排序算法,它是在直接插入排序算法的基础上进行改进而来的,综合来说它的效率肯定是要高于直接插入排序算法的;希尔排序是一种不稳定的排序算法...【详细内容】
2021-12-22  青石野草    Tags:希尔排序   点击:(6)  评论:(0)  加入收藏
ROP是一种技巧,我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符,在本次getshell中,还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】
2021-12-15  星云博创    Tags:栈迁移   点击:(22)  评论:(0)  加入收藏
一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】
2021-12-15    晓掌柜丶韶华  Tags:排序算法   点击:(16)  评论:(0)  加入收藏
在了解golang的map之前,我们需要了解哈希这个概念。哈希表,又称散列表(Hash table),是根据键(key)而直接访问在内存储存位置的数据结构。也就是说,它通过计算出一个键值的函数,将...【详细内容】
2021-12-07  一棵梧桐木    Tags:哈希表   点击:(14)  评论:(0)  加入收藏
前面文章在谈论分布式唯一ID生成的时候,有提到雪花算法,这一次,我们详细点讲解,只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称,一般的雪花大约由10^19个水分子...【详细内容】
2021-11-17  小心程序猿QAQ    Tags:雪花算法   点击:(24)  评论:(0)  加入收藏
导读:在大数据时代,对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要,因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时,需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】
2021-11-04  华章科技    Tags:排序算法   点击:(40)  评论:(0)  加入收藏
这是我在网上找的资源的一个总结,会先给出一个我看了觉得还行的关于算法的讲解,再配上实现的代码: Original author: Bill_Hoo Original Address: http://blog.sina.com.cn/s/bl...【详细内容】
2021-11-04  有AI野心的电工和码农    Tags: KMP算法   点击:(36)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条