您当前的位置:首页 > TAG信息列表 > 算法SAC
    最大熵强化学习算法SAC
    模型结构模型同时学习action value Q、state value V和policy π。 V中引入Target V,供Q学习时使用;Target ......【详细内容】
    [算法]   2020-07-05 10:42:27 算法SAC 点击:(2268)  评论:(0)  加入收藏
推荐资讯