萌萌哒图书专营店
  • 扫码下单

  • 全新强化学习柯良军,王小强9787302532408
  • 正版
    • 作者: 柯良军,王小强著 | 柯良军,王小强编 | 柯良军,王小强译 | 柯良军,王小强绘
    • 出版社: 清华大学出版社
    • 出版时间:2019-12-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    店铺装修中

    商家:
    萌萌哒图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    萌萌哒图书专营店

  • 商品参数
    • 作者: 柯良军,王小强著| 柯良军,王小强编| 柯良军,王小强译| 柯良军,王小强绘
    • 出版社:清华大学出版社
    • 出版时间:2019-12-01
    • 版次:1
    • 印次:1
    • 字数:301000
    • 页数:177
    • 开本:B5
    • ISBN:9787302532408
    • 版权提供:清华大学出版社
    • 作者:柯良军,王小强
    • 著:柯良军,王小强
    • 装帧:平装
    • 印次:1
    • 定价:69.00
    • ISBN:9787302532408
    • 出版社:清华大学出版社
    • 开本:B5
    • 印刷时间:暂无
    • 语种:暂无
    • 出版时间:2019-12-01
    • 页数:177
    • 外部编号:1201999576
    • 版次:1
    • 成品尺寸:暂无

    章 绪论

    1.1 引言

    1.2 解决复杂问题的朴素思想

    1.2.1 数学建模与优化

    1.2.2 采样和估计

    1.. 逼近

    1.2.4 迭代

    1.3 强化学习简史

    1.4 本书主要内容及结构

    1.5 小结

    1.6 习题

    参考文献

    第2章 基础知识

    2.1 运筹学简明基础

    2.1.1 无约束非线规划优化方法

    2.1.2 KKT条件

    2.1.3 凸规划的质

    2.2 概率与统计简明基础

    2.2.1 概率论基本概念

    2.2.2 概率论的收敛定理

    2.. 统计学的基本概念

    2.2.4 优选似然估计法

    2.2.5 估计量的优良评估

    2.2.6 采样与随机模拟

    2.2.7 Monte Carlo方法简介

    2.2.8 重要采样法

    . 小结

    2.4 习题

    参考文献

    篇 基于模型的强化学习

    第3章 多摇臂问题

    3.1 动作值方法

    3.2 非平稳多摇臂问题

    3.3 UCB动作选择

    3.4 梯度摇臂算法

    3.5 习题

    参考文献

    第4章 Markov决策过程

    4.1 定义和记号

    4.2 有限Markov决策过程

    4.3 Bellman方程

    4.4 策略

    4.5 小结

    4.6 习题

    参考文献

    第5章 动态规划

    5.1 策略评估

    5.2 策略改进

    5.3 策略迭代

    5.4 值迭代

    5.5 异步动态规划

    5.6 收敛明

    5.7 小结

    5.8 习题

    参考文献

    第二篇 基于采样-估计的强化学习

    第6章 策略评估

    6.1 基于Monte Carlo方法的策略评估

    6.1.1 同策略Monte Carlo策略评估

    6.1.2 异策略Monte Carlo策略评估

    6.2 基于时序差分方法的策略评估

    6.3 n步预测

    6.4 小结

    6.5 习题

    参考文献

    第7章 策略控制

    7.1 同策略Monte Carlo控制

    7.2 同策略时序差分学习

    7.3 异策略学习

    7.4 基于TD(λ)的策略控制

    7.5 实例

    7.5.1 问题介绍

    7.5.2 MDP模型的要素

    7.5.3 策略评估

    7.5.4 策略控制

    7.6 小结

    7.7 习题

    参考文献

    第8章 学习与规划的整合

    8.1 模型和规划

    8.2 Dyna:整合规划、动作和学习

    8.3 几个概念

    8.4 在决策关头的规划

    8.4.1 启发式算法

    8.4.2 rollout算法

    8.4.3 Monte Carlo树搜索

    8.5 小结

    8.6 习题

    参考文献

    第三篇 基于逼近理论的强化学习

    第9章 值函数逼近

    9.1 基于随机梯度下降法的值函数逼近

    9.2 基于随机梯度下降法的-值函数逼近

    9.3 批处理

    9.3.1 线二乘值函数逼近

    9.3.2 线二乘-值函数逼近

    9.4 小结

    9.5 习题

    参考文献

    0章 策略逼近

    10.1 策略梯度法

    10.1.1 参数问题的目标函数

    10.1.2 策略梯度

    10.1.3 梯度计算

    10.1.4 REINFORCE算法

    10.2 方差减少方法

    10.2.1 利用一个评论

    10.2.2 利用基准线

    10.3 小结

    10.4 习题

    参考文献

    1章 信赖域策略优化

    11.1 预备知识

    11.2 单调改进一般随机策略的方法

    11.3 参数化策略的优化

    11.4 基于采样的目标和约束估计

    11.5 实用算法

    11.6 小结

    11.7 习题

    参考文献

    第四篇 深度强化学习

    2章 深度学习

    12.1 神经网络基础

    12.1.1 神经网络解决问题的基本流程

    12.1.2 激活函数

    12.1.3 损失函数

    12.1.4 优化算法

    12.2 典型深度神经网络结构

    12.2.1 深度的作用

    12.2.2 卷积神经网络

    12.. 循环神经网络

    参考文献

    3章 深度-网络

    13.1 DN原理

    13.1.1 预处理

    13.1.2 网络结构

    13.1.3 算法

    13.1.4 深度-网络的训练算法

    13.1.5 算法详细说明

    13.2 DN实例

    13.2.1 Atari 2600游戏介绍

    13.2.2 DN算法的实现

    13.3 小结

    13.4 习题

    参考文献

    4章 深度确定策略梯度

    14.1 DDPG算法介绍

    14.1.1 DDPG算法的发展介绍

    14.1.2 DDPG算法的原理解析

    14.2 DDPG算法的实现

    14.2.1 Mujoco的安装及使用

    14.2.2 DDPG算法的实现解析

    14.. DDPG算法的训练和测试

    参考文献

    5章 多智能体强化学习

    15.1 多智能体强化学习介绍

    15.1.1 多智能体强化学习的发展简述

    15.1.2 随机博弈

    15.1.3 纳什-学习

    15.2 平均场多智能体强化学习原理

    15.2.1 平均场近似理论

    15.2.2 平均场多智能体强化学习算法

    15.3 平均场多智能体实验

    15.3.1 MAgent平台

    15.3.2 混合合作-竞争的战斗游戏介绍

    15.3.3 MF-和MF-AC算法的实现解析

    15.3.4 战斗游戏的训练与测试

    参考文献

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购