返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • 全新强化学习 原理与Phthon实现肖智清9787111631774
  • 正版
    • 作者: 肖智清著 | 肖智清编 | 肖智清译 | 肖智清绘
    • 出版社: 机械工业出版社
    • 出版时间:2019-08-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    萌萌哒图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: 肖智清著| 肖智清编| 肖智清译| 肖智清绘
    • 出版社:机械工业出版社
    • 出版时间:2019-08-01
    • 版次:1
    • 印次:1
    • 页数:239
    • 开本:16开
    • ISBN:9787111631774
    • 版权提供:机械工业出版社
    • 作者:肖智清
    • 著:肖智清
    • 装帧:平装
    • 印次:1
    • 定价:89.00
    • ISBN:9787111631774
    • 出版社:机械工业出版社
    • 开本:16开
    • 印刷时间:暂无
    • 语种:暂无
    • 出版时间:2019-08-01
    • 页数:239
    • 外部编号:1201916328
    • 版次:1
    • 成品尺寸:暂无

    前言
    章初识强化学习1
    1.1强化学习及其关键元素1
    1.2强化学习的应用3
    1.3智能体/环境接口4
    1.4强化学习的分类6
    1.4.1按任务分类6
    1.4.2按算法分类7
    1.5如何学习强化学习8
    1.5.1学习路线9
    1.5.2学习资源9
    1.6案例:基于Gym库的智能体/环境交互9
    1.6.1安装Gym库10
    1.6.2使用Gym库10
    1.6.3小车上山12
    1.7本章小结14
    第2章Markov决策过程16
    2.1Markov决策过程模型16
    2.1.1离散时间Markov决策过程16
    2.1.2环境与动力18
    2.1.3智能体与策略19
    2.1.4奖励、回报与价值函数19
    2.2Bellman期望方程21
    .策略及其质25
    ..1策略与价值函数25
    ..2Bellman方程25
    ..用Bellman方程求解策略29
    2.4案例:悬崖寻路31
    2.4.1实验环境使用31
    2.4.2求解Bellman期望方程32
    2.4.3求解Bellman方程33
    2.5本章小结35
    第3章有模型数值迭代37
    3.1度量空间与压缩映37
    3.1.1度量空间及其完备37
    3.1.2压缩映与Bellman算子38
    3.1.3Banach不动点定理39
    3.2有模型策略迭代40
    3.2.1策略评估40
    3.2.2策略改进42
    3..策略迭代44
    3.3有模型价值迭代45
    3.4动态规划46
    3.4.1从动态规划看迭代算法46
    3.4.2异步动态规划47
    3.5案例:冰面滑行47
    3.5.1实验环境使用48
    3.5.2有模型策略迭代求解49
    3.5.3有模型价值迭代求解51
    3.6本章小结52
    第4章回合更新价值迭代54
    4.1同策回合更新54
    4.1.1同策回合更新策略评估54
    4.1.2带起始探索的同策回合更新58
    4.1.3基于柔策略的同策回合更新60
    4.2异策回合更新62
    4.2.1重要采样62
    4.2.2异策回合更新策略评估64
    4..异策回合更新策略求解65
    4.3案例:21点游戏66
    4.3.1实验环境使用66
    4.3.2同策策略评估67
    4.3.3同策策略求解70
    4.3.4异策策略评估72
    4.3.5异策策略求解73
    4.4本章小结74
    第5章时序差分价值迭代76
    5.1同策时序差分更新76
    5.1.1时序差分更新策略评估78
    5.1.2SARSA算法81
    5.1.3期望SARSA算法83
    5.2异策时序差分更新85
    5.2.1基于重要采样的异策算法85
    5.2.2学习86
    5..双重学习87
    5.3资格迹89
    5.3.1λ回报89
    5.3.2TD(λ)90
    5.4案例:出租车调度92
    5.4.1实验环境使用93
    5.4.2同策时序差分学习调度94
    5.4.3异策时序差分学习调度97
    5.4.4资格迹学习调度99
    5.5本章小结100
    第6章函数近似方法101
    6.1函数近似原理101
    6.1.1随机梯度下降101
    6.1.2半梯度下降103
    6.1.3带资格迹的半梯度下降105
    6.2线近似107
    6.2.1查找表与线近似的关系107
    6.2.2线二乘策略评估107
    6..线二乘策略求解109
    6.3函数近似的收敛109
    6.4深度学习1
    6.4.1经验回放111
    6.4.2带目标网络的深度学习12
    6.4.3双重深度网络14
    6.4.4对偶深度网络14
    6.5案例:小车上山115
    6.5.1实验环境使用116
    6.5.2用线近似求解策略117
    6.5.3用深度学习求解策略120
    6.6本章小结1
    第7章回合更新策略梯度方法125
    7.1策略梯度算法的原理125
    7.1.1函数近似与动作偏好125
    7.1.2策略梯度定理126
    7.2同策回合更新策略梯度算法128
    7.2.1简单的策略梯度算法128
    7.2.2带基线的简单策略梯度算法129
    7.3异策回合更新策略梯度算法131
    7.4策略梯度更新和极大似然估计的关系132
    7.5案例:车杆平衡132
    7.5.1同策策略梯度算法求解策略133
    7.5.2异策策略梯度算法求解策略135
    7.6本章小结137
    第8章执行者/评论者方法139
    8.1同策执行者/评论者算法139
    8.1.1动作价值执行者/评论者算法140
    8.1.2优势执行者/评论者算法141
    8.1.3带资格迹的执行者/评论者算法143
    8.2基于代理优势的同策算法143
    8.2.1代理优势144
    8.2.2邻近策略优化145
    8.3信任域算法146
    8.3.1KL散度146
    8.3.2信任域147
    8.3.3自然策略梯度算法148
    8.3.4信任域策略优化151
    8.3.5Kronecker因子信任域执行者/评论者算法152
    8.4重要采样异策执行者/评论者算法153
    8.4.1基本的异策算法154
    8.4.2带经验回放的异策算法154
    8.5柔执行者/评论者算法157
    8.5.1熵157
    8.5.2奖励工程和带熵的奖励158
    8.5.3柔执行者/评论者的网络设计159
    8.6案例:双节倒立摆161
    8.6.1同策执行者/评论者算法求解策略162
    8.6.2异策执行者/评论者算法求解策略168
    8.7本章小结170
    第9章连续动作空间的确定策略172
    9.1同策确定算法172
    9.1.1策略梯度定理的确定版本172
    9.1.2基本的同策确定执行者/评论者算法174
    9.2异策确定算法176
    9.2.1基本的异策确定执行者/评论者算法177
    9.2.2深度确定策略梯度算法177
    9..双重延迟深度确定策略梯度算法178
    9.3案例:倒立摆的控制180
    9.3.1用深度确定策略梯度算法求解181
    9.3.2用双重延迟深度确定算法求解184
    9.4本章小结187
    0章综合案例:电动游戏188
    10.1Atari游戏环境188
    10.1.1Gym库的完整安装188
    10.1.2游戏环境使用190
    10.2基于深度学习的游戏AI191
    10.2.1算法设计192
    10.2.2智能体的实现193
    10..智能体的训练和测试197
    10.3本章小结198
    1章综合案例:棋盘游戏200
    11.1双人确定棋盘游戏200
    11.1.1五子棋和井字棋200
    11.1.2黑白棋201
    11.1.3围棋202
    11.2AlphaZero算法203
    11.2.1回合更新树搜索203
    11.2.2深度残差网络206
    11..自我对弈208
    11.2.4算法流程210
    11.3棋盘游戏环境boardgame2210
    11.3.1为Gym库扩展自定义环境211
    11.3.2boardgame2设计211
    11.3.3Gym环境接口的实现214
    11.3.4树搜索接口的实现216
    11.4AlphaZero算法实现218
    11.4.1智能体类的实现218
    11.4.2自我对弈的实现2
    11.4.3训练智能体224
    11.5本章小结225
    2章综合案例:自动驾驶226
    12.1AirSim开发环境使用226
    12.1.1安装和运行AirSim226
    12.1.2用Python访问AirSim228
    12.2基于强化学习的自动驾驶229
    12.2.1为自动驾驶设计强化学习环境0
    12.2.2智能体设计和实现5
    12..智能体的训练和测试
    1.本章小结

      

      

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购