返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • 强化学习 原理与Phthon实战 肖智清 著 专业科技 文轩网
  • 新华书店正版
    • 作者: 肖智清 著著
    • 出版社: 机械工业出版社
    • 出版时间:2023-07-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

         https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: 肖智清 著著
    • 出版社:机械工业出版社
    • 出版时间:2023-07-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2023-07-01
    • 字数:666
    • 页数:490
    • 开本:16开
    • 装帧:平装
    • ISBN:9787111728917
    • 国别/地区:中国
    • 版权提供:机械工业出版社

    强化学习 原理与Phthon实战

    作  者:肖智清 著
    定  价:129
    出 版 社:机械工业出版社
    出版日期:2023年07月01日
    页  数:1008
    装  帧:平装
    ISBN:9787111728917
    主编推荐

    携七大优势,带你一书学透强化学习,掌握ChatGPT背后的关键技术。1)内容完备:完整地介绍了主流强化学习理论,全面覆盖主流强化学习算法,包括了资格迹等经典算法和MuZero等深度强化学习算法,且给出主要定理的证明过程。让你参透ChatGPT背后的关键技术。2)表述一致:全书采用统一的数学符号,并兼容主流强化学习教程。3)配套丰富:每章都配有知识点总结、代码和习题。4)环境全面:既有Gym的内置环境,也有在Gym基础上进一步扩展的第三方环境,还带领读者一起实现了自定义的环境。5)兼容广泛:所有代码均可在Windows、macOS、Linux上运行,提供安装和配置方法。同时,为深度强化学习相关算法提供了TensorFlow和PyTorch的对照实现,学习方案任你选择。6)硬件要求低:所有代码均可在没有GPU的个人计算机上运行,也可以在线查阅运行结果。7)版权输出:本书内容受到国际知名出版社Snull

    内容简介

    全书分为三个部分:第1章:从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,对于深度强化学习算法还给出了基于TensorFlow2和PyTorch1的对照实现。第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型,半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。

    作者简介

    精彩内容

    目录
    数学符号表
    前言
    第1章初识强化学习1
    1.1强化学习及其关键元素1
    1.2强化学习的应用3
    1.3智能体/环境接口4
    1.4强化学习的分类6
    1.4.1按任务分类6
    1.4.2按算法分类8
    1.5强化学习算法的性能指标9
    1.6案例:基于Gym库的智能体/环境接口10
    1.6.1安装Gym库11
    1.6.2使用Gym库11
    1.6.3小车上山13
    1.7本章小结18
    1.8练习与模拟面试19
    第2章Markov决策过程21
    2.1Markov决策过程模型21
    2.1.1离散时间Markov决策过程21
    2.1.2环境与动力24
    2.1.3策略26
    2.1.4带折扣的回报26
    2.2价值27
    2.2.1价值的定义28
    2.2.2价值的性质28
    2.2.3策略的偏序和改进34
    2.3带折扣的分布35
    2.3.1带折扣的分布的定义35
    2.3.2带折扣的分布的性质37
    2.3.3带折扣的分布和策略的等价性39
    2.3.4带折扣的分布下的期望40
    2.4很优策略与很优价值41
    2.4.1从很优策略到很优价值41
    2.4.2很优策略的存在性42
    2.4.3很优价值的性质与Bellman很优方程43
    2.4.4用线性规划法求解很优价值48
    2.4.5用很优价值求解很优策略51
    2.5案例:悬崖寻路52
    2.5.1使用环境52
    2.5.2求解策略价值53
    2.5.3求解很优价值54
    2.5.4求解很优策略55
    2.6本章小结55
    2.7练习与模拟面试57
    第3章有模型数值迭代59
    3.1Bellman算子及其性质59
    3.2有模型策略迭代64
    3.2.1策略评估65
    3.2.2策略改进66
    3.2.3策略迭代67
    3.3价值迭代68
    3.4自益与动态规划69
    3.5案例:冰面滑行70
    3.5.1使用环境71
    3.5.2有模型策略迭代求解73
    3.5.3有模型价值迭代求解76
    3.6本章小结76
    3.7练习与模拟面试77
    第4章回合更新价值迭代78
    4.1同策回合更新79
    4.1.1同策回合更新策略评估79
    4.1.2带起始探索的同策回合更新84
    4.1.3基于柔性策略的同策回合更新86
    4.2异策回合更新89
    4.2.1重要性采样89
    4.2.2异策回合更新策略评估92
    4.2.3异策回合更新很优策略求解93
    4.3实验:21点游戏94
    4.3.1使用环境94
    4.3.2同策策略评估96
    4.3.3同策很优策略求解98
    4.3.4异策策略评估101
    4.3.5异策很优策略求解102
    4.4本章小结103
    4、5练习与模拟面试104
    第5章时序差分价值迭代106
    5.1时序差分目标106
    5.2同策时序差分更新109
    5.2.1时序差分更新策略评估109
    5.2.2SARSA算法113
    5.2.3期望SARSA算法115
    5.3异策时序差分更新117
    5.3.1基于重要性采样的异策算法117
    5.3.2Q学习119
    5.3.3双重Q学习120
    5.4资格迹121
    5.4.1λ回报122
    5.4.2TD(λ)算法123
    5.5案例:的士调度125
    5.5.1使用环境126
    5.5.2同策时序差分学习127
    5.5.3异策时序差分学习130
    5.5.4资格迹学习132
    56本章小结134
    57练习与模拟面试135
    第6章函数近似方法137
    6.1函数近似原理138
    6.2基于梯度的参数更新139
    6.2.1随机梯度下降139
    6.2.2半梯度下降141
    6.2.3带资格迹的半梯度下降142
    6.3函数近似的收敛性144
    6.3.1收敛的条件144
    6.3.2Baird反例145
    6.4深度Q网络147
    6.4.1经验回放148
    6.4.2目标网络151
    6.4.3双重深度Q网络152
    6.4.4决斗深度Q网络153
    6.5案例:小车上山154
    6.5.1使用环境155
    6.5.2用线性近似求解很优策略156
    6.5.3用深度Q网络求解很优策略161
    6.6本章小结172
    6.7练习与模拟面试172
    第7章回合更新策略梯度方法174
    7.1策略梯度算法的原理174
    7.1.1函数近似策略174
    7.1.2策略梯度定理175
    7.1.3策略梯度和极大似然估计的关系179
    7.2同策回合更新策略梯度算法179
    7.2.1简单的策略梯度算法180
    7.2.2带基线的简单策略梯度算法180
    7.3异策回合更新策略梯度算法182
    7.4案例:车杆平衡183
    7.4.1用同策策略梯度算法求解很优策略184
    7.4.2用异策策略梯度算法求解很优策略189
    7.5本章小结195
    7.6练习与模拟面试196
    第8章执行者/评论者197
    8.1执行者/评论者方法197
    8.2同策执行者/评论者算法198
    8.2.1动作价值执行者/评论者算法198
    8.2.2优势执行者/评论者算法199
    8.2.3带资格迹的执行者/评论者算法200
    8.3基于代理优势的同策算法201
    8.3.1性能差别引理201
    8.3.2代理优势202
    8.3.3邻近策略优化203
    8.4自然梯度和信赖域算法205
    8.4.1KL散度与Fisher信息矩阵206
    8.4.2代理优势的信赖域208
    8.4.3自然策略梯度算法209
    8.4.4信赖域策略优化212
    8.5重要性采样异策执行者/评论者算法213
    8.6案例:双节倒立摆214
    8.6.1用同策执行者/评论者算法求解很优策略216
    8.6.2用基于代理优势的同策算法求解很优策略226
    8.6.3用自然策略梯度和信赖域算法求解很优策略230
    8.6.4用重要性采样异策执行者/评论者算法求解很优策略242
    8.7本章小结246
    8.8练习与模拟面试247
    第9章连续动作空间的确定性策略248
    9.1确定性策略梯度定理248
    9.2同策确定性算法250
    9.3异策确定性算法251
    9.3.1基本的异策确定性执行者/评论者算法251
    9.3.2深度确定性策略梯度算法253
    9.3.3双重延迟深度确定性策略梯度算法254
    9.4探索过程255
    9.5案例:倒立摆的控制256
    9.5.1用深度确定性策略梯度算法求解257
    9.5.2用双重延迟深度确定性算法求解263
    9.6本章小结268
    9.7练习与模拟面试268
    第10章优选熵强化学习270
    10.1优选熵强化学习与柔性强化学习理论270
    10.1.1奖励工程和带熵的奖励270
    10.1.2柔性价值272
    10.1.3柔性策略改进定理和优选熵强化学习的迭代求解273
    10.1.4柔性很优价值275
    10.1.5柔性策略梯度定理276
    10.2柔性强化学习算法281
    10.2.1柔性Q学习281
    10.2.2柔性执行者/评论者算法282
    10.3自动熵调节284
    10.4案例:月球登陆器286
    10.4.1环境安装286
    10.4.2使用环境287
    10.4.3用柔性Q学习求解LunarLander289
    10.4.4用柔性执行者/评论者求解LunarLander292
    10.4.5自动熵调节用于LunarLander297
    10.4.6求解LunarLander Continuous302
    10.5本章小结308
    10.6练习与模拟面试309
    第11章基于策略的无梯度算法310
    11.1无梯度算法310
    11.1.1进化策略算法310
    11.1.2增强随机搜索算法311
    11.2无梯度算法和策略梯度算法的比较312
    11.3案例:双足机器人313
    11.3.1奖励截断314
    11.3.2用进化算法求解315
    11.3.3用增强随机搜索算法求解317
    11.4本章小结318
    11.5练习与模拟面试319
    第12章值分布强化学习320
    12.1价值分布及其性质320
    12.2效用优选化强化学习323
    12.3基于概率分布的算法326
    12.3.1类别深度Q网络算法326
    12.3.2带效用的类别深度Q网络算法328
    12.4基于分位数的值分布强化学习329
    12.4.1分位数回归深度Q网络算法331
    12.4.2含蓄分位网络算法333
    12.4.3带效用的分位数回归算法334
    12.5类别深度Q网络算法和分位数回归算法的比较335
    12.6案例:Atari电动游戏Pong336
    12.6.1Atari游戏环境的使用336
    12.6.2Pong游戏338
    12.6.3包装Atari游戏环境339
    12.6.4用类别深度Q网络算法玩游戏340
    12.6.5用分位数回归深度Q网络算法玩游戏345
    12.6.6用含蓄分位网络算法玩游戏349
    12.7本章小结356
    12.8练习与模拟面试356
    第13章最小化遗憾358
    13.1遗憾358
    13.2多臂赌博机360
    13.2.1多臂赌博机问题描述360
    13.2.2ε贪心算法361
    13.2.3置信上界361
    13.2.4Bayesian置信上界算法365
    13.2.5Thompson采样算法368
    13.3置信上界价值迭代368
    13.4案例:Bernoulli奖励多臂赌博机376
    13.4.1创建自定义环境377
    13.4.2用ε贪心策略求解378
    13.4.3用第一置信上界求解379
    13.4.4用Bayesian置信上界求解380
    13.4.5用Thompson采样求解381
    13.5本章小结382
    13.6练习与模拟面试382
    第14章树搜索384
    14.1回合更新树搜索385
    14.1.1选择387
    14.1.2扩展和评估388
    14.1.3回溯389
    14.1.4决策390
    14.1.5训练回合更新树搜索用到的神经网络390
    14.2回合更新树搜索在棋盘游戏中的应用393
    14.2.1棋盘游戏393
    14.2.2自我对弈398
    14.2.3针对棋盘游戏的网络399
    14.2.4从AlphaGo到MuZero401
    14.3案例:井字棋403
    14.3.1棋盘游戏环境boardgame2403
    14.3.2穷尽式搜索408
    14.3.3启发式搜索410
    14.4本章小结418
    14.5练习与模拟面试418
    第15章模仿学习和人类反馈强化学习420
    15.1模仿学习420
    15.1.1f散度及其性质421
    15.1.2行为克隆427
    15.1.3生成对抗模仿学习429
    15.1.4逆强化学习431
    15.2人类反馈强化学习和生成性预训练变换模型432
    15.3案例:机器人行走433
    15.3.1扩展库PyBullet433
    15.3.2用行为克隆模仿学习435
    15.3.3用生成对抗模仿学习438
    15.4本章小结444
    15.5练习与模拟面试445
    第16章更多智能体/环境接口模型446
    16.1平均奖励离散时间Markov决策过程446
    16.1.1平均奖励447
    16.1.2差分价值450
    16.1.3很优策略453
    16.2连续时间Markov决策过程456
    16.3非齐次Markov决策过程459
    16.3.1非齐次状态表示460
    16.3.2时间指标有界的情况461
    16.3.3时间指标无界的情况462
    16.4半Markov决策过程463
    16.4.1半Markov决策过程及其价值463
    16.4.2很优策略求解466
    16.4.3分层强化学习466
    16.5部分可观测Markov决策过程467
    16.5.1离散时间部分可观测Markov决策过程467
    16.5.2信念469
    16.5.3信念Markov决策过程473
    16.5.4信念价值476
    16.5.5有限部分可观测Markov决策过程的信念价值479
    16.5.6使用记忆481
    16.6案例:老虎482
    16.6.1带折扣回报期望与平均奖励的比较482
    16.6.2信念Markov决策过程484
    16.6.3非齐次的信念状态价值485
    16.7本章小结487
    16.8练习与模拟面试489

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购