《强化学习：原理与PYTHON实战》肖智清著著【摘要书评在线阅读】-苏宁易购图书

文轩网图书旗舰店

https://product.suning.com/0070067633/11555288247.html

商品参数

作者：肖智清著著
出版社：机械工业出版社
出版时间：2023-07-01 00:00:00
版次：1
印次：1
印刷时间：2023-07-01
字数：666
页数：490
开本：16开
装帧：平装
ISBN：9787111728917
国别/地区：中国
版权提供：机械工业出版社

强化学习原理与Phthon实战

作者:肖智清著

定价:129

出版社:机械工业出版社

出版日期:2023年07月01日

页数:1008

装帧:平装

ISBN:9787111728917

携七大优势，带你一书学透强化学习，掌握ChatGPT背后的关键技术。1）内容完备：完整地介绍了主流强化学习理论，全面覆盖主流强化学习算法，包括了资格迹等经典算法和MuZero等深度强化学习算法，且给出主要定理的证明过程。让你参透ChatGPT背后的关键技术。2）表述一致：全书采用统一的数学符号，并兼容主流强化学习教程。3）配套丰富：每章都配有知识点总结、代码和习题。4）环境全面：既有Gym的内置环境，也有在Gym基础上进一步扩展的第三方环境，还带领读者一起实现了自定义的环境。5）兼容广泛：所有代码均可在Windows、macOS、Linux上运行，提供安装和配置方法。同时，为深度强化学习相关算法提供了TensorFlow和PyTorch的对照实现，学习方案任你选择。6）硬件要求低：所有代码均可在没有GPU的个人计算机上运行，也可以在线查阅运行结果。7）版权输出：本书内容受到国际知名出版社Snull

全书分为三个部分：第1章：从零开始介绍强化学习的背景知识，介绍环境库Gym的使用。第2~15章：基于折扣奖励离散时间Markov决策过程模型，介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论，进而在理论的基础上讲解算法，并为算法提供配套代码实现。基础理论的讲解突出主干部分，算法讲解全面覆盖主流的强化学习算法，包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应，对于深度强化学习算法还给出了基于TensorFlow2和PyTorch1的对照实现。第16章：介绍其他强化学习模型，包括平均奖励模型、连续时间模型、非齐次模型，半Markov模型、部分可观测模型等，以便更好了解强化学习研究的全貌。

无

无

数学符号表
前言
第1章初识强化学习1
1.1强化学习及其关键元素1
1.2强化学习的应用3
1.3智能体/环境接口4
1.4强化学习的分类6
1.4.1按任务分类6
1.4.2按算法分类8
1.5强化学习算法的性能指标9
1.6案例：基于Gym库的智能体/环境接口10
1.6.1安装Gym库11
1.6.2使用Gym库11
1.6.3小车上山13
1.7本章小结18
1.8练习与模拟面试19
第2章Markov决策过程21
2.1Markov决策过程模型21
2.1.1离散时间Markov决策过程21
2.1.2环境与动力24
2.1.3策略26
2.1.4带折扣的回报26
2.2价值27
2.2.1价值的定义28
2.2.2价值的性质28
2.2.3策略的偏序和改进34
2.3带折扣的分布35
2.3.1带折扣的分布的定义35
2.3.2带折扣的分布的性质37
2.3.3带折扣的分布和策略的等价性39
2.3.4带折扣的分布下的期望40
2.4很优策略与很优价值41
2.4.1从很优策略到很优价值41
2.4.2很优策略的存在性42
2.4.3很优价值的性质与Bellman很优方程43
2.4.4用线性规划法求解很优价值48
2.4.5用很优价值求解很优策略51
2.5案例：悬崖寻路52
2.5.1使用环境52
2.5.2求解策略价值53
2.5.3求解很优价值54
2.5.4求解很优策略55
2.6本章小结55
2.7练习与模拟面试57
第3章有模型数值迭代59
3.1Bellman算子及其性质59
3.2有模型策略迭代64
3.2.1策略评估65
3.2.2策略改进66
3.2.3策略迭代67
3.3价值迭代68
3.4自益与动态规划69
3.5案例：冰面滑行70
3.5.1使用环境71
3.5.2有模型策略迭代求解73
3.5.3有模型价值迭代求解76
3.6本章小结76
3.7练习与模拟面试77
第4章回合更新价值迭代78
4.1同策回合更新79
4.1.1同策回合更新策略评估79
4.1.2带起始探索的同策回合更新84
4.1.3基于柔性策略的同策回合更新86
4.2异策回合更新89
4.2.1重要性采样89
4.2.2异策回合更新策略评估92
4.2.3异策回合更新很优策略求解93
4.3实验：21点游戏94
4.3.1使用环境94
4.3.2同策策略评估96
4.3.3同策很优策略求解98
4.3.4异策策略评估101
4.3.5异策很优策略求解102
4.4本章小结103
4、5练习与模拟面试104
第5章时序差分价值迭代106
5.1时序差分目标106
5.2同策时序差分更新109
5.2.1时序差分更新策略评估109
5.2.2SARSA算法113
5.2.3期望SARSA算法115
5.3异策时序差分更新117
5.3.1基于重要性采样的异策算法117
5.3.2Q学习119
5.3.3双重Q学习120
5.4资格迹121
5.4.1λ回报122
5.4.2TD(λ)算法123
5.5案例：的士调度125
5.5.1使用环境126
5.5.2同策时序差分学习127
5.5.3异策时序差分学习130
5.5.4资格迹学习132
56本章小结134
57练习与模拟面试135
第6章函数近似方法137
6.1函数近似原理138
6.2基于梯度的参数更新139
6.2.1随机梯度下降139
6.2.2半梯度下降141
6.2.3带资格迹的半梯度下降142
6.3函数近似的收敛性144
6.3.1收敛的条件144
6.3.2Baird反例145
6.4深度Q网络147
6.4.1经验回放148
6.4.2目标网络151
6.4.3双重深度Q网络152
6.4.4决斗深度Q网络153
6.5案例：小车上山154
6.5.1使用环境155
6.5.2用线性近似求解很优策略156
6.5.3用深度Q网络求解很优策略161
6.6本章小结172
6.7练习与模拟面试172
第7章回合更新策略梯度方法174
7.1策略梯度算法的原理174
7.1.1函数近似策略174
7.1.2策略梯度定理175
7.1.3策略梯度和极大似然估计的关系179
7.2同策回合更新策略梯度算法179
7.2.1简单的策略梯度算法180
7.2.2带基线的简单策略梯度算法180
7.3异策回合更新策略梯度算法182
7.4案例：车杆平衡183
7.4.1用同策策略梯度算法求解很优策略184
7.4.2用异策策略梯度算法求解很优策略189
7.5本章小结195
7.6练习与模拟面试196
第8章执行者/评论者197
8.1执行者/评论者方法197
8.2同策执行者/评论者算法198
8.2.1动作价值执行者/评论者算法198
8.2.2优势执行者/评论者算法199
8.2.3带资格迹的执行者/评论者算法200
8.3基于代理优势的同策算法201
8.3.1性能差别引理201
8.3.2代理优势202
8.3.3邻近策略优化203
8.4自然梯度和信赖域算法205
8.4.1KL散度与Fisher信息矩阵206
8.4.2代理优势的信赖域208
8.4.3自然策略梯度算法209
8.4.4信赖域策略优化212
8.5重要性采样异策执行者/评论者算法213
8.6案例：双节倒立摆214
8.6.1用同策执行者/评论者算法求解很优策略216
8.6.2用基于代理优势的同策算法求解很优策略226
8.6.3用自然策略梯度和信赖域算法求解很优策略230
8.6.4用重要性采样异策执行者/评论者算法求解很优策略242
8.7本章小结246
8.8练习与模拟面试247
第9章连续动作空间的确定性策略248
9.1确定性策略梯度定理248
9.2同策确定性算法250
9.3异策确定性算法251
9.3.1基本的异策确定性执行者/评论者算法251
9.3.2深度确定性策略梯度算法253
9.3.3双重延迟深度确定性策略梯度算法254
9.4探索过程255
9.5案例：倒立摆的控制256
9.5.1用深度确定性策略梯度算法求解257
9.5.2用双重延迟深度确定性算法求解263
9.6本章小结268
9.7练习与模拟面试268
第10章优选熵强化学习270
10.1优选熵强化学习与柔性强化学习理论270
10.1.1奖励工程和带熵的奖励270
10.1.2柔性价值272
10.1.3柔性策略改进定理和优选熵强化学习的迭代求解273
10.1.4柔性很优价值275
10.1.5柔性策略梯度定理276
10.2柔性强化学习算法281
10.2.1柔性Q学习281
10.2.2柔性执行者/评论者算法282
10.3自动熵调节284
10.4案例：月球登陆器286
10.4.1环境安装286
10.4.2使用环境287
10.4.3用柔性Q学习求解LunarLander289
10.4.4用柔性执行者/评论者求解LunarLander292
10.4.5自动熵调节用于LunarLander297
10.4.6求解LunarLander Continuous302
10.5本章小结308
10.6练习与模拟面试309
第11章基于策略的无梯度算法310
11.1无梯度算法310
11.1.1进化策略算法310
11.1.2增强随机搜索算法311
11.2无梯度算法和策略梯度算法的比较312
11.3案例：双足机器人313
11.3.1奖励截断314
11.3.2用进化算法求解315
11.3.3用增强随机搜索算法求解317
11.4本章小结318
11.5练习与模拟面试319
第12章值分布强化学习320
12.1价值分布及其性质320
12.2效用优选化强化学习323
12.3基于概率分布的算法326
12.3.1类别深度Q网络算法326
12.3.2带效用的类别深度Q网络算法328
12.4基于分位数的值分布强化学习329
12.4.1分位数回归深度Q网络算法331
12.4.2含蓄分位网络算法333
12.4.3带效用的分位数回归算法334
12.5类别深度Q网络算法和分位数回归算法的比较335
12.6案例：Atari电动游戏Pong336
12.6.1Atari游戏环境的使用336
12.6.2Pong游戏338
12.6.3包装Atari游戏环境339
12.6.4用类别深度Q网络算法玩游戏340
12.6.5用分位数回归深度Q网络算法玩游戏345
12.6.6用含蓄分位网络算法玩游戏349
12.7本章小结356
12.8练习与模拟面试356
第13章最小化遗憾358
13.1遗憾358
13.2多臂赌博机360
13.2.1多臂赌博机问题描述360
13.2.2ε贪心算法361
13.2.3置信上界361
13.2.4Bayesian置信上界算法365
13.2.5Thompson采样算法368
13.3置信上界价值迭代368
13.4案例：Bernoulli奖励多臂赌博机376
13.4.1创建自定义环境377
13.4.2用ε贪心策略求解378
13.4.3用第一置信上界求解379
13.4.4用Bayesian置信上界求解380
13.4.5用Thompson采样求解381
13.5本章小结382
13.6练习与模拟面试382
第14章树搜索384
14.1回合更新树搜索385
14.1.1选择387
14.1.2扩展和评估388
14.1.3回溯389
14.1.4决策390
14.1.5训练回合更新树搜索用到的神经网络390
14.2回合更新树搜索在棋盘游戏中的应用393
14.2.1棋盘游戏393
14.2.2自我对弈398
14.2.3针对棋盘游戏的网络399
14.2.4从AlphaGo到MuZero401
14.3案例：井字棋403
14.3.1棋盘游戏环境boardgame2403
14.3.2穷尽式搜索408
14.3.3启发式搜索410
14.4本章小结418
14.5练习与模拟面试418
第15章模仿学习和人类反馈强化学习420
15.1模仿学习420
15.1.1f散度及其性质421
15.1.2行为克隆427
15.1.3生成对抗模仿学习429
15.1.4逆强化学习431
15.2人类反馈强化学习和生成性预训练变换模型432
15.3案例：机器人行走433
15.3.1扩展库PyBullet433
15.3.2用行为克隆模仿学习435
15.3.3用生成对抗模仿学习438
15.4本章小结444
15.5练习与模拟面试445
第16章更多智能体/环境接口模型446
16.1平均奖励离散时间Markov决策过程446
16.1.1平均奖励447
16.1.2差分价值450
16.1.3很优策略453
16.2连续时间Markov决策过程456
16.3非齐次Markov决策过程459
16.3.1非齐次状态表示460
16.3.2时间指标有界的情况461
16.3.3时间指标无界的情况462
16.4半Markov决策过程463
16.4.1半Markov决策过程及其价值463
16.4.2很优策略求解466
16.4.3分层强化学习466
16.5部分可观测Markov决策过程467
16.5.1离散时间部分可观测Markov决策过程467
16.5.2信念469
16.5.3信念Markov决策过程473
16.5.4信念价值476
16.5.5有限部分可观测Markov决策过程的信念价值479
16.5.6使用记忆481
16.6案例：老虎482
16.6.1带折扣回报期望与平均奖励的比较482
16.6.2信念Markov决策过程484
16.6.3非齐次的信念状态价值485
16.7本章小结487
16.8练习与模拟面试489

查看全部评论>

服务体验

强化学习原理与Phthon实战肖智清著专业科技文轩网

新华书店正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

文轩网图书旗舰店

售后保障

最近浏览

猜你喜欢

服务体验

强化学习 原理与Phthon实战 肖智清 著 专业科技 文轩网

新华书店正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

工业技术排行榜

文轩网图书旗舰店

售后保障

最近浏览

猜你喜欢

强化学习原理与Phthon实战肖智清著专业科技文轩网