由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
醉染图书深度强化学习 学术前沿与实战应用9787111646648
¥ ×1
前言
致谢
数学符号
篇深度强化学习
章深度强化学习基础2
1.1强化学习2
1.1.1强化学习的发展历史2
1.1.2强化学习简介4
1.1.3深度强化学习简介6
1.2马尔可夫属和决策过程9
1.2.1马尔可夫属9
1.2.2马尔可夫决策过程11
1.3强化学概念12
1.3.1值函数12
1.3.2动态规划14
1.3.3时间(序)差分15
1.3.4策略梯度16
1.3.5actor-critic方法17
1.4-learning18
1.4.1-learning简介18
1.4.2算法19
1.4.3相关变量及影响20
1.4.4实现方法21
第2章深度强化学习算法22
2.1基于值的深度强化学习算法22
2.1.1深度网络22
2.1.2深度双网络27
2.1.3竞争网络架构31
2.1.4平均值DN33
2.1.5多DN变种结合体:Rainbow37
2.1.6基于动作排除的DN42
2.2基于策略的深度强化学习算法46
2.2.1循环确定策略梯度46
2.2.2深度确定策略梯度55
2..信赖域策略优化62
2.2.4近端策略优化68
.基于模型的深度强化学习算法73
..1基于模型加速的连续深度-learning73
..2范例模型探索80
..基于模型集成的信赖域策略优化88
..4时间差分模型95
2.4基于分层的深度强化学习算法102
2.4.1分层深度强化学习102
2.4.2基于封建网络的分层强化学习109
2.4.3基于随机神经网络的分层强化学习116
第3章分布式深度强化学习1
3.1分布式系统1
3.1.1分布式系统简介1
3.1.2分布式系统的发展历史124
3.1.3架构演进125
3.1.4主流分布式系统框架128
3.2分布式深度强化学习算法129
3.2.1分布式近端策略优化129
3.2.2分布式深度确定策略梯度138
3.3分布式深度强化学习框架145
3.3.1重要加权Actor-Learner架构145
3.3.2分布式优先经验复用池153
第二篇多智能体深度强化学习
第4章多智能体深度强化学习基础162
4.1多智能体强化学习162
4.1.1多智能体强化学习发展历史162
4.1.2多智能体强化学习简介164
4.1.3优势和挑战166
4.2部分可见马尔可夫决策过程166
4.2.1POMDP模型166
4.2.2POMDP相关研究169
4..POMDP应用领域170
第5章多智能体深度强化学习算法171
5.1基于值函数的多智能体深度强化学习171
5.1.1基于DN的多智能体网络171
5.1.2智能体间学习174
5.1.3协同多智能体学习的价值分解网络178
5.1.4多智能体深度强化学习的稳定经验复用池182
5.1.5单调值函数分解187
5.1.6深度强化学习中的对立智能体建模190
5.1.7平均场多智能体强化学习193
5.2基于策略的多智能体深度强化学习197
5.2.1基于自身策略的智能体行为预测197
5.2.2双重平均方案201
5..多智能体深度强化学习的统一博弈论方法208
5.3基于AC框架的多智能体深度强化学习212
5.3.1多智能体深度确定策略梯度212
5.3.2多智能体集中规划的价值函数策略梯度220
5.3.3多智能体系统的策略表示学习227
5.3.4部分可观察环境下的多智能体策略优化1
5.3.5基于联网智能体的接近去中心化MARL
第三篇多任务深度强化学习
第6章多任务深度强化学习基础244
6.1简介244
6.1.1理论概述244
6.1.2面临的挑战247
6.2策略蒸馏法248
第7章多任务深度强化学习算法253
7.1无监督强化与辅学253
7.1.1算法介绍253
7.1.2算法分析255
7.1.3使用场景与优势分析261
7.2使用渐进式神经网络解决任务的复杂序列262
7.2.1算法介绍262
7.2.2算法分析262
7..使用场景与优势分析266
7.3基于单智能体的多任务共享模型267
7.3.1算法介绍267
7.3.2算法分析268
7.3.3使用场景与优势分析272
7.4使用PopArt归一化多任务更新幅度273
7.4.1算法介绍273
7.4.2算法分析274
7.4.3使用场景与优势分析276
第四篇深度强化学习的应用
第8章游戏278
8.1GymRetro游戏平台278
8.1.1平台简介278
8.1.2安装GymRetro平台281
8.1.3安装RetroUI282
8.1.4GymRetro主要函数说明283
8.2相关应用285
8.2.1Pong游戏285
8.2.2CartPole291
8..FlappyBird298
8.2.4Gradius302
第9章机器人控制312
9.1机器人导航312
9.1.1无地图导航312
9.1.2社会感知机器人导航316
9.2路径规划321
9.3机器人视觉324
0章计算机视觉327
10.1图像327
10.1.1图像字幕327
10.1.2图像恢复332
10.视频7
10.2.1视频字幕337
10.2.2视频快进345
10..视觉跟踪348
1章自然语言处理354
11.1与知识库交互的多轮对话智能体354
11.1.1概率KB查找355
11.1.2端到端KB-InfoBot356
11.1.3总结359
11.2鲁棒远程监督关系提取359
11.2.1问题表述360
11.2.2使用基于策略的智能体重新分配训练数据集363
11..总结3
11.3非成对情感–情感翻译363
11.3.1问题表述363
11.3.2训练算法366
11.3.3总结367
缩写参照表368
常用词中英文对照371
参考文献374
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格