《【正版】深度强化学习实践》马克西姆·拉潘(Maxim著【摘要书评在线阅读】-苏宁易购图书

友一个图书专营店

商品参数

作者：马克西姆·拉潘(Maxim著
出版社：机械工业出版社
出版时间：2021-07
开本：16开
ISBN：9781468734091
版权提供：机械工业出版社

店铺公告

为保障消费者合理购买需求及公平交易机会，避免因非生活消费目的的购买货囤积商品，抬价转售等违法行为发生，店铺有权对异常订单不发货且不进行赔付。异常订单：包括但不限于相同用户ID批量下单，同一用户（指不同用户ID，存在相同/临近/虚构收货地址，或相同联系号码，收件人，同账户付款人等情形的）批量下单（一次性大于5本），以及其他非消费目的的交易订单。

温馨提示：请务必当着快递员面开箱验货，如发现破损，请立即拍照拒收，如验货有问题请及时联系在线客服处理，（如开箱验货时发现破损，所产生运费由我司承担，一经签收即为货物完好，如果您未开箱验货，一切损失就需要由买家承担，所以请买家一定要仔细验货），

关于退货运费：对于下单后且物流已发货货品在途的状态下，原则上均不接受退货申请，如顾客原因退货需要承担来回运费，如因产品质量问题（非破损问题）可在签收后，联系在线客服。

本店存在书、古旧书、收藏书、二手书等特殊商品，因受采购成本限制,可能高于定价销售，明码标价，介意者勿拍!

1.书籍因稀缺可能导致售价高于定价,图书实际定价参见下方详情内基本信息,请买家看清楚且明确后再拍，避免价格争议!

2.店铺无纸质均开具电子，请联系客服开具电子版

基本信息

商品名称：	深度强化学习实践（原书第2版）	开本：	16开
作者：	[俄]马克西姆·拉潘(Maxim Lapan)	页数：
定价：	149	出版时间：	2021-08-01
ISBN号：	9787111687382	印刷时间：	2021-08-01
出版社：	机械工业	版次：	1
商品类型：	图书	印次：	1

作者简介：

内容提要：

本书理论与实践相结合，系统阐述强化学习的基础知识，以及如何动手编写智能体以执行一系列实际任务。通过阅读本书，读者将获得深层Q网络、策略梯度方法、连续控制问题以及高度可扩展的非梯度方法等主题领域的可行洞见，还将学会如何构建一个经过强化学习训练、价格低廉的真实硬件机器人，并通过一步步代码优化在短短30分钟的训练后解决Pong环境。此外，本书还专门介绍了强化学习的新发展，包括离散优化（解决魔方问题）、多智能体方法、Microsoft的TextWorld环境、探索技术等。

......

译者序 前言 作者简介 审校者简介 第1章　什么是强化学习1 1.1　机器学习分类2 1.1.1　监督学习2 1.1.2　非监督学习2 1.1.3　强化学习2 1.2　强化学习的复杂性4 1.3　强化学习的形式4 1.3.1　奖励5 1.3.2　智能体6 1.3.3　环境6 1.3.4　动作7 1.3.5　观察7 1.4　强化学习的理论基础9 1.4.1　马尔可夫决策过程9 1.4.2　策略17 1.5　总结18 第2章　OpenAI Gym19 2.1　剖析智能体19 2.2　硬件和软件要求21 2.3　OpenAI Gym API23 2.3.1　动作空间23 2.3.2　观察空间23 2.3.3　环境25 2.3.4　创建环境26 2.3.5　车摆系统28 2.4　随机CartPole智能体30 2.5　Gym的额外功能：包装器和监控器30 2.5.1　包装器31 2.5.2　监控器33 2.6　总结35 第3章　使用PyTorch进行深度学习36 3.1　张量36 3.1.1　创建张量37 3.1.2　零维张量39 3.1.3　张量操作39 3.1.4　GPU张量40 3.2　梯度41 3.3　NN构建块44 3.4　自定义层45 3.5　终黏合剂：损失函数和优化器47 3.5.1　损失函数48 3.5.2　优化器48 3.6　使用TensorBoard进行监控50 3.6.1　TensorBoard 10150 3.6.2　绘图52 3.7　示例：将GAN应用于Atari图像53 3.8　PyTorch Ignite57 3.9　总结61 第4章　交叉熵方法62 4.1　RL方法的分类62 4.2　交叉熵方法的实践63 4.3　交叉熵方法在CartPole中的应用65 4.4　交叉熵方法在FrozenLake中的应用72 4.5　交叉熵方法的理论背景78 4.6　总结79 第5章　表格学习和Bellman方程80 5.1　价值、状态和性80 5.2　 Bellman方程82 5.3　动作的价值84 5.4　价值迭代法86 5.5　价值迭代实践87 5.6　Q-learning在FrozenLake中的应用92 5.7　总结94 第6章　深度Q-network95 6.1　现实的价值迭代95 6.2　表格Q-learning96 6.3　深度Q-learning100 6.3.1　与环境交互102 6.3.2　SGD优化102 6.3.3　步骤之间的相关性103 6.3.4　马尔可夫性质103 6.3.5　DQN训练的终形式103 6.4　DQN应用于Pong游戏104 6.4.1　包装器105 6.4.2　DQN模型109 6.4.3　训练110 6.4.4　运行和性能118 6.4.5　模型实战120 6.5　可以尝试的事情122 6.6　总结123 第7章　强化学习库124 7.1　为什么使用强化学习库124 7.2　PTAN库125 7.2.1　动作选择器126 7.2.2　智能体127 7.2.3　经验源131 7.2.4　经验回放缓冲区136 7.2.5　TargetNet类137 7.2.6　Ignite帮助类139 7.3　PTAN版本的CartPole解决方案139 7.4　其他强化学习库141 7.5　总结141 第8章　DQN扩展142 8.1　基础DQN143 8.1.1　通用库143 8.1.2　实现147 8.1.3　结果148 8.2　N步DQN150 8.2.1　实现152 8.2.2　结果152 8.3　Double DQN153 8.3.1　实现154 8.3.2　结果155 8.4　噪声网络156 8.4.1　实现157 8.4.2　结果159 8.5　带优先级的回放缓冲区160 8.5.1　实现161 8.5.2　结果164 8.6　Dueling DQN165 8.6.1　实现166 8.6.2　结果167 8.7　Categorical DQN168 8.7.1　实现171 8.7.2　结果175 8.8　组合所有方法178 8.9　总结180 8.10　参考文献180 第9章　加速强化学习训练的方法182 9.1　为什么速度很重要182 9.2　基线184 9.3　PyTorch中的计算图186 9.4　多个环境188 9.5　在不同进程中分别交互和训练190 9.6　调整包装器194 9.7　基准测试总结198 9.8　硬核CuLE199 9.9　总结199 9.10　参考文献199 0章　使用强化学习进行股票交易200 10.1　交易200 10.2　数据201 10.3　问题陈述和关键决策202 10.4　交易环境203 10.5　模型210 10.6　训练代码211 10.7　结果211 10.7.1　前馈模型212 10.7.2　卷积模型217 10.8　可以尝试的事情218 10.9　总结219 1章　策略梯度：一种替代方法220 11.1　价值与策略220 11.1.1　为什么需要策略221 11.1.2　策略表示221 11.1.3　策略梯度222 11.2　REINFORCE方法222 11.2.1　CartPole示例223 11.2.2　结果227 11.2.3　基于策略的方法与基于价值的方法228 11.3　REINFORCE的问题229 11.3.1　需要完整片段229 11.3.2　高梯度方差229 11.3.3　探索230 11.3.4　样本相关性230 11.4　用于CartPole的策略梯度方法230 11.4.1　实现231 11.4.2　结果233 11.5　用于Pong的策略梯度方法237 11.5.1　实现238 11.5.2　结果239 11.6　总结240 2章　actor-critic方法241 12.1　减小方差241 12.2　CartPole的方差243 12.3　actor-critic246 12.4　在Pong中使用A2C247 12.5　在Pong中使用A2C的结果252 12.6　超参调优255 12.6.1　学习率255 12.6.2　熵的beta值256 12.6.3　环境数256 12.6.4　批大小257 12.7　总结257 3章　A3C258 13.1　相关性和采样效率258 13.2　向A2C添加另一个A259 13.3　Python中的多重处理功能261 13.4　数据并行化的A3C262 13.4.1　实现262 13.4.2　结果267 13.5　梯度并行化的A3C269 13.5.1　实现269 13.5.2　结果273 13.6　总结274 4章　使用强化学习训练聊天机器人275 14.1　聊天机器人概述275 14.2　训练聊天机器人276 14.3　深度NLP基础277 14.3.1　RNN277 14.3.2　词嵌入278 14.3.3　编码器–解码器架构279 14.4　seq2seq训练280 14.4.1　对数似然训练280 14.4.2　双语替换评测分数282 14.4.3　seq2seq中的强化学习282 14.4.4　自评序列训练283 14.5　聊天机器人示例284 14.5.1　示例的结构285 14.5.2　模块：cornell.py和data.py285 14.5.3　BLEU分数和utils.py286 14.5.4　模型287 14.6　数据集探索292 14.7　训练：交叉熵294 14.7.1　实现294 14.7.2　结果298 14.8　训练：SCST300 14.8.1　实现300 14.8.2　结果306 14.9　经过数据测试的模型309 14.10　Telegram机器人311 14.11　总结314 5章　TextWorld环境315 15.1　文字冒险游戏315 15.2　环境318 15.2.1　安装318 15.2.2　游戏生成318 15.2.3　观察和动作空间320 15.2.4　额外的游戏信息322 15.3　基线DQN325 15.3.1　观察预处理326 15.3.2　embedding和编码器331 15.3.3　DQN模型和智能体333 15.3.4　训练代码335 15.3.5　训练结果335 15.4　命令生成模型340 15.4.1　实现341 15.4.2　预训练结果345 15.4.3　DQN训练代码346 15.4.4　DQN训练结果347 15.5　总结349 6章　Web导航350 16.1　Web导航简介350 16.1.1　浏览器自动化和RL351 16.1.2　MiniWoB基准352 16.2　OpenAI Universe353 16.2.1　安装354 16.2.2　动作与观察354 16.2.3　创建环境355 16.2.4　MiniWoB的稳定性357 16.3　简单的单击方法357 16.3.1　网格动作358 16.3.2　示例概览359 16.3.3　模型359 16.3.4　训练代码360 16.3.5　启动容器364 16.3.6　训练过程366 16.3.7　检查学到的策略368 16.3.8　简单单击的问题369 16.4　人类演示371 16.4.1　录制人类演示371 16.4.2　录制的格式373 16.4.3　使用演示进行训练375 16.4.4　结果376 16.4.5　井字游戏问题380 16.5　添加文字描述383 16.5.1　实现383 16.5.2　结果387 16.6　可以尝试的事情390 16.7　总结391 7章　连续动作空间392 17.1　为什么会有连续的空间392 17.1.1　动作空间393 17.1.2　环境393 17.2　A2C方法395 17.2.1　实现396 17.2.2　结果399 17.2.3　使用模型并录制视频401 17.3　确定性策略梯度401 17.3.1　探索402 17.3.2　实现403 17.3.3　结果407 17.3.4　视频录制409 17.4　分布的策略梯度409 17.4.1　架构410 17.4.2　实现410 17.4.3　结果414 17.4.4　视频录制415 17.5　可以尝试的事情415 17.6　总结416 8章　机器人技术中的强化学习417 18.1　机器人与机器人学417 18.1.1　机器人的复杂性419 18.1.2　硬件概述420 18.1.3　平台421 18.1.4　传感器422 18.1.5　执行器423 18.1.6　框架424 18.2　个训练目标427 18.3　模拟器和模型428 18.3.1　模型定义文件429 18.3.2　机器人类432 18.4　DDPG训练和结果437 18.5　控制硬件440 18.5.1　MicroPython440 18.5.2　处理传感器443 18.5.3　驱动伺服器454 18.5.4　将模型转移至硬件上458 18.5.5　组合一切464 18.6　策略实验466 18.7　总结467 9章　置信域：PPO、TRPO、ACKTR及SAC468 19.1　Roboschool469 19.2　A2C基线469 19.2.1　实现469 19.2.2　结果471 19.2.3　视频录制475 19.3　PPO475 19.3.1　实现476 19.3.2　结果479 19.4　TRPO480 19.4.1　实现481 19.4.2　结果482 19.5　ACKTR484 19.5.1　实现484 19.5.2　结果484 19.6　SAC485 19.6.1　实现486 19.6.2　结果488 19.7　总结490 第20章　强化学习中的黑盒优化491 20.1　黑盒方法491 20.2　进化策略492 20.2.1　将ES用在CartPole上493 20.2.2　将ES用在HalfCheetah上498 20.3　遗传算法503 20.3.1　将GA用在CartPole上504 20.3.2　GA优化506 20.3.3　将GA用在HalfCheetah上507 20.4　总结510 20.5　参考文献511 第21章　探索512 21.1　为什么探索很重要512 21.2　ε-greedy怎么了513 21.3　其他探索方式516 21.3.1　噪声网络516 21.3.2　基于计数的方法516 21.3.3　基于预测的方法517 21.4　MountainCar实验517 21.4.1　使用ε-greedy的DQN方法519 21.4.2　使用噪声网络的DQN方法520 21.4.3　使用状态计数的DQN方法522 21.4.4　近端策略优化方法525 21.4.5　使用噪声网络的PPO方法527 21.4.6　使用基于计数的探索的PPO方法529 21.4.7　使用网络蒸馏的PPO方法531 21.5　Atari实验533 21.5.1　使用ε -greedy的DQN方法534 21.5.2　经典的PPO方法535 21.5.3　使用网络蒸馏的PPO方法536 21.5.4　使用噪声网络的PPO方法537 21.6　总结538 21.7　参考文献539 第22章　无模型方法：想象力540 22.1　基于模型的方法540 22.1.1　基于模型与无模型540 22.1.2　基于模型的缺陷541 22.2　想象力增强型智能体542 22.2.1　EM543 22.2.2　展开策略544 22.2.3　展开编码器544 22.2.4　论文的结果544 22.3　将I2A用在Atari Breakout上545 22.3.1　基线A2C智能体545 22.3.2　EM训练546 22.3.3　想象力智能体548 22.4　实验结果553 22.4.1　基线智能体553 22.4.2　训练EM的权重555 22.4.3　训练I2A模型557 22.5　总结559 22.6　参考文献559 第23章　AlphaGo Zero560 23.1　棋盘游戏560 23.2　AlphaGo Zero方法561 23.2.1　总览561 23.2.2　MCTS562 23.2.3　自我对抗564 23.2.4　训练与评估564 23.3　四子连横棋机器人564 23.3.1　游戏模型565 23.3.2　实现MCTS567 23.3.3　模型571 23.3.4　训练573 23.3.5　测试与比较573 23.4　四子连横棋的结果574 23.5　总结576 23.6　参考文献576 第24章　离散优化中的强化学习577 24.1　强化学习的名声577 24.2　魔方和组合优化578 24.3　性与上帝的数字579 24.4　魔方求解的方法579 24.4.1　数据表示580 24.4.2　动作580 24.4.3　状态581 24.5　训练过程584 24.5.1　NN架构584 24.5.2　训练585 24.6　模型应用586 24.7　论文结果588 24.8　代码概览588 24.8.1　魔方环境589 24.8.2　训练593 24.8.3　搜索过程594 24.9　实验结果594 24.9.1　2×2魔方596 24.9.2　3×3魔方598 24.10　进一步改进和实验599 24.11　总结600 第25章　多智能体强化学习601 25.1　多智能体RL的说明601 25.1.1　通信形式602 25.1.2　强化学习方法602 25.2　MAgent环境602 25.2.1　安装602 25.2.2　概述603 25.2.3　随机环境603 25.3　老虎的深度Q-network608 25.4　老虎的合作612 25.5　同时训练老虎和鹿615 25.6　相同actor之间的战斗617 25.7　总结617

......

精彩页：

商品详情
内容简介

查看全部评论>

服务体验

[正版]深度强化学习实践(原书第2版)

正版图书品质保障

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

友一个图书专营店

售后保障

最近浏览

猜你喜欢

服务体验

[正版]深度强化学习实践(原书第2版)

正版图书 品质保障

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

计算机/网络排行榜

友一个图书专营店

售后保障

最近浏览

猜你喜欢

正版图书品质保障