返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • [正版]深度强化学习实践(原书第2版)
  • 正版图书 品质保障
    • 作者: 马克西姆·拉潘(Maxim著
    • 出版社: 机械工业出版社
    • 出版时间:2021-07
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    友一个图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品参数
    • 作者: 马克西姆·拉潘(Maxim著
    • 出版社:机械工业出版社
    • 出版时间:2021-07
    • 开本:16开
    • ISBN:9781468734091
    • 版权提供:机械工业出版社

             店铺公告

      为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。

    温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货),

    关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。

      本店存在书、古旧书、收藏书、二手书等特殊商品,因受采购成本限制,可能高于定价销售,明码标价,介意者勿拍!

    1.书籍因稀缺可能导致售价高于定价,图书实际定价参见下方详情内基本信息,请买家看清楚且明确后再拍,避免价格争议!

    2.店铺无纸质均开具电子,请联系客服开具电子版

     

    基本信息
    商品名称:深度强化学习实践(原书第2版)开本:16开
    作者:[俄]马克西姆·拉潘(Maxim Lapan)页数:
    定价:149出版时间:2021-08-01
    ISBN号:9787111687382 印刷时间:2021-08-01
    出版社:机械工业版次:1
    商品类型:图书印次:1
    作者简介:
    内容提要:
    本书理论与实践相结合,系统阐述强化学习的基础知识,以及如何动手编写智能体以执行一系列实际任务。通过阅读本书,读者将获得深层Q网络、策略梯度方法、连续控制问题以及高度可扩展的非梯度方法等主题领域的可行洞见,还将学会如何构建一个经过强化学习训练、价格低廉的真实硬件机器人,并通过一步步代码优化在短短30分钟的训练后解决Pong环境。此外,本书还专门介绍了强化学习的新发展,包括离散优化(解决魔方问题)、多智能体方法、Microsoft的TextWorld环境、 探索技术等。

    ......

    目录:
    译者序<br/>前言<br/>作者简介<br/>审校者简介<br/>第1章 什么是强化学习1<br/>1.1 机器学习分类2<br/>1.1.1 监督学习2<br/>1.1.2 非监督学习2<br/>1.1.3 强化学习2<br/>1.2 强化学习的复杂性4<br/>1.3 强化学习的形式4<br/>1.3.1 奖励5<br/>1.3.2 智能体6<br/>1.3.3 环境6<br/>1.3.4 动作7<br/>1.3.5 观察7<br/>1.4 强化学习的理论基础9<br/>1.4.1 马尔可夫决策过程9<br/>1.4.2 策略17<br/>1.5 总结18<br/>第2章 OpenAI Gym19<br/>2.1 剖析智能体19<br/>2.2 硬件和软件要求21<br/>2.3 OpenAI Gym API23<br/>2.3.1 动作空间23<br/>2.3.2 观察空间23<br/>2.3.3 环境25<br/>2.3.4 创建环境26<br/>2.3.5 车摆系统28<br/>2.4 随机CartPole智能体30<br/>2.5 Gym的额外功能:包装器和监控器30<br/>2.5.1 包装器31<br/>2.5.2 监控器33<br/>2.6 总结35<br/>第3章 使用PyTorch进行深度学习36<br/>3.1 张量36<br/>3.1.1 创建张量37<br/>3.1.2 零维张量39<br/>3.1.3 张量操作39<br/>3.1.4 GPU张量40<br/>3.2 梯度41<br/>3.3 NN构建块44<br/>3.4 自定义层45<br/>3.5  终黏合剂:损失函数和优化器47<br/>3.5.1 损失函数48<br/>3.5.2 优化器48<br/>3.6 使用TensorBoard进行监控50<br/>3.6.1 TensorBoard 10150<br/>3.6.2 绘图52<br/>3.7 示例:将GAN应用于Atari图像53<br/>3.8 PyTorch Ignite57<br/>3.9 总结61<br/>第4章 交叉熵方法62<br/>4.1 RL方法的分类62<br/>4.2 交叉熵方法的实践63<br/>4.3 交叉熵方法在CartPole中的应用65<br/>4.4 交叉熵方法在FrozenLake中的应用72<br/>4.5 交叉熵方法的理论背景78<br/>4.6 总结79<br/>第5章 表格学习和Bellman方程80<br/>5.1 价值、状态和 性80<br/>5.2  Bellman方程82<br/>5.3 动作的价值84<br/>5.4 价值迭代法86<br/>5.5 价值迭代实践87<br/>5.6 Q-learning在FrozenLake中的应用92<br/>5.7 总结94<br/>第6章 深度Q-network95<br/>6.1 现实的价值迭代95<br/>6.2 表格Q-learning96<br/>6.3 深度Q-learning100<br/>6.3.1 与环境交互102<br/>6.3.2 SGD优化102<br/>6.3.3 步骤之间的相关性103<br/>6.3.4 马尔可夫性质103<br/>6.3.5 DQN训练的 终形式103<br/>6.4 DQN应用于Pong游戏104<br/>6.4.1 包装器105<br/>6.4.2 DQN模型109<br/>6.4.3 训练110<br/>6.4.4 运行和性能118<br/>6.4.5 模型实战120<br/>6.5 可以尝试的事情122<br/>6.6 总结123<br/>第7章  强化学习库124<br/>7.1 为什么使用强化学习库124<br/>7.2 PTAN库125<br/>7.2.1 动作选择器126<br/>7.2.2 智能体127<br/>7.2.3 经验源131<br/>7.2.4 经验回放缓冲区136<br/>7.2.5 TargetNet类137<br/>7.2.6 Ignite帮助类139<br/>7.3 PTAN版本的CartPole解决方案139<br/>7.4 其他强化学习库141<br/>7.5 总结141<br/>第8章 DQN扩展142<br/>8.1 基础DQN143<br/>8.1.1 通用库143<br/>8.1.2 实现147<br/>8.1.3 结果148<br/>8.2 N步DQN150<br/>8.2.1 实现152<br/>8.2.2 结果152<br/>8.3 Double DQN153<br/>8.3.1 实现154<br/>8.3.2 结果155<br/>8.4 噪声网络156<br/>8.4.1 实现157<br/>8.4.2 结果159<br/>8.5 带优先级的回放缓冲区160<br/>8.5.1 实现161<br/>8.5.2 结果164<br/>8.6 Dueling DQN165<br/>8.6.1 实现166<br/>8.6.2 结果167<br/>8.7 Categorical DQN168<br/>8.7.1 实现171<br/>8.7.2 结果175<br/>8.8 组合所有方法178<br/>8.9 总结180<br/>8.10 参考文献180<br/>第9章 加速强化学习训练的方法182<br/>9.1 为什么速度很重要182<br/>9.2 基线184<br/>9.3 PyTorch中的计算图186<br/>9.4 多个环境188<br/>9.5 在不同进程中分别交互和训练190<br/>9.6 调整包装器194<br/>9.7 基准测试总结198<br/>9.8 硬核CuLE199<br/>9.9 总结199<br/>9.10 参考文献199<br/> 0章 使用强化学习进行股票交易200<br/>10.1 交易200<br/>10.2 数据201<br/>10.3 问题陈述和关键决策202<br/>10.4 交易环境203<br/>10.5 模型210<br/>10.6 训练代码211<br/>10.7 结果211<br/>10.7.1 前馈模型212<br/>10.7.2 卷积模型217<br/>10.8 可以尝试的事情218<br/>10.9 总结219<br/> 1章 策略梯度:一种替代方法220<br/>11.1 价值与策略220<br/>11.1.1 为什么需要策略221<br/>11.1.2 策略表示221<br/>11.1.3 策略梯度222<br/>11.2 REINFORCE方法222<br/>11.2.1 CartPole示例223<br/>11.2.2 结果227<br/>11.2.3 基于策略的方法与基于价值的方法228<br/>11.3 REINFORCE的问题229<br/>11.3.1 需要完整片段229<br/>11.3.2 高梯度方差229<br/>11.3.3 探索230<br/>11.3.4 样本相关性230<br/>11.4 用于CartPole的策略梯度方法230<br/>11.4.1 实现231<br/>11.4.2 结果233<br/>11.5 用于Pong的策略梯度方法237<br/>11.5.1 实现238<br/>11.5.2 结果239<br/>11.6 总结240<br/> 2章 actor-critic方法241<br/>12.1 减小方差241<br/>12.2 CartPole的方差243<br/>12.3 actor-critic246<br/>12.4 在Pong中使用A2C247<br/>12.5 在Pong中使用A2C的结果252<br/>12.6 超参调优255<br/>12.6.1 学习率255<br/>12.6.2 熵的beta值256<br/>12.6.3 环境数256<br/>12.6.4 批大小257<br/>12.7 总结257<br/> 3章 A3C258<br/>13.1 相关性和采样效率258<br/>13.2 向A2C添加另一个A259<br/>13.3 Python中的多重处理功能261<br/>13.4 数据并行化的A3C262<br/>13.4.1 实现262<br/>13.4.2 结果267<br/>13.5 梯度并行化的A3C269<br/>13.5.1 实现269<br/>13.5.2 结果273<br/>13.6 总结274<br/> 4章 使用强化学习训练聊天机器人275<br/>14.1 聊天机器人概述275<br/>14.2 训练聊天机器人276<br/>14.3 深度NLP基础277<br/>14.3.1 RNN277<br/>14.3.2 词嵌入278<br/>14.3.3 编码器–解码器架构279<br/>14.4 seq2seq训练280<br/>14.4.1 对数似然训练280<br/>14.4.2 双语替换评测分数282<br/>14.4.3 seq2seq中的强化学习282<br/>14.4.4 自评序列训练283<br/>14.5 聊天机器人示例284<br/>14.5.1 示例的结构285<br/>14.5.2 模块:cornell.py和data.py285<br/>14.5.3 BLEU分数和utils.py286<br/>14.5.4 模型287<br/>14.6 数据集探索292<br/>14.7 训练:交叉熵294<br/>14.7.1 实现294<br/>14.7.2 结果298<br/>14.8 训练:SCST300<br/>14.8.1 实现300<br/>14.8.2 结果306<br/>14.9 经过数据测试的模型309<br/>14.10 Telegram机器人311<br/>14.11 总结314<br/> 5章 TextWorld环境315<br/>15.1 文字冒险游戏315<br/>15.2 环境318<br/>15.2.1 安装318<br/>15.2.2 游戏生成318<br/>15.2.3 观察和动作空间320<br/>15.2.4 额外的游戏信息322<br/>15.3 基线DQN325<br/>15.3.1 观察预处理326<br/>15.3.2 embedding和编码器331<br/>15.3.3 DQN模型和智能体333<br/>15.3.4 训练代码335<br/>15.3.5 训练结果335<br/>15.4 命令生成模型340<br/>15.4.1 实现341<br/>15.4.2 预训练结果345<br/>15.4.3 DQN训练代码346<br/>15.4.4 DQN训练结果347<br/>15.5 总结349<br/> 6章 Web导航350<br/>16.1 Web导航简介350<br/>16.1.1 浏览器自动化和RL351<br/>16.1.2 MiniWoB基准352<br/>16.2 OpenAI Universe353<br/>16.2.1 安装354<br/>16.2.2 动作与观察354<br/>16.2.3 创建环境355<br/>16.2.4 MiniWoB的稳定性357<br/>16.3 简单的单击方法357<br/>16.3.1 网格动作358<br/>16.3.2 示例概览359<br/>16.3.3 模型359<br/>16.3.4 训练代码360<br/>16.3.5 启动容器364<br/>16.3.6 训练过程366<br/>16.3.7 检查学到的策略368<br/>16.3.8 简单单击的问题369<br/>16.4 人类演示371<br/>16.4.1 录制人类演示371<br/>16.4.2 录制的格式373<br/>16.4.3 使用演示进行训练375<br/>16.4.4 结果376<br/>16.4.5 井字游戏问题380<br/>16.5 添加文字描述383<br/>16.5.1 实现383<br/>16.5.2 结果387<br/>16.6 可以尝试的事情390<br/>16.7 总结391<br/> 7章 连续动作空间392<br/>17.1 为什么会有连续的空间392<br/>17.1.1 动作空间393<br/>17.1.2 环境393<br/>17.2 A2C方法395<br/>17.2.1 实现396<br/>17.2.2 结果399<br/>17.2.3 使用模型并录制视频401<br/>17.3 确定性策略梯度401<br/>17.3.1 探索402<br/>17.3.2 实现403<br/>17.3.3 结果407<br/>17.3.4 视频录制409<br/>17.4 分布的策略梯度409<br/>17.4.1 架构410<br/>17.4.2 实现410<br/>17.4.3 结果414<br/>17.4.4 视频录制415<br/>17.5 可以尝试的事情415<br/>17.6 总结416<br/> 8章 机器人技术中的强化学习417<br/>18.1 机器人与机器人学417<br/>18.1.1 机器人的复杂性419<br/>18.1.2 硬件概述420<br/>18.1.3 平台421<br/>18.1.4 传感器422<br/>18.1.5 执行器423<br/>18.1.6 框架424<br/>18.2  个训练目标427<br/>18.3 模拟器和模型428<br/>18.3.1 模型定义文件429<br/>18.3.2 机器人类432<br/>18.4 DDPG训练和结果437<br/>18.5 控制硬件440<br/>18.5.1 MicroPython440<br/>18.5.2 处理传感器443<br/>18.5.3 驱动伺服器454<br/>18.5.4 将模型转移至硬件上458<br/>18.5.5 组合一切464<br/>18.6 策略实验466<br/>18.7 总结467<br/> 9章 置信域:PPO、TRPO、ACKTR及SAC468<br/>19.1 Roboschool469<br/>19.2 A2C基线469<br/>19.2.1 实现469<br/>19.2.2 结果471<br/>19.2.3 视频录制475<br/>19.3 PPO475<br/>19.3.1 实现476<br/>19.3.2 结果479<br/>19.4 TRPO480<br/>19.4.1 实现481<br/>19.4.2 结果482<br/>19.5 ACKTR484<br/>19.5.1 实现484<br/>19.5.2 结果484<br/>19.6 SAC485<br/>19.6.1 实现486<br/>19.6.2 结果488<br/>19.7 总结490<br/>第20章 强化学习中的黑盒优化491<br/>20.1 黑盒方法491<br/>20.2 进化策略492<br/>20.2.1 将ES用在CartPole上493<br/>20.2.2 将ES用在HalfCheetah上498<br/>20.3 遗传算法503<br/>20.3.1 将GA用在CartPole上504<br/>20.3.2 GA优化506<br/>20.3.3 将GA用在HalfCheetah上507<br/>20.4 总结510<br/>20.5 参考文献511<br/>第21章  探索512<br/>21.1 为什么探索很重要512<br/>21.2 ε-greedy怎么了513<br/>21.3 其他探索方式516<br/>21.3.1 噪声网络516<br/>21.3.2 基于计数的方法516<br/>21.3.3 基于预测的方法517<br/>21.4 MountainCar实验517<br/>21.4.1 使用ε-greedy的DQN方法519<br/>21.4.2 使用噪声网络的DQN方法520<br/>21.4.3 使用状态计数的DQN方法522<br/>21.4.4 近端策略优化方法525<br/>21.4.5 使用噪声网络的PPO方法527<br/>21.4.6 使用基于计数的探索的PPO方法529<br/>21.4.7 使用网络蒸馏的PPO方法531<br/>21.5 Atari实验533<br/>21.5.1 使用ε -greedy的DQN方法534<br/>21.5.2 经典的PPO方法535<br/>21.5.3 使用网络蒸馏的PPO方法536<br/>21.5.4 使用噪声网络的PPO方法537<br/>21.6 总结538<br/>21.7 参考文献539<br/>第22章  无模型方法:想象力540<br/>22.1 基于模型的方法540<br/>22.1.1 基于模型与无模型540<br/>22.1.2 基于模型的缺陷541<br/>22.2 想象力增强型智能体542<br/>22.2.1 EM543<br/>22.2.2 展开策略544<br/>22.2.3 展开编码器544<br/>22.2.4 论文的结果544<br/>22.3 将I2A用在Atari Breakout上545<br/>22.3.1 基线A2C智能体545<br/>22.3.2 EM训练546<br/>22.3.3 想象力智能体548<br/>22.4 实验结果553<br/>22.4.1 基线智能体553<br/>22.4.2 训练EM的权重555<br/>22.4.3 训练I2A模型557<br/>22.5 总结559<br/>22.6 参考文献559<br/>第23章 AlphaGo Zero560<br/>23.1 棋盘游戏560<br/>23.2 AlphaGo Zero方法561<br/>23.2.1 总览561<br/>23.2.2 MCTS562<br/>23.2.3 自我对抗564<br/>23.2.4 训练与评估564<br/>23.3 四子连横棋机器人564<br/>23.3.1 游戏模型565<br/>23.3.2 实现MCTS567<br/>23.3.3 模型571<br/>23.3.4 训练573<br/>23.3.5 测试与比较573<br/>23.4 四子连横棋的结果574<br/>23.5 总结576<br/>23.6 参考文献576<br/>第24章 离散优化中的强化学习577<br/>24.1 强化学习的名声577<br/>24.2 魔方和组合优化578<br/>24.3  性与上帝的数字579<br/>24.4 魔方求解的方法579<br/>24.4.1 数据表示580<br/>24.4.2 动作580<br/>24.4.3 状态581<br/>24.5 训练过程584<br/>24.5.1 NN架构584<br/>24.5.2 训练585<br/>24.6 模型应用586<br/>24.7 论文结果588<br/>24.8 代码概览588<br/>24.8.1 魔方环境589<br/>24.8.2 训练593<br/>24.8.3 搜索过程594<br/>24.9 实验结果594<br/>24.9.1 2×2魔方596<br/>24.9.2 3×3魔方598<br/>24.10 进一步改进和实验599<br/>24.11 总结600<br/>第25章 多智能体强化学习601<br/>25.1 多智能体RL的说明601<br/>25.1.1 通信形式602<br/>25.1.2 强化学习方法602<br/>25.2 MAgent环境602<br/>25.2.1 安装602<br/>25.2.2 概述603<br/>25.2.3 随机环境603<br/>25.3 老虎的深度Q-network608<br/>25.4 老虎的合作612<br/>25.5 同时训练老虎和鹿615<br/>25.6 相同actor之间的战斗617<br/>25.7 总结617

    ......

    精 彩 页:
    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购