返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • 深度强化学习:基于Python的理论及实践
  • 新华书店正版
    • 作者: [美] 劳拉·格雷泽 (Laura Graesser), [美] 华龙·肯 (Wah Loon Keng)著 | | 许静、过辰楷、金骁、刘磊、朱静雯 等译
    • 出版社: 机械工业出版社
    • 出版时间:2021-09-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

         https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: [美] 劳拉·格雷泽 (Laura Graesser), [美] 华龙·肯 (Wah Loon Keng)著| 许静、过辰楷、金骁、刘磊、朱静雯 等译
    • 出版社:机械工业出版社
    • 出版时间:2021-09-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2021-09-01
    • 字数:260
    • 页数:308
    • 开本:16开
    • 装帧:平装
    • ISBN:9787111689331
    • 国别/地区:中国
    • 版权提供:机械工业出版社

    深度强化学习:基于Python的理论及实践

    作  者:[美] 劳拉·格雷泽 (Laura Graesser), [美] 华龙·肯 (Wah Loon Keng) 著 许静、过辰楷、金骁、刘磊、朱静雯 等 译
    定  价:119
    出 版 社:机械工业出版社
    出版日期:2021年09月01日
    页  数:308
    装  帧:平装
    ISBN:9787111689331
    主编推荐

    阐述深度强化机器学习理论和优化算法。围绕深度强化学习的体系特征进行深入浅出地讲解探讨,特点鲜明。本书采用端到端的方式引入深度强化学习,即从感性认识开始,而后解释理论和算法,*后提供代码实现和实用性技巧。

    内容简介

    本书介绍了深度强化学习理论和实现的独特结合。它从入门开始,然后详细地解释了深度强化学习算法的理论,也讨论了它的配套软件库SLM实验室的实现,并以使深度强化学习工作的实际细节结束。

    作者简介

    精彩内容

    目录
    赞誉译者序序言前言致谢章  强化学习简介1  1.1  强化学习1  1.2  强化学习中的MDP4  1.3  强化学习中的学习函数7  1.4  深度强化学习算法9    1.4.1  基于策略的算法9    1.4.2  基于值的算法10    1.4.3  基于模型的算法10    1.4.4  组合方法11    1.4.5  本书中的算法12    1.4.6  同策略和异策略算法12    1.4.7  小结12  1.5  强化学习中的深度学习13  1.6  强化学习与监督学习14    1.6.1  缺乏先知14    1.6.2  反馈稀疏性15    1.6.3  数据生成15  1.7  总结16部分  基于策略的算法和基于值的算法第2章  REINFORCE18  2.1  策略18  2.2  目标函数19  2.3  策略梯度19    2.3.1  策略梯度推导20  2.4  蒙特卡罗采样22  2.5  REINFORCE算法23    2.5.1  改进的REINFORCE算法23  2.6  实现REINFORCE24    2.6.1  一种最小化REINFORCE的实现24    2.6.2  用PyTorch构建策略26    2.6.3  采样动作28    2.6.4  计算策略损失29    2.6.5  REINFORCE训练循环30    2.6.6  同策略内存回放31  2.7  训练REINFORCE智能体33  2.8  实验结果36    2.8.1  实验:评估折扣因子γ的影响36    2.8.2  实验:评估基准线的影响37  2.9  总结39  2.10  扩展阅读39  2.11  历史回顾39第3章  SARSA40  3.1  Q函数和V函数40  3.2  时序差分学习42    3.2.1  时间差分学习示例44  3.3  SARSA中的动作选择48    3.3.1  探索和利用49  3.4  SARSA算法50    3.4.1  同策略算法51  3.5  实现SARSA52    3.5.1  动作函数:ε-贪婪52    3.5.2  计算Q损失52    3.5.3  SARSA训练循环54    3.5.4  同策略批处理内存回放55  3.6  训练SARSA智能体56  3.7  实验结果58    3.7.1  实验:评估学习率的影响58  3.8  总结60  3.9  扩展阅读60  3.10  历史回顾60第4章  深度Q网络62  4.1  学习DQN中的Q函数62  4.2  DQN中的动作选择64    4.2.1  Boltzmann策略65  4.3  经验回放67  4.4  DQN算法68  4.5  实现DQN69    4.5.1  计算Q损失70    4.5.2  DQN训练循环70    4.5.3  内存回放71  4.6  训练DQN智能体74  4.7  实验结果77    4.7.1  实验:评估网络架构的影响77  4.8  总结78  4.9  扩展阅读79  4.10  历史回顾79第5章  改进的深度Q网络80  5.1  目标网络80  5.2  双重DQN算法82  5.3  优先级经验回放85    5.3.1  重要性抽样86  5.4  实现改进的DQN88    5.4.1  网络初始化88    5.4.2  计算Q损失89    5.4.3  更新目标网络90    5.4.4  包含目标网络的DQN91    5.4.5  双重DQN91    5.4.6  优先级经验回放91  5.5  训练DQN智能体玩Atari游戏96  5.6  实验结果101    5.6.1  实验:评估双重DQN与PER的影响101  5.7  总结104  5.8  扩展阅读104第二部分  组合方法第6章  优势演员-评论家算法106  6.1  演员106  6.2  评论家107    6.2.1  优势函数107    6.2.2  学习优势函数110  6.3  A2C算法111  6.4  实现A2C113    6.4.1  优势估计113    6.4.2  计算值损失和策略损失115    6.4.3  演员-评论家训练循环116  6.5  网络架构117  6.6  训练A2C智能体118    6.6.1  在Pong上使用n步回报的A2C算法118    6.6.2  在Pong上使用GAE的A2C算法121    6.6.3  在BipedalWalker上使用n步回报的A2C算法122  6.7  实验结果124    6.7.1  实验:评估n步回报的影响124    6.7.2  实验:评估GAE中λ的影响126  6.8  总结127  6.9  扩展阅读128  6.10  历史回顾128第7章  近端策略优化算法130  7.1  替代目标函数130    7.1.1  性能突然下降130    7.1.2  修改目标函数132  7.2  近端策略优化136  7.3  PPO算法139  7.4  实现PPO141    7.4.1  计算PPO的策略损失141    7.4.2  PPO训练循环142  7.5  训练PPO智能体143    7.5.1  在Pong上使用PPO算法143    7.5.2  在BipedalWalker上使用PPO算法146  7.6  实验结果149    7.6.1  实验:评估GAE中λ的影响149    7.6.2  实验:评估裁剪变量ε的影响150  7.7  总结152  7.8  扩展阅读152第8章  并行方法153  8.1  同步并行153  8.2  异步并行154    8.2.1  Hogwild!算法155  8.3  训练A3C智能体157  8.4  总结160  8.5  扩展阅读160第9章  算法总结161第三部分  实践细节0章  深度强化学习工程实践164  10.1  软件工程实践164    10.1.1  单元测试164    10.1.2  代码质量169    10.1.3  Git工作流170  10.2  调试技巧171    10.2.1  生命迹象172    10.2.2  策略梯度诊断172    10.2.3  数据诊断173    10.2.4  预处理器174    10.2.5  内存174    10.2.6  算法函数174    10.2.7  神经网络175    10.2.8  算法简化177    10.2.9  问题简化177    10.2.10  超参数178    10.2.11  实验室工作流178  10.3  Atari技巧179  10.4  深度强化学习小结181    10.4.1  超参数表181    10.4.2  算法性能比较184  10.5  总结1861章  SLM Lab187  11.1  SLM Lab算法实现187  11.2  spec文件188    11.2.1  搜索spec语法190  11.3  运行SLM Lab192    11.3.1  SLM Lab指令193  11.4  分析实验结果193    11.4.1  实验数据概述193  11.5  总结1952章  神经网络架构196  12.1  神经网络的类型196    12.1.1  多层感知机196    12.1.2  卷积神经网络198    12.1.3  循环神经网络199  12.2  选择网络族的指导方法199    12.2.1  MDP与POMDP200    12.2.2  根据环境选择网络202  12.3  网络API204    12.3.1  输入层和输出层形状推断205    12.3.2  自动构建网络207    12.3.3  训练步骤209    12.3.4  基础方法的使用210  12.4  总结211  12.5  扩展阅读2123章  硬件213  13.1  计算机213  13.2  数据类型217  13.3  在强化学习中优化数据类型219  13.4  选择硬件222  13.5  总结223第四部分  环境设计4章  状态226  14.1  状态示例226  14.2  状态完整性231  14.3  状态复杂性231  14.4  状态信息损失235    14.4.1  图像灰度235    14.4.2  离散化235    14.4.3  散列冲突236    14.4.4  元信息损失236  14.5  预处理238    14.5.1  标准化239    14.5.2  图像预处理240    14.5.3  时间预处理241  14.6  总结2445章  动作245  15.1  动作示例245  15.2  动作完整性247  15.3  动作复杂性248  15.4  总结251  15.5  扩展阅读:日常事务中的动作设计2526章  奖励255  16.1  奖励的作用255  16.2  奖励设计准则256  16.3  总结2597章  转换函数260  17.1  可行性检测260  17.2  真实性检测262  17.3  总结263后记264附录A  深度强化学习时间线267附录B  示例环境269参考文献274

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购