返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • [正版] 深度强化学习落地指南 魏宁 需求分析算法选择方法训练调试和性能冲刺技巧书籍实践工程经验方法论 电子工业出版
  • 正版图书 品质保障
    • 作者: 魏宁著
    • 出版社: 电子工业出版社
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    友一个图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品参数
    • 作者: 魏宁著
    • 出版社:电子工业出版社
    • ISBN:9784640000978
    • 版权提供:电子工业出版社

             店铺公告

      为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。

    温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货),

    关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。

      本店存在书、古旧书、收藏书、二手书等特殊商品,因受采购成本限制,可能高于定价销售,明码标价,介意者勿拍!

    1.书籍因稀缺可能导致售价高于定价,图书实际定价参见下方详情内基本信息,请买家看清楚且明确后再拍,避免价格争议!

    2.店铺无纸质均开具电子,请联系客服开具电子版

     

    产品展示

    基本信息


    图书名称:
    深度强化学习落地指南
    作者:
    魏宁
    定价:
    109.00
    ISBN号:
    9787121416446
    出版社:
    电子工业出版社
    开本:
    4开
    装帧:
    平塑勒口
    编辑推荐

    内容介绍
    本书从工业界一线算法工作者的视角,对深度强化学习落地实践中的工程经验和相关方法论做出了深度思考和系统归纳。本书跳出了原理介绍加应用案例的传统叙述模式,转而在横向上对深度强化学习落地过程中的核心环节进行了完整复盘。主要内容包括需求分析和算法选择的方法,动作空间、状态空间和回报函数设计的理念,训练调试和性能冲刺的技巧等。本书既是前人智慧与作者个人经验的交叉印证和精心整合,又构成了从理论到实践再到统一方法论的认知闭环,与市面上侧重于算法原理和代码实现的强化学习书籍形成了完美互补。
    作者介绍

    目录
    第1章 需求分析 1 1.1 需求分析:勿做DRL铁锤人 1 1.2 一问“是不是” 2 1.2.1 Agent和环境定义 2 1.2.2 马尔可夫决策过程和强化学习 3 1.3 二问“值不值” 5 1.3.1 试试规则和启发式搜索 5 1.3.2 别忘了传统强化学习 7 1.3.3 使用DRL的理由 7 1.4 三问“能不能” 9 1.4.1 场景固定:两个分布一致 9 1.4.2 数据廉价:多、快、好、费 13 1.5 四问“边界在哪里” 16 1.6 本章小结 18 参考文献 19 第2章 动作空间设计 23 2.1 动作空间设计:这里大有可为 23 2.1.1 被忽视的价值 23 2.1.2 动作空间的常见类型 24 2.1.3 动作空间设计的基本原则 26 2.2 动作空间的完备性 26 2.2.1 功能完备 27 2.2.2 时效完备 29 2.3 动作空间的高效性 30 2.3.1 化整为零:以精度换效率 31 2.3.2 有机组合:尺度很重要 33 2.4 动作空间的合法性 35 2.4.1 非法动作屏蔽机制 36 2.4.2 Agent的知情权 37 2.5 本章小结 39 参考文献 40 第3章 状态空间设计 43 3.1 状态空间设计:特征工程的诱惑 43 3.2 状态空间设计的两种常见误区 44 3.2.1 过分依赖端到端特征学习 44 3.2.2 极致特征工程 44 3.3 与动作空间和回报函数的协同设计 45 3.3.1 与动作空间尺度一致 45 3.3.2 以回报函数为中心 46 3.4 状态空间设计的四个步骤 47 3.4.1 任务分析 47 3.4.2 相关信息筛选 49 3.4.3 泛化性考量 53 3.4.4 效果验证 58 3.5 本章小结 61 参考文献 62 第4章 回报函数设计 64 4.1 回报函数设计:面向强化学习的编程 64 4.2 稀疏回报问题 65 4.2.1 孤独无援的主线回报 65 4.2.2 稀疏回报问题的本质 66 4.3 辅助回报 67 4.3.1 子目标回报 67 4.3.2 塑形回报 70 4.3.3 内驱回报 76 4.3.4 回报取值的注意事项 77 4.4 回报函数设计的常见陷阱 78 4.4.1 鲁莽 79 4.4.2 贪婪 80 4.4.3 懦弱 82 4.5 最优回报问题 83 4.6 基于学习的回报函数 84 4.6.1 经典方法 84 4.6.2 前沿方法 85 4.7 本章小结 87 参考文献 88 第5章 算法选择 92 5.1 算法选择:拿来主义和改良主义 92 5.1.1 DRL算法的发展脉络 92 5.1.2 一筛、二比、三改良 94 5.1.3 从独当一面到众星捧月 96 5.2 牢记经典勿忘本 97 5.2.1 DQN 98 5.2.2 DDPG 99 5.2.3 A3C 102 5.3 关注SOTA算法别留恋 105 5.3.1 TD3 105 5.3.2 SAC 107 5.3.3 PPO 110 5.4 其他算法 112 5.5 本章小结 113 参考文献 113 第6章 训练调试 119 6.1 训练调试:此事要躬行 119 6.2 训练前的准备工作 120 6.2.1 制定训练方案 120 6.2.2 选择网络结构 124 6.2.3 随机漫步 128 6.2.4 数据预处理 129 6.3 训练进行时 131 6.3.1 反脆弱:拥抱不确定性 131 6.3.2 调节超参数 134 6.3.3 监控训练状态 143 6.4 给初学者的建议 146 6.5 本章小结 148 参考文献 149 第7章 性能冲刺 154 7.1 性能冲刺:为DRL注入强心剂 154 7.2 课程学习 155 7.2.1 源任务及其分类 155 7.2.2 应用方式 157 7.3 额外监督信号 162 7.3.1 有监督预训练 163 7.3.2 辅助任务 164 7.4 进化策略 169 7.4.1 基本原理 169 7.4.2 关键细节 170 7.4.3 应用方式 174 7.5 本章小结 175 参考文献 176
    1940132087
    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购