返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • [正版]深度强化学树森 黎彧君 张志华 猫书深度学习零基础入门 DRL方法论文深度强化学习原理与实现多智能体强化
  • 新华书店正版 人工智能 文轩网
    • 作者: 王树森,黎彧君,张志华著
    • 出版社: 人民邮电出版社
    • 出版时间:2022-11
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    友一个图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品参数
    • 作者: 王树森,黎彧君,张志华著
    • 出版社:人民邮电出版社
    • 出版时间:2022-11
    • ISBN:9781475904775
    • 版权提供:人民邮电出版社

             店铺公告

      为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。

    温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货),

    关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。

      本店存在书、古旧书、收藏书、二手书等特殊商品,因受采购成本限制,可能高于定价销售,明码标价,介意者勿拍!

    1.书籍因稀缺可能导致售价高于定价,图书实际定价参见下方详情内基本信息,请买家看清楚且明确后再拍,避免价格争议!

    2.店铺无纸质均开具电子,请联系客服开具电子版

     

    深度强化学习

    作  者:王树森,黎彧君,张志华 著
    定  价:129.8
    出 版 社:人民邮电出版社
    出版日期:2022年11月01日
    页  数:312
    装  帧:平装
    ISBN:9787115600691

    1.内容新颖,涵盖近 10 年的热门深度强化学习方法,紧跟学术前沿 2.知识精悍,围绕实用、精简两大原则,专注核心知识,成书篇幅仅 312 页 3.图多易懂,书中原创 140 多幅精美全彩插图,让方法和原理变得形象生动 4.论文导读,书中列出了 136 篇参考文献,相当于一份宝贵的论文阅读清单 5.配套课件,部分章节配有 PPT 和公开视频课,读者可以直接获取所有资源(1.教学PPT、配套代码:图灵社区本书主页 ;2.教学视频:B站或YouTube搜索“深度强化学习”) 6.作者资历丰富......

    第一部分基础知识
    第1章机器学习基础2
    1.1线性模型2
    1.1.1线性回归2
    1.1.2逻辑斯谛回归4
    1.1.3softmax分类器7
    1.2神经网络10
    1.2.1全连接神经网络10
    1.2.2卷积神经网络11
    1.3梯度下降和反向传播12
    1.3.1梯度下降13
    1.3.2反向传播14
    知识点小结16
    习题16
    第2章蒙特卡洛方法18
    2.1随机变量18
    2.2蒙特卡洛方法实例21
    2.2.1例一:近似π值21
    2.2.2例二:估算阴影部分面积23
    2.2.3例三:近似定积分25
    2.2.4例四:近似期望26
    2.2.5例五:随机梯度27
    知识点小结29
    习题29
    第3章强化学习基本概念31
    3.1马尔可夫决策过程31
    3.1.1状态、动作、奖励31
    3.1.2状态转移32
    3.2策略33
    3.3随机性35
    3.4回报与折扣回报37
    3.4.1回报37
    3.4.2折扣回报37
    3.4.3回报中的随机性38
    3.4.4有限期MDP和无限期MDP39
    3.5价值函数39
    3.5.1动作价值函数40
    3.5.2zui优动作价值函数40
    3.5.3状态价值函数41
    3.6实验环境:OpenAIGym42
    知识点小结44
    习题44
    第二部分价值学习
    第4章DQN与Q学习48
    4.1DQN48
    4.1.1概念回顾48
    4.1.2DQN表达式49
    4.1.3DQN的梯度50
    4.2TD算法50
    4.2.1驾车时间预测示例50
    4.2.2TD算法的原理51
    4.3用TD训练DQN53
    4.3.1算法推导53
    4.3.2训练流程55
    4.4Q学习算法57
    4.4.1表格形式的Q学习57
    4.4.2算法推导57
    4.4.3训练流程58
    4.5同策略与异策略59
    相关文献60
    知识点小结61
    习题61
    第5章SARSA算法63
    5.1表格形式的SARSA63
    5.1.1算法推导63
    5.1.2训练流程64
    5.1.3Q学习与SARSA的对比65
    5.2神经网络形式的SARSA66
    5.2.1价值网络66
    5.2.2算法推导66
    5.2.3训练流程67
    5.3多步TD目标68
    5.3.1算法推导68
    5.3.2多步TD目标的原理69
    5.3.3训练流程70
    5.4蒙特卡洛方法与自举70
    5.4.1蒙特卡洛方法71
    5.4.2自举71
    5.4.3蒙特卡洛方法和自举的对比72
    相关文献73
    知识点小结73
    习题74
    第6章价值学习高级技巧75
    6.1经验回放75
    6.1.1经验回放的优点76
    6.1.2经验回放的局限性76
    6.1.3优先经验回放77
    6.2高估问题及解决方法79
    6.2.1自举导致偏差传播79
    6.2.2zui大化导致高估80
    6.2.3高估的危害81
    6.2.4使用目标网络82
    6.2.5双Q学习算法84
    6.2.6总结85
    6.3对决网络86
    6.3.1zui优优势函数86
    6.3.2对决网络的结构87
    6.3.3解决不唯yi性88
    6.3.4对决网络的实际实现89
    6.4噪声网络90
    6.4.1噪声网络的原理90
    6.4.2噪声DQN91
    6.4.3训练流程93
    相关文献94
    知识点小结94
    习题94
    第三部分策略学习
    第7章策略梯度方法98
    7.1策略网络98
    7.2策略学习的目标函数99
    7.3策略梯度定理101
    7.3.1简化证明101
    7.3.2严格证明102
    7.3.3近似策略梯度106
    7.4REINFORCE107
    7.4.1简化推导108
    7.4.2训练流程108
    7.4.3严格推导109
    7.5actor-critic110
    7.5.1价值网络110
    7.5.2算法推导111
    7.5.3训练流程114
    7.5.4用目标网络改进训练114
    相关文献115
    知识点小结115
    习题116
    第8章带基线的策略梯度方法117
    8.1策略梯度中的基线117
    8.1.1基线的引入117
    8.1.2基线的直观解释118
    8.2带基线的REINFORCE算法119
    8.2.1策略网络和价值网络120
    8.2.2算法推导121
    8.2.3训练流程121
    8.3advantageactor-critic122
    8.3.1算法推导123
    8.3.2训练流程125
    8.3.3用目标网络改进训练126
    8.4证明带基线的策略梯度定理127
    知识点小结128
    习题128
    第9章策略学习高级技巧129
    9.1置信域策略优化129
    9.1.1置信域方法129
    9.1.2策略学习的目标函数132
    9.1.3算法推导133
    9.1.4训练流程135
    9.2策略学习中的熵正则135
    相关文献138
    知识点小结138
    第10章连续控制139
    10.1连续空间的离散化139
    10.2深度确定性策略梯度140
    10.2.1策略网络和价值网络140
    10.2.2算法推导142
    10.3深入分析DDPG145
    10.3.1从策略学习的角度看待DDPG145
    ……
     

    内容简介

    本书基于备受读者推崇的王树森“深度强化学习”系列公开视频课,专门解决“入门深度强化学习难”的问题。 本书的独特之处在于:第一,知识精简,剔除一切不必要的概念和公式,学起来轻松;第二,内容新颖,聚焦近10年深度强化学习领域的突破,让你一上手就紧跟zui新技术。本书系统讲解深度强化学习的原理与实现,但不回避数学公式和各种模型,原创100多幅精美插图,并以全彩印刷展示。简洁清晰的语言+生动形象的图示,助你扫除任何可能的学习障碍!本书内容分为五部分:基础知识、价值学习、策略学习、多智能体强化学习、应用与展望,涉及DQN、A3C、TRPO、DDPG、AlphaGo等。 本书面向深度强化学习入门读者,助你构建完整的知识体系。学完本书,你能够轻松看懂深度强化学习的实现代码、读懂该领域的论文、听懂学术报告,具备进一步自学和深挖的能力。

    王树森,黎彧君,张志华 著

    王树森 现任小红书基础模型团队负责人,从事搜索和推荐算法研发工作。从浙江大学获得计算机学士和博士学位,就读期间获得“微软学者”和“百度奖学金”等多项荣誉。在加入小红书之前,曾任美国加州大学伯克利分校博士后、美国史蒂文斯理工学院助理教授、博导。在机器学习、强化学习、数值计算、分布式计算等方向有多年科研经验,在计算机国际期刊和会议上发表30多篇论文。 在YouTube、B站开设“深度强化学习”“深度学习”“推荐系统”公开课(ID:Shusen Wang),视频播放量100万次。 黎彧君 华为诺亚方舟实验室高级研究员,主要从事AutoML相关的研发工作。上海交通大学博士,研究方向为数值优化、强......

    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购