返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • [正版]动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门零基础
  • 本店所有图书均支持7天无理由退换并运费险,请放心购买。
    • 作者: 张伟楠,沈键,俞勇著
    • 出版社: 人民邮电出版社
    • 出版时间:2022-05
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    粉象优品图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: 张伟楠,沈键,俞勇著
    • 出版社:人民邮电出版社
    • 出版时间:2022-05
    • ISBN:9786156320597
    • 版权提供:人民邮电出版社

                                                                                                  店铺公告

    本店存在书、古旧书、收藏书、二手书等特殊商品,因受采购成本限制,可能高于定价销售,明码标价,介意者勿拍!

    1.书籍因稀缺可能导致售价高于定价,图书实际定价参见下方详情内基本信息,请买家看清楚且明确后再拍,避免价格争议!

    2.店铺无纸质均开具电子,请联系客服开具电子版

    内容介绍

    本书系统地介绍了强化学习的原理和实现,是*本理论扎实、落地性强的图书。 本书*含3个*分:第**分为强化学习基础,讲解强化学习的基础概念和表格型强化学习方法;第二*分为强化学习进*,讨论深度强化学习的思维方式、深度*值函数和深度策略学习方法;第三*分为强化学习前沿,介绍学术界在深度强化学习*域的主要关注方向和前沿算法。同时,本书提供配套的线上代码实践平台,展示源码的编写和运行过程,让读者进*步掌握强化学习算法的运行机制。 本书理论与实践并重,在介绍强化学习理论的同时,辅之以线上代码实践平台,帮助读者通过实践加深对理论的理解。本书适合对强化学习感兴趣的*校学生、教师,以及相关行业的开发和研究人员阅读、实践。
    目录

    第 **分 强化学习基础
    第 * 章 初探强化学习            2
    *.* 简介                        2
    *.2 什么是强化学习                 2
    *.3 强化学习的环境                 4
    *.4 强化学习的目标                 4
    *.5 强化学习中的数据               5
    *.6 强化学习的**性               6
    *.7 小结                        6
    第 2 章 多臂老虎机问题           7
    2.* 简介                        7
    2.2 问题介绍                      7
    2.2.* 问题定义                   7
    2.2.2 形式化描述                 8
    2.2.3 累积懊悔                    8
    2.2.4 估计期望奖励                8
    2.3 探索与利用的平衡                *0
    2.4  -贪婪算法                   **
    2.5 上置信界算法                   *4
    2.6 汤普森采样算法                 *6
    2.7 小结                         *8
    2.8 参考文献                      *8
    第 3 章 马尔可夫决策过程         *9
    3.* 简介                        *9
    3.2 马尔可夫过程                   *9
    3.2.* 随机过程                  *9
    3.2.2 马尔可夫性质               *9
    3.2.3 马尔可夫过程               20
    3.3 马尔可夫奖励过程                2*
    3.3.* 回报                       2*
    3.3.2 *值函数                   22
    3.4 马尔可夫决策过程               24
    3.4.* 策略                       25
    3.4.2 状态*值函数               25
    3.4.3 动作*值函数               25
    3.4.4 贝尔曼期望方程              25
    3.5 蒙*卡洛方法                  28
    3.6 占用度量                      3*
    3.7 最*策略                     32
    3.8 小结                        33
    3.9 参考文献                     33
    第 4 章 动态规划算法             34
    4.* 简介                        34
    4.2 悬崖漫步环境                  34
    4.3 策略迭代算法                  36
    4.3.* 策略评估                    36
    4.3.2 策略提*                   36
    4.3.3 策略迭代                   37
    4.4 *值迭代算法                  40
    4.5 冰湖环境                     42
    4.6 小结                        45
    4.7 扩展阅读:收敛性证明            45
    4.7.* 策略迭代                  45
    4.7.2 *值迭代                   45
    4.8 参考文献                     46
    第 5 章 时序差分算法           47
    5.* 简介                       47
    5.2 时序差分                     48
    5.3 Sarsa 算法                   48
    5.4 多步 Sarsa 算法               53
    5.5 Q-learning 算法               56
    5.6 小结                        60
    5.7 扩展阅读:Q-learning 收敛性证明    6*
    5.8 参考文献                     62
    第 6 章 Dyna-Q 算法           63
    6.* 简介                        63
    6.2 Dyna-Q                    63
    6.3 Dyna-Q 代码实践             64
    6.4 小结                        69
    6.5 参考文献                     69
    第二*分 强化学习进*
    第 7 章 DQN算法              72
    7.* 简介                       72
    7.2 车杆环境                     72
    7.3 DQN                      73
    7.3.* 经验回放                  74
    7.3.2 目标网络                   74
    7.4 DQN代码实践                75
    7.5 以图像作为输入的DQN算法       79
    7.6 小结                        80
    7.7 参考文献                     80
    第 8 章 DQN改进算法            8*
    8.* 简介                        8*
    8.2 Double DQN                 8*
    8.3 Double DQN代码实践          82
    8.4 Dueling DQN                88
    8.5 Dueling DQN代码实践          90
    8.6 小结                        93
    8.7 扩展阅读:对Q值过*估计的定量分析    93
    8.8 参考文献                     94
    第 9 章 策略梯度算法           95
    9.* 简介                       95
    9.2 策略梯度                     95
    9.3 REINFORCE                 96
    9.4 REINFORCE代码实践          97
    9.5 小结                        *00
    9.6 扩展阅读:策略梯度证明          *00
    9.7 参考文献                     *02
    第 *0 章 Actor-Critic算法       *03
    *0.* 简介                      *03
    *0.2 Actor-Critic                *03
    *0.3 Actor-Critic代码实践          *05
    *0.4 小结                       *08
    *0.5 参考文献                   *08
    第 ** 章 TRPO算法            *09
    **.* 简介                       *09
    **.2 策略目标                    *09
    **.3 近似求解                     ***
    **.4 共轭梯度                   **2
    **.5 线性搜索                    **2
    **.6 广义*势估计                 **3
    **.7 TRPO代码实践              **4
    **.8 小结                      *22
    **.9 参考文献                   *23
    第 *2 章 PPO算法             *24
    *2.* 简介                      *24
    *2.2 PPO-惩罚                  *24
    *2.3 PPO-截断                  *25
    *2.4 PPO代码实践               *25
    *2.5 小结                      *3*
    *2.6 参考文献                   *32
    第 *3 章 DDPG算法           *33
    *3.* 简介                       *33
    *3.2 DDPG                    *33
    *3.3 DDPG代码实践               *35
    *3.4 小结                      *40
    *3.5 扩展阅读:确定性策略梯度定理的证明    *40
    *3.6 参考文献                   *4*
    第 *4 章 SAC算法             *42
    *4.* 简介                      *42
    *4.2 *大熵强化学习               *42
    *4.3 Soft策略迭代                *43
    *4.4 SAC                      *43
    *4.5 SAC代码实践               *45
    *4.6 小结                      *54
    *4.7 参考文献                   *55
    第三*分 强化学习前沿
    第 *5 章 模仿学习              *58
    *5.* 简介                       *58
    *5.2 行为克隆                   *59
    *5.3 生成对抗模仿学习             *59
    *5.4 代码实践                   *60
    *5.4.* 生成*家数据               *60
    *5.4.2 行为克隆的代码实践         *63
    *5.4.3 生成对抗模仿学习的代码实践        *65
    *5.5 小结                      *67
    *5.6 参考文献                   *68
    第 *6 章 模型预测控制           *69
    *6.* 简介                      *69
    *6.2 打靶法                     *69
    *6.2.* 随机打靶法                *70
    *6.2.2 交叉熵方法                *70
    *6.3 PETS算法                 *7*
    *6.4 PETS算法实践              *72
    *6.5 小结                      *79
    *6.6 参考文献                   *79
    第 *7 章 基于模型的策略*化      *80
    *7.* 简介                      *80
    *7.2 MBPO算法                 *80
    *7.3 MBPO代码实践             *8*
    *7.4 小结                      *92
    *7.5 拓展阅读:MBPO理论分析      *92
    *7.5.* 性能提*的单调性*障      *92
    *7.5.2 模型推演长度              *92
    *7.6 参考文献                   *93
    第 *8 章 离线强化学习          *94
    *8.* 简介                      *94
    *8.2 批量限制 Q-learning算法       *95
    *8.3 *守 Q-learning算法          *97
    *8.4 CQL代码实践               *99
    *8.5 小结                     208
    *8.6 扩展阅读                  208
    *8.7 参考文献                   2*0
    第 *9 章 目标导向的强化学习       2**
    *9.* 简介                      2**
    *9.2 问题定义                   2**
    *9.3 HER算法                  2*2
    *9.4 HER代码实践               2*3
    *9.5 小结                      22*
    *9.6 参考文献                   22*
    第 20 章 多智能体强化学习入门    222
    20.* 简介                     222
    20.2 问题建模                   223
    20.3 多智能体强化学习的基本求解范式  223
    20.4 IPPO算法                 223
    20.5 IPPO代码实践              224
    20.6 小结                      228
    20.7 参考文献                   229
    第 2* 章 多智能体强化学习进*    230
    2*.* 简介                      230
    2*.2 MADDPG算法             230
    2*.3 MADDPG代码实践          232
    2*.4 小结                     240
    2*.5 参考文献                  240
    总结与展望                  24*
    总结                           24*
    展望:克服强化学习的落地挑战          24*
    中英文术语对照表与符号表         244
    中英文术语对照表                  244
    符号表                        246


    作者介绍

    张伟楠,上海交通大学副教授,博士生导师,ACM班机器学习、强化学习课程授课老师,吴文俊人工智能*秀青年奖、达摩院青橙奖得主,获得中*科协“青年人才托举工程”支持。他的科研*域*括强化学习、数据挖掘、知识图谱、深度学习以及这些技术在推荐系统、搜索引擎、文本分析等场景中的应用。他在*际会议和期刊上发表了*00余篇相关*域的学术论文,于20*6年在英*伦敦大学学院(UCL)计算机系获得博士学位。 沈键,上海交通大学APEX实验室博士生,师从俞勇教授,研究方向为深度学习、强化学习和教育数据挖掘。在攻读博士期间,他以第*作者身份发表机器学习*际会议NeurIPS、AAAI论文,参与发表多篇机器学习和数据挖掘*际会议(*括ICML、IJCAI、SIGIR、KDD、AISTATS等)论文,并担任多个*际会议和SCI学术期刊的审稿人。 俞勇,享受*务院*殊津贴*家,教学*,上海交通大学*聘教授,APEX实验室主任,上海交通大学ACM班*始人。俞勇教授曾获得“*家*层次人才*殊支持计划”教学*、“上海市教学*奖”“**师德标兵”“上海交通大学校长奖”和“最受学生欢迎教师”等荣誉。他于20*8年*办了伯禹人工智能学院,在上海交通大学ACM班人工智能*业课程体系的基础上,对AI课程体系进行*新,*力于培养*越的AI算法工程师和研究员。
    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购