返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • 全新深度强化学习图解(美)米格尔·莫拉莱斯9787302605461
  • 正版
    • 作者: (美)米格尔·莫拉莱斯著 | (美)米格尔·莫拉莱斯编 | (美)米格尔·莫拉莱斯译 | (美)米格尔·莫拉莱斯绘
    • 出版社: 清华大学出版社
    • 出版时间:2022-07-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    萌萌哒图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: (美)米格尔·莫拉莱斯著| (美)米格尔·莫拉莱斯编| (美)米格尔·莫拉莱斯译| (美)米格尔·莫拉莱斯绘
    • 出版社:清华大学出版社
    • 出版时间:2022-07-01
    • 版次:1
    • 印次:1
    • 字数:534000
    • 页数:872
    • 开本:32开
    • ISBN:9787302605461
    • 版权提供:清华大学出版社
    • 作者:(美)米格尔·莫拉莱斯
    • 著:(美)米格尔·莫拉莱斯
    • 装帧:平装
    • 印次:1
    • 定价:139.00
    • ISBN:9787302605461
    • 出版社:清华大学出版社
    • 开本:32开
    • 印刷时间:暂无
    • 语种:暂无
    • 出版时间:2022-07-01
    • 页数:872
    • 外部编号:1202722217
    • 版次:1
    • 成品尺寸:暂无

    章 深度强化学习导论 1

    1.1 深度强化学习概念 2

    1.1.1 深度强化学习:人工智能的机器学习法 2

    1.1.2 深度强化学习着重创建计算机程序 5

    1.1.3 智能体解决智能问题 6

    1.1.4 智能体通过试错提高能

    1.1.5 智能体从惯序反馈中学习 9

    1.1.6 智能体从评估反馈中学习 10

    1.1.7 智能体从抽样反馈中学习 10

    1.1.8 智能体使用强大的非线函数逼近 11

    1.2 深度强化学习的过去、现在与未来 12

    1.2.1 人工智能和深度强化学习的发展简史 12

    1.2.2 人工智能的寒冬 13

    1.. 人工智能现状 13

    1.2.4 深度强化学习进展 14

    1.2.5 未来的机遇 17

    1.3 深度强化学习的适用 1

    1.3.1 利弊分析 18

    1.3.2 深度强化学习之利 19

    1.3.3 深度强化学习之弊 20

    1.4 设定明确的双向预期 21

    1.4.1 本书的预期 21

    1.4.2 本书的很好使用方式 22

    1.4.3 深度强化学习的开发环境

    1.5 小结 24

    第2章 强化学习数学基础 27

    2.1 强化学习组成 28

    2.1.1 问题、智能体和环境的示例 30

    2.1.2 智能体:决策者 31

    2.1.3 环境:其余一切 32

    2.1.4 智能体与环境交互循环 37

    2.2 MDP:环境的引擎 38

    2.2.1 状态:环境的特定配置 40

    2.2.2 动作:影响环境的机制 43

    2.. 转换函数:智能体行为的后果 44

    2.2.4 奖励信号:胡萝卜和棍棒 46

    2.2.5 视界:时间改变很好选择 49

    2.2.6 折扣:未来是不确定的,别太看重它 50

    2.2.7 MDP扩展 51

    2.2.8 总体回顾 53

    . 小结 54

    第3章 平衡短期目标与长期目标 57

    3.1 决策智能体的目标 58

    3.1.1 策略:各状态动作指示 62

    3.1.2 状态-值函数:有何期望 63

    3.1.3 动作-值函数:如果这样做,有何期望 64

    3.1.4 动作-优势函数:如果这样做,有何进步 65

    3.1.5 很优 66

    3.2 规划很优动作顺序 67

    3.2.1 策略评估:评级策略 67

    3.2.2 策略改进:利用评级得以改善 73

    3.. 策略迭代:完善改进后的行为 77

    3.2.4 价值迭代:早期改进行为 81

    3.3 小结 85

    第4章 权衡信息收集和运用 87

    4.1 解读评估反馈的挑战 88

    4.1.1 老虎机:单状态决策问题 89

    4.1.2 后悔值:探索的代价 90

    4.1.3 解决MAB环境的方法 91

    4.1.4 贪婪策略:总在利用 93

    4.1.5 随机策略:总在探索 95

    4.1.6 ε贪婪策略:通常贪婪,时而随机 97

    4.1.7 衰减ε贪婪策略:先优选化探索,后优选化利用 99

    4.1.8 乐观初始化策略:始于相信世界美好 101

    4.2 策略型探索 105

    4.2.1 柔优选值策略:根据估计值按比随机选择动作 106

    4.2.2 置信上界策略:现实乐观,而非乐观 108

    4.. 汤普森抽样策略:平衡回报与风险 110

    4.3 小结 116

    第5章 智能体行为评估 119

    5.1 学习估计策略价值 120

    5.1.1 首次访问蒙特卡洛:每次迭代后,改善估计 1

    5.1.2 蒙特卡洛每次访问:处理状态访问的不同方法 125

    5.1.3 时差学习:每步后改进估计 129

    5.2 学习从多步进行估算 137

    5.2.1 n步TD学习:经过几步后改进估计 138

    5.2.2 前瞻TD(λ):改进对所有访问状态的估计 141

    5.. TD(λ):在每步之后改进对所有访问状态的估计 143

    5.3 小结 151

    第6章 智能体行为的优化 153

    6.1 对智能体强化学习的解析 154

    6.1.1 大多数智能体都要收集经验样本 156

    6.1.2 大多数智能体都要评估 157

    6.1.3 大多数智能体都要优化策略 159

    6.1.4 广义策略迭代 160

    6.2 学习动作策略的优化 162

    6.2.1 蒙特卡洛控制:在每一迭代后优化策略 163

    6.2.2 SARSA:在每一步之后优化策略 169

    6.3 从学习中分离动作 173

    6.3.1 学习:学会很优动作,即使我们不选 173

    6.3.2 双学习:优选值估计值的优选估计值 177

    6.4 小结 184

    第7章 更有效、更高效地完成目标 187

    7.1 学习使用鲁棒目标优化策略 188

    7.1.1 SARSA(λ):基于多阶段评估,在每一阶段后优化策略 189

    7.1.2 Watkin的(λ):再一次,从学习中分离行为 196

    7.2 智能体的交互、学习、计划 200

    7.2.1 Dyna-:学习样本模型 201

    7.2.2 轨迹抽样:为不久的将来做计划 206

    7.3 小结 219

    第8章 基于价值的深度强化学习 221

    8.1 深度强化学习智能体使用的反馈种类 222

    8.1.1 深度强化学习智能体处理惯序反馈 2

    8.1.2 如果它不是惯序反馈,那它是什么 224

    8.1.3 深度强化学习智能体处理评估反馈 225

    8.1.4 如果它不是评估反馈,那它是什么 226

    8.1.5 深度强化学习智能体处理抽样反馈 226

    8.1.6 如果它不是抽样反馈,那它是什么 227

    8.2 强化学习中的逼近函数 228

    8.2.1 强化学习问题能够拥有高维状态和动作空间 229

    8.2.2 强化学习问题可以具有连续的状态和动作空间 229

    8.. 使用函数逼近有很多优点 1

    8.3 NF:对基于价值的深入强化学习的次尝试

    8.3.1 个决策点:选择逼近一个值函数 4

    8.3.2 第2个决策点:选择神经网络体系结构 5

    8.3.4 第3个决策点:选择要优化的内容

    8.3.5 第4个决策点:为策略评估选择目标

    8.3.6 第5个决策点:选择探索策略 241

    8.3.7 第6个决策点:选择损失函数 242

    8.3.8 第7个决策点:选择一种很优方法 243

    8.3.9 可能出错的事情 248

    8.4 小结 250

    第9章 更稳定的基于价值方法 253

    9.1 DN:使强化学习更像是监督学习 254

    9.1.1 基于价值的深度强化学习的普遍问题 254

    9.1.2 使用目标网络 256

    9.1.3 使用更大网络 259

    9.1.4 使用经验回放 259

    9.1.5 使用探索策略 263

    9.2 双重DN:减少对动作-值函数的高估 269

    9.2.1 高估问题 269

    9.2.2 将动作选择从动作评估剥离 270

    9.. 一个解决方案 271

    9.2.4 一个更实用的解决方案 272

    9.2.5 一个更宽容的损失函数 275

    9.2.6 仍可改进之处 280

    9.3 小结 281

    0章 高效抽样的基于价值学习方法 285

    10.1 Dueling DDN:具备强化学习意识的神经网络架构 286

    10.1.1 强化学习不属于监督学习问题 286

    10.1.2 基于价值的强化学习方法的微妙区别 287

    10.1.3 利用优点的优势 288

    10.1.4 有意识强化学习框架 289

    10.1.5 建立一个Dueling网络架构 290

    10.1.6 重构动作-值函数 291

    10.1.7 连续更新目标网络 293

    10.1.8 Dueling网络能为表格带来什么 294

    10.2 PER:优先有意义经验的回放 297

    10.2.1 更明智的回放经验方法 297

    10.2.2 如何较好地衡量“重要”经验 298

    10.. 利用TD 误差做出贪婪优先级操作 299

    10.2.4 随机对优先的经验进行抽样 300

    10.2.5 成比例的优先级 301

    10.2.6 基于排名的优先级 302

    10.2.7 优先偏倚 303

    10.3 小结 309

    1章 策略梯度与actor-critic方法 313

    11.1 REINFORCE算法:基于结果策略学习 314

    11.1.1 策略梯度法简介 314

    11.1.2 策略梯度法之优势 315

    11.1.3 直接学习策略 319

    11.1.4 减少策略梯度方差 320

    11.2 VPG:学习值函数 322

    11.2.1 进一步减少策略梯度方差 3

    11.2.2 学习值函数 3

    11.. 鼓励探索 324

    11.3 A3C:平行策略更新 328

    11.3.1 使用actor工作器 328

    11.3.2 使用n-step估计 331

    11.3.3 无障碍模型更新 334

    11.4 GAE:稳健优势估计 335

    11.5 A2C:同步策略更新 338

    11.5.1 权重分担模型 338

    11.5.2 恢复策略更新秩序 340

    11.6 小结 346

    2章 高级actor-critic方法 349

    12.1 DDPG:逼近确定策略 351

    12.1.1 DDPG使用DN中的许多技巧 351

    12.1.2 学习确定策略 353

    12.1.3 用确定策略进行探索 356

    12.2 TD3:很优选的DDPG改进 358

    12.2.1 DDPG中的双重学习 358

    12.2.2 平滑策略更新目标 360

    12.. 延迟更新 363

    1. SAC:优选化预期收益和熵 365

    1..1 在贝尔曼方程中添加熵 365

    1..2 学习动作-值函数 366

    1.. 学习策略 366

    1..4 自动调整熵系数 367

    12.4 PPO:优化步骤 372

    12.4.1 使用与A2C相同的actor-critic架构 372

    12.4.2 分批处理经验 373

    12.4.3 剪裁策略更新 377

    12.4.4 剪裁值函数更新 377

    12.5 小结 382

    3章 迈向通用人工智能 385

    13.1 已涵盖的以及未特别提及的内容 386

    13.1.1 马尔可夫决策过程 387

    13.1.2 规划法 388

    13.1.3 Bandit法 389

    13.1.4 表格型强化学习 390

    13.1.5 基于值函数的深度强化学习 391

    13.1.6 基于策略的深度强化学习和actor-critic深度强化学习 392

    13.1.7 高级actor-critic技术 392

    13.1.8 基于模型的深度强化学习 393

    13.1.9 无梯度优化方法 395

    13.2 更多AGI高级概念 397

    13.2.1 什么是AGI 397

    13.2.2 高级探索策略 399

    13.. 逆强化学习 399

    13.2.4 迁移学习 400

    13.2.5 多任务学习 401

    13.2.6 课程学习 401

    13.2.7 元学习 402

    13.2.8 分层强化学习 402

    13.2.9 多智能体强化学习 402

    13.2.10 可解释AI、安全、公平和道德标准 403

    13.3 接下来是什么 404

    13.3.1 如何用DRL解决特定问题 404

    13.3.2 继续前进 405

    13.3.3 从现在开始,放下本书 406

    13.4 小结 407

    Miguel Morales在洛克希德·马丁(Lockheed Martin)公司从事强化学习工作,在佐治亚理工学院担任强化学习与决策课程的讲师。

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购