文轩网图书旗舰店
  • 扫码下单

  • 深度强化学习 基础、研究与应用 董豪 等 著 专业科技 文轩网
  • 新华书店正版
    • 作者: 董豪等著
    • 出版社: 电子工业出版社
    • 出版时间:2021-06-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    店铺装修中

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    文轩网图书旗舰店

  •      https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: 董豪等著
    • 出版社:电子工业出版社
    • 出版时间:2021-06-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2021-06-01
    • 开本:16开
    • 装帧:平装
    • ISBN:9787121411885
    • 国别/地区:中国
    • 版权提供:电子工业出版社

    深度强化学习 基础、研究与应用

    作  者:董豪 等 著
    定  价:129
    出 版 社:电子工业出版社
    出版日期:2021年07月01日
    页  数:520
    装  帧:平装
    ISBN:9787121411885
    主编推荐

    "本书重在为企业开发者和决策者提供Flutter的完整解决方案。 面向企业级应用场景下的绝大多数问题和挑战,都能在本书中获得答案。 注重单点问题的深耕与解决,如针对行业内挑战较大的、复杂场景下的性能问题。 本书通过案例与实际代码传达实践过程中的主要思路和关键实现。 本书采用全彩印刷,提供良好阅读体验。 "

    内容简介

    深度强化学习结合深度学习与强化学习算法各自的优势解决复杂的决策任务。得益于DeepMind AlphaGo和OpenAI Five成功的案例,深度强化学习受到大量的关注,相关技术广泛应用于不同的领域。本书分为三大部分,覆盖深度强化学习的全部内容。第一部分介绍深度学习和强化学习的入门知识、一些非常基础的深度强化学习算法及其实现细节,包括第1~6章。第二部分是一些精选的深度强化学习研究题目,这些内容对准备开展深度强化学习研究的读者非常有用,包括第7~12章。第三部分提供了丰富的应用案例,包括AlphaZero、让机器人学习跑步等,包括第13~17章。本书是为计算机科学专业背景、希望从零开始学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适合没有很强的机器学习背景、但是希望快速学习深度强化学习并将其应用到具体产品中的软件工程师阅读。

    作者简介

     

    精彩内容

    目录
    基础部分1
    第1章深度学习入门2
    1.1简介2
    1.2感知器3
    1.3多层感知器7
    1.4激活函数9
    1.5损失函数11
    1.6优化13
    1.6.1梯度下降和误差的反向传播13
    1.6.2随机梯度下降和自适应学习率15
    1.6.3超参数筛选17
    1.7正则化18
    1.7.1过拟合18
    1.7.2权重衰减18
    1.7.3Dropout20
    1.7.4批标准化20
    1.7.5其他缓和过拟合的方法21
    1.8卷积神经网络22
    1.9循环神经网络25
    1.10深度学习的实现样例28
    1.10.1张量和梯度28
    1.10.2定义模型29
    1.10.3自定义层31
    1.10.4多层感知器:MNIST数据集上的图像分类33
    1.10.5卷积神经网络:CIFAR-10数据集上的图像分类35
    1.10.6序列到序列模型:聊天机器人36
    第2章强化学习入门43
    2.1简介43
    2.2在线预测和在线学习46
    2.2.1简介46
    2.2.2随机多臂赌博机48
    2.2.3对抗多臂赌博机50
    2.2.4上下文赌博机51
    2.3马尔可夫过程52
    2.3.1简介52
    2.3.2马尔可夫奖励过程54
    2.3.3马尔可夫决策过程57
    2.3.4贝尔曼方程和很优性61
    2.3.5其他重要概念64
    2.4动态规划64
    2.4.1策略迭代65
    2.4.2价值迭代67
    2.4.3其他DPs:异步DP、近似DP和实时DP68
    2.5蒙特卡罗70
    2.5.1蒙特卡罗预测70
    2.5.2蒙特卡罗控制71
    2.5.3增量蒙特卡罗72
    2.6时间差分学习73
    2.6.1时间差分预测73
    2.6.2Sarsa:在线策略TD控制77
    2.6.3Q-Learning:离线策略TD控制80
    2.7策略优化80
    2.7.1简介80
    2.7.2基于价值的优化84
    2.7.3基于策略的优化89
    2.7.4结合基于策略和基于价值的方法105
    第3章强化学习算法分类110
    3.1基于模型的方法和无模型的方法111
    3.2基于价值的方法和基于策略的方法113
    3.3蒙特卡罗方法和时间差分方法114
    3.4在线策略方法和离线策略方法115
    第4章深度Q网络119
    4.1Sarsa和Q-Learning121
    4.2为什么使用深度学习:价值函数逼近121
    4.3DQN123
    4.4Double DQN124
    4.5Dueling DQN125
    4.6优先经验回放127
    4.7其他改进内容:多步学习、噪声网络和值分布强化学习128
    4.8DQN代码实例131
    第5章策略梯度146
    5.1简介146
    5.2REINFORCE:初版策略梯度147
    5.3Actor-Critic149
    5.4生成对抗网络和Actor-Critic150
    5.5同步优势Actor-Critic152
    5.6异步优势Actor-Critic153
    5.7信赖域策略优化154
    5.8近端策略优化157
    5.9使用Kronecker因子化信赖域的Actor-Critic159
    5.10策略梯度代码例子162
    5.10.1相关的Gym环境162
    5.10.2REINFORCE:AtariPong和CartPole-V0165
    5.10.3AC:CartPole-V0173
    5.10.4A3C:BipedalWalker-v2176
    5.10.5TRPO:Pendulum-V0181
    5.10.6PPO:Pendulum-V0192
    第6章深度Q网络和Actor-Critic的结合200
    6.1简介200
    6.2深度确定性策略梯度算法201
    6.3孪生延迟DDPG算法203
    6.4柔性Actor-Critic算法206
    6.4.1柔性策略迭代206
    6.4.2SAC207
    6.5代码例子209
    6.5.1相关的Gym环境209
    6.5.2DDPG:Pendulum-V0209
    6.5.3TD3:Pendulum-V0215
    6.5.4SAC:Pendulum-v0225
    研究部分236
    第7章深度强化学习的挑战237
    7.1样本效率237
    7.2学习稳定性240
    7.3灾难性遗忘242
    7.4探索243
    7.5元学习和表征学习245
    7.6多智能体强化学习246
    7.7模拟到现实247
    7.8大规模强化学习251
    7.9其他挑战252
    第8章模仿学习258
    8.1简介258
    8.2行为克隆方法260
    8.2.1行为克隆方法的挑战260
    8.2.2数据集聚合261
    8.2.3Variational Dropout262
    8.2.4行为克隆的其他方法262
    8.3逆向强化学习方法263
    8.3.1简介263
    8.3.2逆向强化学习方法的挑战264
    8.3.3生成对抗模仿学习265
    8.3.4生成对抗网络指导性代价学习266
    8.3.5对抗性逆向强化学习268
    8.4从观察量进行模仿学习269
    8.4.1基于模型方法269
    8.4.2无模型方法272
    8.4.3从观察量模仿学习的挑战277
    8.5概率性方法277
    8.6模仿学习作为强化学习的初始化279
    8.7强化学习中利用示范数据的其他方法280
    8.7.1将示范数据导入经验回放缓存280
    8.7.2标准化Actor-Critic281
    8.7.3用示范数据进行奖励塑形282
    8.8总结282
    第9章集成学习与规划289
    9.1简介289
    9.2基于模型的方法290
    9.3集成模式架构292
    9.4基于模拟的搜索293
    9.4.1朴素蒙特卡罗搜索294
    9.4.2蒙特卡罗树搜索294
    9.4.3时间差分搜索295
    第10章分层强化学习298
    10.1简介298
    10.2选项框架299
    10.2.1战略专注作家300
    10.2.2选项-批判者结构303
    10.3封建制强化学习305
    10.3.1封建制网络305
    10.3.2离线策略修正307
    10.4其他工作309
    第11章多智能体强化学习315
    11.1简介315
    11.2优化和均衡316
    11.2.1纳什均衡317
    11.2.2关联性均衡318
    11.2.3斯塔克尔伯格博弈320
    11.3竞争与合作321
    11.3.1合作321
    11.3.2零和博弈321
    11.3.3同时决策下的竞争322
    11.3.4顺序决策下的竞争323
    11.4博弈分析架构324
    第12章并行计算326
    12.1简介326
    12.2同步和异步327
    12.3并行计算网络329
    12.4分布式强化学习算法330
    12.4.1异步优势Actor-Critic330
    12.4.2GPU/CPU混合式异步优势Actor-Critic332
    12.4.3分布式近端策略优化333
    12.4.4重要性加权的行动者-学习者结构和可扩展高效深度强化学习336
    12.4.5Ape-X、回溯-行动者和分布式深度循环回放Q网络338
    12.4.6Gorila340
    12.5分布式计算架构340
    应用部分343
    第13章Learning to Run344
    13.1NeurIPS 2017挑战:Learning to Run344
    13.1.1环境介绍344
    13.1.2安装346
    13.2训练智能体347
    13.2.1并行训练348
    13.2.2小技巧351
    13.2.3学习结果352
    第14章鲁棒的图像增强354
    14.1图像增强354
    14.2用于鲁棒处理的强化学习356
    第15章AlphaZero366
    15.1简介366
    15.2组合博弈367
    15.3蒙特卡罗树搜索370
    15.4AlphaZero:棋类游戏的通用算法376
    第16章模拟环境中机器人学习388
    16.1机器人模拟389
    16.2强化学习用于机器人任务405
    16.2.1并行训练407
    16.2.2学习效果407
    16.2.3域随机化408
    16.2.4机器人学习基准409
    16.2.5其他模拟器409
    第17章Arena:多智能体强化学习平台412
    17.1安装413
    17.2用Arena开发游戏413
    17.2.1简单的单玩家游戏414
    17.2.2简单的使用奖励机制的双玩家游戏416
    17.2.3高级设置420
    17.2.4导出二进制游戏424
    17.3MARL训练427
    17.3.1设置X-Server427
    17.3.2进行训练429
    17.3.3可视化431
    17.3.4致谢431
    第18章深度强化学习应用实践技巧433
    18.1概览:如何应用深度强化学习433
    18.2实现阶段434
    18.3训练和调试阶段440
    总结部分445
    附录A算法总结表446
    附录B算法速查表451
    B.1深度学习451
    B.1.1随机梯度下降451
    B.1.2Adam优化器452
    B.2强化学习452
    B.2.1赌博机452
    B.2.2动态规划453
    B.2.3蒙特卡罗454
    B.3深度强化学习458
    B.4高等深度强化学习467
    B.4.1模仿学习467
    B.4.2基于模型的强化学习468
    B.4.3分层强化学习470
    B.4.4多智能体强化学习471
    B.4.5并行计算472
    附录C中英文对照表476

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购