《【正版】【正版】深度强化学习刘全清华大学出版社计算机科学与技术深度学习PyTorch 人工智大》刘全、黄志刚著【摘要书评在线阅读】-苏宁易购图书

如梦图书专营店

商品参数

作者：刘全、黄志刚著
出版社：清华大学出版社
开本：16开
ISBN：9788686261485
版权提供：清华大学出版社

店铺公告

为保障消费者合理购买需求及公平交易机会，避免因非生活消费目的的购买货囤积商品，抬价转售等违法行为发生，店铺有权对异常订单不发货且不进行赔付。异常订单：包括但不限于相同用户ID批量下单，同一用户（指不同用户ID，存在相同/临近/虚构收货地址，或相同联系号码，收件人，同账户付款人等情形的）批量下单（一次性大于5本），以及其他非消费目的的交易订单。温馨提示：请务必当着快递员面开箱验货，如发现破损，请立即拍照拒收，如验货有问题请及时联系在线客服处理，（如开箱验货时发现破损，所产生运费由我司承担，一经签收即为货物完好，如果您未开箱验货，一切损失就需要由买家承担，所以请买家一定要仔细验货），关于退货运费：对于下单后且物流已发货货品在途的状态下，原则上均不接受退货申请，如顾客原因退货需要承担来回运费，如因产品质量问题（非破损问题）可在签收后，联系在线客服。

书名：	深度强化学习
出版社：	清华大学出版社
出版日期	2021
ISBN号：	9787302578208

本书基于PyTorch框架，用通俗易懂的语言深入浅出地介绍了强化学习的基本原理，包括传统的强化学习基本方法和目前流行的深度强化学习方法。在对强化学习任务建模的基础上，首先介绍动态规划法、蒙特卡洛法、时序差分法等表格式强化学习方法，然后介绍在PyTorch框架下，DQN、DDPG、A3C等基于深度神经网络的大规模强化学习方法。全书以一个扫地机器人任务贯穿始终，并给出具有代表性的实例，增加对每个算法的理解。全书配有PPT和视频讲解，对相关算法和实例配有代码程序。

全书共分三部分：第一和第二部分（第1～8章）为表格式强化学习部分，着重介绍深度强化学习概述、环境的配置、数学建模、动态规划法、蒙特卡洛法、时序差分法、n步时序差分法、规划和蒙特卡洛树搜索；第三部分（第9～14章）为深度强化学习部分，着重介绍深度学习、PyTorch与神经网络、深度Q网络、策略梯度、基于确定性策略梯度的深度强化学习、AC框架的拓展。全书提供了大量的应用实例，每章章末均附有习题。

本书既适合作为高等院校计算机、软件工程、电子工程等相关专业高年级本科生、研究生的教材，又可为人工智能、机器学习等领域从事项目开发、科学研究的人员提供参考。

刘全，苏州大学教授，博士生导师。吉林大学博士, 南京大学软件新技术国家重点实验室博士后。苏州市人工智能学会常务理事、秘书长。2006年开始从事强化学习

领域的教学和科研工作。主讲研究生、本科生《强化学习》及相关课程16次。主持“深度强化学习方法研究”、“部分感知强化学习理论及方法”、“基于tableau的逻辑强化学习研究”等国家、省部级项目10余项。目前主要研究方向为：深度强化学习。

2012年获江苏省教工委优秀共产党员称号。2011年、2012年入选江苏省“六大人才”、江苏省“333”人才培养计划。

强化学习是目前机器学习领域最热门的方向之一，本书经多年的实践教学经验的积累，形成了一套完整的教学体系。并结合流行的深度学习框架PyTorch，该书在理论和应用上都是较先进的。本书理论结合实践，深入浅出地讲解相关算法和实例。

第一部分：预备知识及环境安装

第1章深度强化学习概述

1.1引言

1.2深度学习

1.3强化学习

1.4深度强化学习

1.5小结

1.6习题

第2章环境的配置

2.1PyTorch简介

2.2PyTorch和TensorFlow

2.3强化学习的开发环境

2.3.1Anaconda环境搭建

2.3.2Anaconda环境管理

2.3.3PyTorch的安装

2.3.4Jupyter Notebook的安装

2.3.5Jupyter Notebook的使用

2.3.6Gym的安装

2.3.7Gym案例

2.4小结

2.5习题

第二部分：表格式强化学习

第3章数学建模

3.1马尔可夫决策过程

3.2基于模型与无模型

3.3求解强化学习任务

3.3.1策略

3.3.2奖赏与回报

3.3.3值函数与贝尔曼方程

3.3.4最优策略与最优值函数

3.4探索与利用

3.5小结

3.6习题

第4章动态规划法

4.1策略迭代

4.1.1策略评估

4.1.2策略迭代

4.2值迭代

4.3广义策略迭代

4.4小结

4.5习题

第5章蒙特卡洛法

5.1蒙特卡洛法的基本概念

5.1.1MC的核心要素

5.1.2MC的特点

5.2蒙特卡洛预测

5.3蒙特卡洛评估

5.4蒙特卡洛控制

5.4.1基于探索始点的蒙特卡洛控制

5.4.2同策略蒙特卡洛控制

5.4.3异策略与重要性采样

5.4.4蒙特卡洛中的增量式计算

5.4.5异策略蒙特卡洛控制

5.5小结

5.6习题

第6章时序差分法

6.1时序差分预测

6.2时序差分控制

6.2.1Sarsa算法

6.2.2QLearning算法

6.2.3期望Sarsa算法

6.3最大化偏差与Double QLearning

6.3.1最大化偏差

6.3.2Double Learning

6.3.3Double QLearning

6.4DP、MC和TD算法的关系

6.4.1穷举式遍历与轨迹采样

6.4.2期望更新与采样更新

6.5小结

6.6习题

第7章n步时序差分法

7.1n步TD预测及资格迹

7.1.1n步TD预测

7.1.2前向TD(λ)算法

7.1.3后向TD(λ)算法

7.2n步TD控制及其资格迹实现

7.2.1同策略n步Sarsa算法

7.2.2Sarsa(λ)算法

7.2.3异策略n步Sarsa算法

7.2.4n步Tree Backup算法

7.3小结

7.4习题

第8章规划和蒙特卡洛树搜索

8.1模型、学习与规划

8.1.1模型

8.1.2学习

8.1.3规划

8.2DynaQ结构及其算法改进

8.2.1DynaQ架构

8.2.2优先遍历

8.2.3模拟模型的错误性

8.3决策时间规划

8.3.1启发式搜索

8.3.2预演算法

8.3.3蒙特卡洛树搜索

8.4小结

8.5习题

第三部分：深度强化学习

第9章深度学习

9.1传统神经网络

9.1.1感知器神经元

9.1.2激活函数

9.2反向传播算法

9.2.1前向传播

9.2.2权重调整

9.2.3BP算法推导

9.3卷积神经网络

9.3.1卷积神经网络核心思想

9.3.2卷积神经网络结构

9.4小结

9.5习题

第10章PyTorch与神经网络

10.1PyTorch中的Tensor

10.1.1直接构造法

10.1.2间接转换法

10.1.3Tensor的变换

10.2自动梯度计算

10.2.1标量对标量的自动梯度计算

10.2.2向量对向量的自动梯度计算

10.2.3标量对向量（或矩阵）的自动梯度计算

10.3神经网络的模型搭建和参数优化

10.3.1模型的搭建

10.3.2激活函数

10.3.3常用的损失函数

10.3.4模型的保存和重载

10.4小结

10.5习题

第11章深度Q网络

11.1DQN算法

11.1.1核心思想

11.1.2训练算法

11.1.3实验结果与分析

11.2Double DQN算法

11.2.1核心思想

11.2.2实验结果与分析

11.3Prioritized DQN

11.3.1核心思想

11.3.2训练算法

11.3.3实验结果与分析

11.4Dueling DQN

11.4.1训练算法

11.4.2实验结果与分析

11.5小结

11.6习题

第12章策略梯度法

12.1随机策略梯度法

12.1.1梯度上升算法

12.1.2策略梯度法与值函数逼近法的比较

12.2策略优化方法

12.2.1情节式策略目标函数

12.2.2连续式策略目标函数

12.2.3策略梯度定理

12.3策略表达形式

12.3.1离散动作空间策略参数化

12.3.2连续动作空间策略参数化

12.4蒙特卡洛策略梯度法

12.4.1REINFORCE

12.4.2REINFORCE算法的实验结果与分析

12.4.3带基线的REINFORCE

12.4.4带基线的REINFORCE算法的实验结果与分析

12.5行动者评论家

12.6确定性策略梯度定理

12.7小结

12.8习题

第13章基于确定性策略梯度的深度强化学习

13.1DDPG算法

13.1.1算法背景

13.1.2核心思想

13.1.3DDPG算法

13.2DDPG算法的实验结果与分析

13.2.1DDPG算法网络结构与超参数设置

13.2.2实验环境

13.2.3实验结果与分析

13.3双延迟确定性策略梯度算法

13.3.1过高估计问题解决方案

13.3.2累计误差问题解决方案

13.3.3TD3算法

13.3.4实验结果与分析

13.4小结

13.5习题

第14章基于AC框架的深度强化学习

14.1行动者评论家框架

14.2A3C算法

14.2.1算法的核心思想

14.2.2异步1步Q学习算法

14.2.3A3C算法

14.2.4实验结果与分析

14.3A2C算法

14.3.1A2C算法

14.3.2实验结果与分析

14.4小结

14.5习题

参考文献

近年来，强化学习和深度学习相结合形成的深度强化学习方法已经是人工智能领域中新的研究热点。在许多需要智能体（Agent）同时具备感知和决策能力的场景中，深度强化学习方法具备了与人类相媲美的智能。其中深度学习（Deep Learning，DL）和强化学习（Reinforcement Learning，RL）是机器学习领域中最重要的两个研究方向。深度学习方法侧重于对事物的感知与表达，其基本思想是面向高维数据，通过多层的网络结构和非线性变换，组合低层特征，形成抽象的、易于区分的高层表示，以发现数据的分布式特征表示。深度学习已经在图像识别与理解、智能语音、机器翻译等领域取得了非凡的成果。强化学习与基于监督训练的深度学习不同，更加侧重于学习解决问题的策略，其基本思想是智能体通过试错的机制与环境进行不断地交互，从而最大化智能体从环境中获得的累计奖赏值。强化学习已经广泛应用于游戏博弈、机器人操控、参数优化等领域。传统的强化学习算法主要针对输入状态规模较小的决策问题，这种小规模强化学习算法可通过表格式的存储方式来评价每个状态或者状态动作对的好坏。然而当状态或动作空间维度很高时（例如图片或视频数据），传统的强化学习方法会因缺乏感知和泛化高维输入数据的能力而导致算法性能急剧下降。

随着人类社会的飞速发展，未来的人工智能系统不仅需要具备很强的感知与表达能力，而且需要拥有一定的决策能力。因此，人们将具有感知能力的深度学习和具有决策能力的强化学习相结合，形成直接从输入原始数据到输出动作控制的完整智能系统，这就是深度强化学习（Deep Reinforcement Learning，DRL）方法。该方法从本质上解决了传统强化学习智能体缺乏感知和泛化高维度输入数据能力的问题，从而适用于一系列大规模的决策任务。例如，谷歌旗下的DeepMind公司将深度学习中的卷积神经网络（Convolutional Neural Network，CNN）和强化学习中Q学习算法（QLearning）相结合，提出深度Q网络（Deep QNetwork，DQN）模型。该模型可直接将原始的游戏视频画面作为输入状态，游戏得分作为强化学习中的奖赏信号，并通过深度Q学习算法进行训练。最终该模型在许多Atari 2600视频游戏上的表现已经赶上甚至超过了专业人类玩家的水平。该项研究工作是深度强化学习方法形成的重要标志。此后，DeepMind团队又开发出一款被称为AlphaGo的围棋算法。该算法一方面利用深度学习通过有信号的监督来模拟人类玩家的走子方式，另一方面利用强化学习来进行自我对抗，从而进一步提高智能体取胜的概率。最终AlphaGo以悬殊的比分先后击败当时的欧洲围棋冠军和世界围棋冠军。深度强化学习的基本思想可以描述为：利用深度学习的强大感知能力来提取大规模输入数据的抽象特征，并以此特征为依据进行自我激励的强化学习，直至求解出问题的最优策略。AlphaGo事件正式将深度强化学习技术推向了一个高峰。随着国内外对于深度强化学习理论和应用的不断完善，目前深度强化学习技术已经在游戏、机器人操控、自动驾驶、自然语言处理、参数优化等领域得到了广泛的应用。此外，深度强化学习也被认为是实现通用人工智能（General Artificial Intelligence，GAI）的一个重要途径。

本书深入浅出、内容翔实全面，全书配有PPT和视频讲解，对相关算法和实例配有代码程序。本书既适合强化学习零基础的本科生、研究生入门学习，也适合相关科研人员研究参考。

本书作者多年来一直从事强化学习的研究和教学工作，在国家自然科学基金、博士后基金、教育部科学研究重点项目、软件新技术与产业化协同创新中心、江苏高校优势学科建设工程资助项目、江苏省高校自然科学基金项目、苏州大学研究生精品课程项目等的资助下，提出了一些深度强化学习理论，解决了一系列核心技术，并将这些理论和方法用于解决实际问题。

本书总体设计、修改和审定由刘全完成，参加撰写的有黄志刚、翟建伟、吴光军、徐平安、欧阳震、寇俊强、郝少璞、李晓牧、顾子贤、叶倩等，对以上作者付出的艰辛劳动表示感谢！本书的撰写参考了国内外有关研究成果，他们的丰硕成果和贡献是本书学术思想的重要来源，在此对涉及的专家和学者表示诚挚的谢意。本书也得到了苏州大学计算机学院及智能计算与认知软件课题组部分老师和同学们的大力支持和协助，在此一并表示感谢。他们是：朱斐、凌兴宏、伏玉琛、章宗长、章晓芳、徐云龙、陈冬火、王辉、金海东、王浩、曹家庆、张立华、徐进、梁斌、姜玉斌、闫岩、胡智慧、陈红名、吴金金、李斌、何斌、时圣苗、张琳琳、范静宇、傲天宇、李洋、张建行、代珊珊、申怡、王逸勉、徐亚鹏、栗军伟、乌兰、王卓、杨皓麟、施眉龙、张雄振等。

机器学习是一个快速发展、多学科交叉的研究方向，其理论及应用均存在大量的亟待解决的问题。限于作者的水平，书中难免有不妥和错误之处，敬请同行专家和读者指正。

刘全

2021年1月

商品详情
内容简介

查看全部评论>

服务体验

[正版][正版]深度强化学习刘全清华大学出版社计算机科学与技术深度学习PyTorch 人工智能

本店商品限购一件，多拍不发货，谢谢合作

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

如梦图书专营店

售后保障

最近浏览

猜你喜欢

服务体验

[正版][正版]深度强化学习 刘全 清华大学出版社 计算机科学与技术深度学习PyTorch 人工智能

本店商品限购一件，多拍不发货，谢谢合作

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

计算机/网络排行榜

如梦图书专营店

售后保障

最近浏览

猜你喜欢

[正版][正版]深度强化学习刘全清华大学出版社计算机科学与技术深度学习PyTorch 人工智能