《【正版新书】深度强化学习理论与实践龙强、章胜清华大学出版社机器学习－研深》龙强、章胜著【摘要书评在线阅读】-苏宁易购图书

云钻刮券活动规则

活动时间

活动自2017年6月2日上线，敬请关注云钻刮券活动规则更新。

活动形式

会员打开苏宁易购wap端、PC端、苏宁易购APP端方可参与活动。
活动方式为云钻刮券，每次刮券需要扣除200云钻。奖励分为无敌券和店铺云券两种，100%刮出无敌券，最低2元。店铺券由店铺提供，用户可以根据购物需求，在无敌券和店铺云券之间二选一。如因为网络、用户关闭等原因，造成页面关闭，导致用户没有或无法选择，系统将在5分钟内自动按照获得的无敌券面额发放到用户账户。
每人每天参与刮券次数上限为1次。活动每日限量，如用户参与时已达到活动最高上限，则不能再继续参与，次日可以继续参与。
如会员在刮券时选择了店铺云券，券发至账户后则无法再更改为平台的无敌券；如会员在刮券时选择了平台的无敌券，券发至账户后则无法再更改为店铺云券。
云钻刮券获得的不固定面值的券，会随机获得无敌券：2~2.2元、5元、10元、20元、50元的无敌券或不同面额的店铺云券。
券是否成功发放，可在“我的优惠券”中查询。

其他

如活动受政府机关指令需要停止举办的，或活动遭受严重网络攻击需暂停举办的，或者系统故障导致的其它意外问题，苏宁无需为此承担赔偿或者进行补偿。

券使用规则

不同面额的无敌券有不同的使用门槛，2~2.2元、5元、10元、20元、50元无敌券为无门槛使用，具体以实际发放券说明为准。配送方式仅限选择配送使用，不能抵扣运费部分。
用户刮券获得的店铺云券可与店铺内领取的店铺易券叠加使用。
店铺云券使用门槛等具体信息以商家在其店铺内的设置使用说明为准。
无敌券可用于单件商品的付款，也可用于购物车合并下单付款，同时支持在跨店铺订单中使用。店铺云券仅可使用在指定店铺中，注：部分店铺活动商品不支持用券，以订单实际提交为准。
云钻刮券获得的无敌券可以购买大聚惠、抢购、团购、手机专享价，但不可购买闪拍、预售、S码、名品特卖、海外购、秒杀、虚拟产品、法律规定限制产品如一段奶粉（包括但不仅限列出的商品）等、云钻加钱兑及云钻全额兑。
在购物时，点击购买后，页面会提示可使用易购券，只要点击选择易购券即可抵用扣除对应金额。云钻刮券获得无敌券或店铺云券使用时可用于抵扣商品金额，不能抵扣运费、运费险、增值服务等非商品金额。
云钻刮券获得的无敌券或店铺云券可与店铺页面领取的店铺易券叠加使用，付款时默认优先使用力度较大的店铺优惠券，如使用店铺易券后的订单金额仍然满足云钻刮券所获得店铺云券使用条件，可继续叠加使用店铺云券。（举例：店铺在页面设置满199减50元的店铺易券，同时用户在店铺刮券获得一张满20元减20元的店铺云券，如商品订单金额为200元，会员在用已使用领取的50元店铺易券情况下，仍然可以使用云钻刮券获得20元店铺云券）
云钻刮券获得的无敌券或店铺云券不得提现，不得转赠他人，不得为他人付，不得拆分使用。
一个订单最多使用6张易购券。
云钻刮券获得的有效期为：自获得之日起7天内有效（部分活动券可能存在不同有效期，具体详见“我的优惠券”内易购券有效期说明）。
在获取和使用券过程中，如果出现违规行为（如作弊领取、恶意套现、刷取信誉、虚假交易等），苏宁将取消用户的中奖资格，并有权撤销违规交易、收回易购券（含已使用的易购券及未使用的易购券）,必要时追究法律责任。
使用易购券的订单若交易未成功或发生退款及售后，在交易所使用的易购券有效期内订单取消完成的，易购券将退回用户账户，退回后的易购券有效期不变。如在使用的易购券有效期之外发生退款，所使用的券退回当天有效，过期不予退还。如发生售后退款，易购券退回当天有效，过期不予退还。

句字图书专营店

商品参数

作者：龙强、章胜著
出版社：清华大学出版社
出版时间：1
开本：16开
ISBN：9785081239900
版权提供：清华大学出版社

书名：	深度强化学习理论与实践
出版社：	清华大学出版社
出版日期	2023
ISBN号：	9787302625544

本书比较全面、系统地介绍了深度强化学习的理论和算法，并配有大量的案例和编程实现。全书核心内容可以分为3部分，第一部分为经典强化学习，包括第2、3、4章，主要内容有动态规划法，蒙特卡洛法、时序差分法；第二部分为深度强化学习，包括第6、7、8章，主要内容有值函数近似法、策略梯度法、策略梯度法进阶；第三部分重点介绍了深度强化学习的经典应用——AlphaGo系列算法。另外，作为理论和算法的辅助，第1章介绍了强化学习的模型，第5章简单介绍了深度学习和PyTorch编程框架。

本书可以作为理工科大学相关专业研究生的学位课教材，也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材，还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。

龙强，博士、副教授、硕士研究生导师；就职于西南科技大学数理学院数据科学系，中国运筹学会终生会员；主要从事最优化理论与算法、机器学习算法研究；在国际国内学术期刊上发表论文20余篇，获批国家发明专利3项，主持和参与国家自然科学基金3项，参与国家社会科学基金1项；讲授“深度强化学习”“深度学习与神经网络”“算法设计与分析”“最优化理论与算法”“机器学习”等课程。

章胜，博士、副研究员、硕士研究生导师；就职于中国空气动力研究与发展中心，中国空气动力学学会会员；主要从事飞行器轨迹优化、非线性控制与智能控制研究。在国际及国内学术期刊上发表论文20篇，获批国家发明专利5项，主持和参与国家自然科学基金、国家重点基础研究发展计划等项目15项。

本书系统介绍深度强化学习的理论和算法，并配有大量的案例。全书核心内容可以分为3部分，第一部分为经典强化学习，主要内容有动态规划法，蒙特卡洛法、时序差分法；第二部分为深度强化学习，主要内容有值函数近似法、策略梯度法、策略梯度法进阶；第三部分重点介绍了深度强化学习的经典应用——AlphaGo系列算法。

★ 大多数每个算法配有一个或多个测试案例，便于读者理解理论和算法；

★ 每个案例都配有编程实现的代码，便于读者理论联系实际，并亲自上手实践；

★ 为减轻读者编写代码的难度，本书所有案例的代码都是可以独立运行的，并且尽量减少了对依赖包的使用。

本书源代码

配套资源

第1章强化学习的模型（156min）

1.1强化学习简介

1.1.1初识强化学习

1.1.2强化学习的历史

1.1.3强化学习与机器学习的关系

1.2强化学习的模型

1.2.1强化学习基本模型和要素

1.2.2强化学习的执行过程

1.2.3强化学习的数学模型——马尔可夫决策过程

1.2.4环境模型案例

1.3Gym介绍

1.3.1Gym简介

1.3.2Gym安装

1.3.3Gym的环境描述和案例

1.3.4在Gym中添加自编环境

1.3.5直接使用自编环境

第2章动态规划法（231min）

2.1动态规划法简介

2.2值函数和贝尔曼方程

2.2.1累积折扣奖励

2.2.2值函数

2.2.3贝尔曼方程

2.3策略评估

2.4策略改进

2.5最优值函数和最优策略

2.6策略迭代和值迭代

2.7动态规划法求解强化学习案例

第3章蒙特卡罗法（211min）

3.1蒙特卡罗法简介

3.2蒙特卡罗策略评估

3.2.1蒙特卡罗策略评估

3.2.2增量式蒙特卡罗策略评估

3.2.3蒙特卡罗策略评估案例

3.2.4蒙特卡罗和动态规划策略评估的对比

3.3蒙特卡罗强化学习

3.3.1蒙特卡罗策略改进

3.3.2起始探索蒙特卡罗强化学习

3.3.3ε贪婪策略蒙特卡罗强化学习

3.3.4蒙特卡罗强化学习案例

3.4异策略蒙特卡罗强化学习

3.4.1重要性采样

3.4.2异策略蒙特卡罗策略评估

3.4.3增量式异策略蒙特卡罗策略评估

3.4.4异策略蒙特卡罗强化学习

3.4.5异策略蒙特卡罗强化学习案例

3.5蒙特卡罗树搜索

3.5.1MCTS的基本思想

3.5.2MCTS的算法流程

3.5.3基于MCTS的强化学习算法

3.5.4案例和代码

第4章时序差分法（174min）

4.1时序差分策略评估

4.1.1时序差分策略评估原理

4.1.2时序差分策略评估算法

4.1.3时序差分策略评估案例

4.1.4时序差分策略评估的优势

4.2同策略时序差分强化学习

4.2.1Sarsa算法

4.2.2Sarsa算法案例

4.3异策略时序差分强化学习

4.3.1Qlearning算法

4.3.2期望Sarsa算法

4.3.3Double Qlearning算法

4.3.4Qlearning算法案例

4.4n步时序差分强化学习

4.4.1n步时序差分策略评估

4.4.2nstep Sarsa算法

4.5TD(λ)算法

4.5.1前向TD(λ)算法

4.5.2后向TD(λ)算法

4.5.3Sarsa(λ)算法

第5章深度学习与PyTorch（275min）

5.1从感知机到神经网络

5.1.1感知机模型

5.1.2感知机和布尔运算

5.2深度神经网络

5.2.1网络拓扑

5.2.2前向传播

5.2.3训练模型

5.2.4误差反向传播

5.3激活函数、损失函数和数据预处理

5.3.1激活函数

5.3.2损失函数

5.3.3数据预处理

5.4PyTorch深度学习软件包

5.4.1数据类型及类型的转换

5.4.2张量的维度和重组操作

5.4.3组装神经网络的模块

5.4.4自动梯度计算

5.4.5训练数据自由读取

5.4.6模型的搭建、训练和测试

5.4.7模型的保存和重载

5.5深度学习案例

5.5.1函数近似

5.5.2数字图片识别

第6章值函数近似算法（195min）

6.1线性值函数近似算法

6.1.1线性值函数近似时序差分算法

6.1.2特征函数

6.1.3线性值函数近似算法案例

6.2神经网络值函数近似法

6.2.1DQN算法原理

6.2.2DQN算法

6.2.3DQN算法案例

6.3Double DQN(DDQN)算法

6.4Prioritized Replay DQN算法

6.4.1样本优先级

6.4.2随机优先级采样

6.4.3样本重要性权重参数

6.4.4Prioritized Replay DQN算法流程

6.4.5Prioritized Replay DQN算法案例

6.5Dueling DQN算法

6.5.1Dueling DQN算法原理

6.5.2Dueling DQN算法案例

第7章策略梯度算法（176min）

7.1策略梯度算法的基本原理

7.1.1初识策略梯度算法

7.1.2策略函数

7.1.3策略目标函数

7.1.4策略梯度算法的框架

7.1.5策略梯度算法的评价

7.2策略梯度定理

7.2.1离散型策略梯度定理

7.2.2连续型策略梯度定理

7.2.3近似策略梯度和评价函数

7.3蒙特卡罗策略梯度算法(REINFORCE)

7.3.1REINFORCE的基本原理

7.3.2REINFORCE的算法流程

7.3.3REINFORCE随机梯度的严格推导

7.3.4带基线函数的REINFORCE

7.3.5REINFORCE实际案例及代码实现

7.4演员评论家策略梯度算法

7.4.1算法原理

7.4.2算法流程

7.4.3算法代码及案例

第8章策略梯度法进阶（135min）

8.1异步优势演员：评论家算法

8.1.1异步强化学习

8.1.2A3C算法

8.1.3A2C算法

8.1.4案例和程序

8.2深度确定性策略梯度算法

8.2.1DDPG的基本思想

8.2.2DDPG的算法原理

8.2.3DDPG的算法结构和流程

8.2.4案例和程序

8.3近端策略优化算法

8.3.1PPO的算法原理

8.3.2PPO的算法结构和流程

8.3.3案例和程序

8.4柔性演员评论家算法

8.4.1最大熵原理

8.4.2柔性Q学习

8.4.3SAC算法原理

8.4.4SAC算法结构和流程

8.4.5案例和程序

第9章深度强化学习案例： AlphaGo系列算法

9.1AlphaGo算法介绍

9.1.1AlphaGo中的深度神经网络

9.1.2AlphaGo中深度神经网络的训练

9.1.3AlphaGo的MCTS

9.1.4总结

9.2AlphaGo Zero算法介绍

9.2.1AlphaGo Zero的策略价值网络

9.2.2AlphaGo Zero的MCTS

9.2.3AlphaGo Zero的算法流程

9.3AlphaZero算法介绍

9.3.1从围棋到其他棋类需要解决的问题

9.3.2AlphaZero相对于AlphaGo Zero的改进与调整

9.3.3AlphaZero的算法流程

9.4MuZero算法介绍

9.4.1MuZero中的深度神经网络

9.4.2MuZero中的MCTS

9.4.3MuZero的算法流程

9.5AlphaGo系列算法的应用与启示

参考文献

商品详情
内容简介

查看全部评论>

服务体验

[正版新书] 深度强化学习理论与实践龙强、章胜清华大学出版社机器学习-研究

新商品上架

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

句字图书专营店

售后保障

最近浏览

猜你喜欢

服务体验

[正版新书] 深度强化学习理论与实践 龙强、章胜 清华大学出版社 机器学习-研究

新商品上架

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

计算机/网络排行榜

句字图书专营店

售后保障

最近浏览

猜你喜欢

[正版新书] 深度强化学习理论与实践龙强、章胜清华大学出版社机器学习-研究