《【正版】动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门零基y》张伟楠,沈键,俞勇著【摘要书评在线阅读】-苏宁易购图书

云钻刮券活动规则

活动时间

活动自2017年6月2日上线，敬请关注云钻刮券活动规则更新。

活动形式

会员打开苏宁易购wap端、PC端、苏宁易购APP端方可参与活动。
活动方式为云钻刮券，每次刮券需要扣除200云钻。奖励分为无敌券和店铺云券两种，100%刮出无敌券，最低2元。店铺券由店铺提供，用户可以根据购物需求，在无敌券和店铺云券之间二选一。如因为网络、用户关闭等原因，造成页面关闭，导致用户没有或无法选择，系统将在5分钟内自动按照获得的无敌券面额发放到用户账户。
每人每天参与刮券次数上限为1次。活动每日限量，如用户参与时已达到活动最高上限，则不能再继续参与，次日可以继续参与。
如会员在刮券时选择了店铺云券，券发至账户后则无法再更改为平台的无敌券；如会员在刮券时选择了平台的无敌券，券发至账户后则无法再更改为店铺云券。
云钻刮券获得的不固定面值的券，会随机获得无敌券：2~2.2元、5元、10元、20元、50元的无敌券或不同面额的店铺云券。
券是否成功发放，可在“我的优惠券”中查询。

其他

如活动受政府机关指令需要停止举办的，或活动遭受严重网络攻击需暂停举办的，或者系统故障导致的其它意外问题，苏宁无需为此承担赔偿或者进行补偿。

券使用规则

不同面额的无敌券有不同的使用门槛，2~2.2元、5元、10元、20元、50元无敌券为无门槛使用，具体以实际发放券说明为准。配送方式仅限选择配送使用，不能抵扣运费部分。
用户刮券获得的店铺云券可与店铺内领取的店铺易券叠加使用。
店铺云券使用门槛等具体信息以商家在其店铺内的设置使用说明为准。
无敌券可用于单件商品的付款，也可用于购物车合并下单付款，同时支持在跨店铺订单中使用。店铺云券仅可使用在指定店铺中，注：部分店铺活动商品不支持用券，以订单实际提交为准。
云钻刮券获得的无敌券可以购买大聚惠、抢购、团购、手机专享价，但不可购买闪拍、预售、S码、名品特卖、海外购、秒杀、虚拟产品、法律规定限制产品如一段奶粉（包括但不仅限列出的商品）等、云钻加钱兑及云钻全额兑。
在购物时，点击购买后，页面会提示可使用易购券，只要点击选择易购券即可抵用扣除对应金额。云钻刮券获得无敌券或店铺云券使用时可用于抵扣商品金额，不能抵扣运费、运费险、增值服务等非商品金额。
云钻刮券获得的无敌券或店铺云券可与店铺页面领取的店铺易券叠加使用，付款时默认优先使用力度较大的店铺优惠券，如使用店铺易券后的订单金额仍然满足云钻刮券所获得店铺云券使用条件，可继续叠加使用店铺云券。（举例：店铺在页面设置满199减50元的店铺易券，同时用户在店铺刮券获得一张满20元减20元的店铺云券，如商品订单金额为200元，会员在用已使用领取的50元店铺易券情况下，仍然可以使用云钻刮券获得20元店铺云券）
云钻刮券获得的无敌券或店铺云券不得提现，不得转赠他人，不得为他人付，不得拆分使用。
一个订单最多使用6张易购券。
云钻刮券获得的有效期为：自获得之日起7天内有效（部分活动券可能存在不同有效期，具体详见“我的优惠券”内易购券有效期说明）。
在获取和使用券过程中，如果出现违规行为（如作弊领取、恶意套现、刷取信誉、虚假交易等），苏宁将取消用户的中奖资格，并有权撤销违规交易、收回易购券（含已使用的易购券及未使用的易购券）,必要时追究法律责任。
使用易购券的订单若交易未成功或发生退款及售后，在交易所使用的易购券有效期内订单取消完成的，易购券将退回用户账户，退回后的易购券有效期不变。如在使用的易购券有效期之外发生退款，所使用的券退回当天有效，过期不予退还。如发生售后退款，易购券退回当天有效，过期不予退还。

友一个图书专营店

商品参数

作者：张伟楠,沈键,俞勇著
出版社：人民邮电出版社
出版时间：2022-05
ISBN：9782047772791
版权提供：人民邮电出版社

店铺公告

为保障消费者合理购买需求及公平交易机会，避免因非生活消费目的的购买货囤积商品，抬价转售等违法行为发生，店铺有权对异常订单不发货且不进行赔付。异常订单：包括但不限于相同用户ID批量下单，同一用户（指不同用户ID，存在相同/临近/虚构收货地址，或相同联系号码，收件人，同账户付款人等情形的）批量下单（一次性大于5本），以及其他非消费目的的交易订单。

温馨提示：请务必当着快递员面开箱验货，如发现破损，请立即拍照拒收，如验货有问题请及时联系在线客服处理，（如开箱验货时发现破损，所产生运费由我司承担，一经签收即为货物完好，如果您未开箱验货，一切损失就需要由买家承担，所以请买家一定要仔细验货），

关于退货运费：对于下单后且物流已发货货品在途的状态下，原则上均不接受退货申请，如顾客原因退货需要承担来回运费，如因产品质量问题（非破损问题）可在签收后，联系在线客服。

本店存在书、古旧书、收藏书、二手书等特殊商品，因受采购成本限制,可能高于定价销售，明码标价，介意者勿拍!

1.书籍因稀缺可能导致售价高于定价,图书实际定价参见下方详情内基本信息,请买家看清楚且明确后再拍，避免价格争议!

2.店铺无纸质均开具电子，请联系客服开具电子版

内容介绍

本书系统地介绍了强化学习的原理和实现，是*本理论扎实、落地性强的图书。本书*含3个*分：第**分为强化学习基础，讲解强化学习的基础概念和表格型强化学习方法；第二*分为强化学习进*，讨论深度强化学习的思维方式、深度*值函数和深度策略学习方法；第三*分为强化学习前沿，介绍学术界在深度强化学习*域的主要关注方向和前沿算法。同时，本书提供配套的线上代码实践平台，展示源码的编写和运行过程，让读者进*步掌握强化学习算法的运行机制。本书理论与实践并重，在介绍强化学习理论的同时，辅之以线上代码实践平台，帮助读者通过实践加深对理论的理解。本书适合对强化学习感兴趣的*校学生、教师，以及相关行业的开发和研究人员阅读、实践。

第 **分强化学习基础
第 * 章初探强化学习 2
*.* 简介 2
*.2 什么是强化学习 2
*.3 强化学习的环境 4
*.4 强化学习的目标 4
*.5 强化学习中的数据 5
*.6 强化学习的**性 6
*.7 小结 6
第 2 章多臂老虎机问题 7
2.* 简介 7
2.2 问题介绍 7
2.2.* 问题定义 7
2.2.2 形式化描述 8
2.2.3 累积懊悔 8
2.2.4 估计期望奖励 8
2.3 探索与利用的平衡 *0
2.4 -贪婪算法 **
2.5 上置信界算法 *4
2.6 汤普森采样算法 *6
2.7 小结 *8
2.8 参考文献 *8
第 3 章马尔可夫决策过程 *9
3.* 简介 *9
3.2 马尔可夫过程 *9
3.2.* 随机过程 *9
3.2.2 马尔可夫性质 *9
3.2.3 马尔可夫过程 20
3.3 马尔可夫奖励过程 2*
3.3.* 回报 2*
3.3.2 *值函数 22
3.4 马尔可夫决策过程 24
3.4.* 策略 25
3.4.2 状态*值函数 25
3.4.3 动作*值函数 25
3.4.4 贝尔曼期望方程 25
3.5 蒙*卡洛方法 28
3.6 占用度量 3*
3.7 最*策略 32
3.8 小结 33
3.9 参考文献 33
第 4 章动态规划算法 34
4.* 简介 34
4.2 悬崖漫步环境 34
4.3 策略迭代算法 36
4.3.* 策略评估 36
4.3.2 策略提* 36
4.3.3 策略迭代 37
4.4 *值迭代算法 40
4.5 冰湖环境 42
4.6 小结 45
4.7 扩展阅读：收敛性证明 45
4.7.* 策略迭代 45
4.7.2 *值迭代 45
4.8 参考文献 46
第 5 章时序差分算法 47
5.* 简介 47
5.2 时序差分 48
5.3 Sarsa 算法 48
5.4 多步 Sarsa 算法 53
5.5 Q-learning 算法 56
5.6 小结 60
5.7 扩展阅读：Q-learning 收敛性证明 6*
5.8 参考文献 62
第 6 章 Dyna-Q 算法 63
6.* 简介 63
6.2 Dyna-Q 63
6.3 Dyna-Q 代码实践 64
6.4 小结 69
6.5 参考文献 69
第二*分强化学习进*
第 7 章 DQN算法 72
7.* 简介 72
7.2 车杆环境 72
7.3 DQN 73
7.3.* 经验回放 74
7.3.2 目标网络 74
7.4 DQN代码实践 75
7.5 以图像作为输入的DQN算法 79
7.6 小结 80
7.7 参考文献 80
第 8 章 DQN改进算法 8*
8.* 简介 8*
8.2 Double DQN 8*
8.3 Double DQN代码实践 82
8.4 Dueling DQN 88
8.5 Dueling DQN代码实践 90
8.6 小结 93
8.7 扩展阅读：对Q值过*估计的定量分析 93
8.8 参考文献 94
第 9 章策略梯度算法 95
9.* 简介 95
9.2 策略梯度 95
9.3 REINFORCE 96
9.4 REINFORCE代码实践 97
9.5 小结 *00
9.6 扩展阅读：策略梯度证明 *00
9.7 参考文献 *02
第 *0 章 Actor-Critic算法 *03
*0.* 简介 *03
*0.2 Actor-Critic *03
*0.3 Actor-Critic代码实践 *05
*0.4 小结 *08
*0.5 参考文献 *08
第 ** 章 TRPO算法 *09
**.* 简介 *09
**.2 策略目标 *09
**.3 近似求解 ***
**.4 共轭梯度 **2
**.5 线性搜索 **2
**.6 广义*势估计 **3
**.7 TRPO代码实践 **4
**.8 小结 *22
**.9 参考文献 *23
第 *2 章 PPO算法 *24
*2.* 简介 *24
*2.2 PPO-惩罚 *24
*2.3 PPO-截断 *25
*2.4 PPO代码实践 *25
*2.5 小结 *3*
*2.6 参考文献 *32
第 *3 章 DDPG算法 *33
*3.* 简介 *33
*3.2 DDPG *33
*3.3 DDPG代码实践 *35
*3.4 小结 *40
*3.5 扩展阅读：确定性策略梯度定理的证明 *40
*3.6 参考文献 *4*
第 *4 章 SAC算法 *42
*4.* 简介 *42
*4.2 *大熵强化学习 *42
*4.3 Soft策略迭代 *43
*4.4 SAC *43
*4.5 SAC代码实践 *45
*4.6 小结 *54
*4.7 参考文献 *55
第三*分强化学习前沿
第 *5 章模仿学习 *58
*5.* 简介 *58
*5.2 行为克隆 *59
*5.3 生成对抗模仿学习 *59
*5.4 代码实践 *60
*5.4.* 生成*家数据 *60
*5.4.2 行为克隆的代码实践 *63
*5.4.3 生成对抗模仿学习的代码实践 *65
*5.5 小结 *67
*5.6 参考文献 *68
第 *6 章模型预测控制 *69
*6.* 简介 *69
*6.2 打靶法 *69
*6.2.* 随机打靶法 *70
*6.2.2 交叉熵方法 *70
*6.3 PETS算法 *7*
*6.4 PETS算法实践 *72
*6.5 小结 *79
*6.6 参考文献 *79
第 *7 章基于模型的策略*化 *80
*7.* 简介 *80
*7.2 MBPO算法 *80
*7.3 MBPO代码实践 *8*
*7.4 小结 *92
*7.5 拓展阅读：MBPO理论分析 *92
*7.5.* 性能提*的单调性*障 *92
*7.5.2 模型推演长度 *92
*7.6 参考文献 *93
第 *8 章离线强化学习 *94
*8.* 简介 *94
*8.2 批量限制 Q-learning算法 *95
*8.3 *守 Q-learning算法 *97
*8.4 CQL代码实践 *99
*8.5 小结 208
*8.6 扩展阅读 208
*8.7 参考文献 2*0
第 *9 章目标导向的强化学习 2**
*9.* 简介 2**
*9.2 问题定义 2**
*9.3 HER算法 2*2
*9.4 HER代码实践 2*3
*9.5 小结 22*
*9.6 参考文献 22*
第 20 章多智能体强化学习入门 222
20.* 简介 222
20.2 问题建模 223
20.3 多智能体强化学习的基本求解范式 223
20.4 IPPO算法 223
20.5 IPPO代码实践 224
20.6 小结 228
20.7 参考文献 229
第 2* 章多智能体强化学习进* 230
2*.* 简介 230
2*.2 MADDPG算法 230
2*.3 MADDPG代码实践 232
2*.4 小结 240
2*.5 参考文献 240
总结与展望 24*
总结 24*
展望：克服强化学习的落地挑战 24*
中英文术语对照表与符号表 244
中英文术语对照表 244
符号表 246

作者介绍

张伟楠，上海交通大学副教授，博士生导师，ACM班机器学习、强化学习课程授课老师，吴文俊人工智能*秀青年奖、达摩院青橙奖得主，获得中*科协“青年人才托举工程”支持。他的科研*域*括强化学习、数据挖掘、知识图谱、深度学习以及这些技术在推荐系统、搜索引擎、文本分析等场景中的应用。他在*际会议和期刊上发表了*00余篇相关*域的学术论文，于20*6年在英*伦敦大学学院（UCL）计算机系获得博士学位。沈键，上海交通大学APEX实验室博士生，师从俞勇教授，研究方向为深度学习、强化学习和教育数据挖掘。在攻读博士期间，他以第*作者身份发表机器学习*际会议NeurIPS、AAAI论文，参与发表多篇机器学习和数据挖掘*际会议（*括ICML、IJCAI、SIGIR、KDD、AISTATS等）论文，并担任多个*际会议和SCI学术期刊的审稿人。俞勇，享受*务院*殊津贴*家，教学*，上海交通大学*聘教授，APEX实验室主任，上海交通大学ACM班*始人。俞勇教授曾获得“*家*层次人才*殊支持计划”教学*、“上海市教学*奖”“**师德标兵”“上海交通大学校长奖”和“最受学生欢迎教师”等荣誉。他于20*8年*办了伯禹人工智能学院，在上海交通大学ACM班人工智能*业课程体系的基础上，对AI课程体系进行*新，*力于培养*越的AI算法工程师和研究员。

商品详情
内容简介

查看全部评论>

服务体验

[正版]动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门零基础

正版图书品质保障

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

友一个图书专营店

售后保障

最近浏览

猜你喜欢

服务体验

[正版]动手学强化学习 机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门零基础

正版图书 品质保障

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

计算机/网络排行榜

友一个图书专营店

售后保障

最近浏览

猜你喜欢

[正版]动手学强化学习机器学习实战人工智能深度学习程序设计神经网络前端开发PyTorch框架python编程入门零基础

正版图书品质保障