由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
[正版]深度强化学数据与人工智能技术丛书)算法与PyTorch实战微课视频版 刘全黄志刚编 计算机控制仿真与人工
¥ ×1
店铺公告
为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。
温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货)。
关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。
部分:预备知识及环境安装
章深度强化学习概述
1.1引言
1.2深度学习
1.3强化学习
1.4深度强化学习
1.5小结
1.6习题
第2章环境的配置
2.1PyTorch简介
2.2PvTorch和TensorFlow
2.3强化学习的开发环境
2.3.1Anaconda环境搭建
2.3.2Anaconda环境管理
2.3.3PyTorch的安装
2.3.4JupyterNotebook的安装
2.3.5JupyterNotebook的使用
2.3.6Gym的安装
2.3.7Gym案例
2.4小结
2.5习题
第二部分:表格式强化学习
第3章数学建模
3.1马尔可夫决策过程
3.2基于模型与无模型
3.3求解强化学习任务
3.3.1策略
3.3.2奖赏与回报
3.3.3值函数与贝尔曼方程
3.3.4最优策略与最优值函数
3.4探索与利用
3.5小结
3.6习题
第4章动态规划法
4.1策略迭代
4.1.1策略评估
4.1.2策略迭代
4.2值迭代
4.3广义策略迭代
4.4小结
4.5习题
第5章蒙特卡洛法
5.1蒙特卡洛法的基本概念
5.1.1MC的核心要素
5.1.2MC的特点
5.2蒙特卡洛预测
5.3蒙特卡洛评估
5.4蒙特卡洛控制
5.4.1基于探索始点的蒙特卡洛控制
5.4.2同策略蒙特卡洛控制
5.4.3异策略与重要性采样
5.4.4蒙特卡洛中的增量式计算
5.4.5异策略蒙特卡洛控制
5.5小结
5.6习题
第6章时序差分法
6.1时序差分预测
6.2时序差分控制圆
6.2.1Sarsa算法
6.2.2Q-Learning算法
6.2.3期望sarsa算法
6.3优选化偏差与DoubleQ-Learning
6.3.1优选化偏差
6.3.2DoubleQ-Learning
6.3.3DoubleQ-Learning
6.4DP、MC和TD算法的关系
6.4.1穷举式遍历与轨迹采样
6.4.2期望更新与采样更新
6.5小结
6.6习题
第7章n-步时序差分法
7.1.ln-步TD预测及资格迹回
7.1.1n-步TD预测
7.1.2前向TD(λ)算法
7.1.3后向TD(λ)算法
7.2n-步TD控制及其资格迹实现
7.2.1同策略n-步Sarsa算法
7.2.2Sarsa(λ)算法
7.2.3异策略n-步Sarsa算法
7.2.4n-步TreeBackup算法
7.3小结
7.4习题
第8章规划和蒙特卡洛树搜索
8.1模型、学习与规划回
8.1.1模型
8.1.2学习
8.1.3规划
8.2Dyna-Q结构及其算法改进回
8.2.1Dyna-Q架构
8.2.2优先遍历
8.2.3模拟模型的错误性
8.3决策时间规划
8.3.1启发式搜索
8.3.2预演算法
8.3.3蒙特卡洛树搜索
8.4小结
8.5习题
第三部分:深度强化学习
第9章深度学习
9.1传统神经网络圆
9.1.1感知器神经元
9.1.2激活函数
9.2反向传播算法
9.2.1前向传播
9.2.2权重调整
9.2.3BP算法推导
9.3卷积神经网络
9.3.1卷积神经网络核心思想
9.3.2卷积神经网络结构
9.4小结
9.5习题
0章PyTorch与神经网络
10.1PyTorch扣的Tensor
10.1.1直接构造法
10.1.2间接转换法
10.1.3Tensor的变换
10.2自动梯度计算
10.2.1标量对标量的自动梯度计算
10.2.2向量对向量的自动梯度计算
10.2.3标量对向量(或矩阵)的自动梯度计算
10.3神经网络的模型搭建和参数优化
10.3.1模型的搭建
10.3.2激活函数
10.3.3常用的损失函数
10.3.4模型的保存和重载
10.4小结
10.5习题
第ll章深度Q网络
11.1DQN算法
11.1.1核心思想
11.1.2训练算法
11.1.3实验结果与分析
11.2DoubleDQN算法
11.2.1核心思想
11.2.2实验结果与分析
11.3PrioritizedDQN
11.3.1核心思想
11.3.2训练算法
11.3.3实验结果与分析
11.4DuelingDQN
11.4.1训练算法
11.4.2实验结果与分析
11.5小结
11.6习题
2章策略梯度法
12.1随机策略梯度法
12.1.1梯度上升算法
12.1.2策略梯度法与值函数逼近法的比较
12.2策略优化方法
12.2.1情节式策略目标函数
12.2.2连续式策略目标函数
12.2.3策略梯度定理
12.3策略表达形式
12.3.1离散动作空间策略参数化
12.3.2连续动作空间策略参数化
暂时没有目录
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格