返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • Python深度强化学习入门:强化学习和深度学习的搜索与控制
  • 新华书店正版
    • 作者: (日)伊藤多一//今津义充//须藤广大//仁平将人//川崎悠介等著 | | 王卫兵//杨秋香译
    • 出版社: 机械工业出版社
    • 出版时间:2022-04-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

         https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: (日)伊藤多一//今津义充//须藤广大//仁平将人//川崎悠介等著| 王卫兵//杨秋香译
    • 出版社:机械工业出版社
    • 出版时间:2022-04-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2022-04-01
    • 字数:384000
    • 页数:239
    • 开本:16开
    • 装帧:平装
    • ISBN:9787111700722
    • 国别/地区:中国
    • 版权提供:机械工业出版社

    Python深度强化学习入门:强化学习和深度学习的搜索与控制

    作  者:(日)伊藤多一//今津义充//须藤广大//仁平将人//川崎悠介等 著 王卫兵//杨秋香 译
    定  价:89
    出 版 社:机械工业出版社
    出版日期:2022年04月01日
    页  数:239
    装  帧:平装
    ISBN:9787111700722
    主编推荐

    人工智能无疑是近年来热门词汇,而深度强化学习又是热门中的热门,对于想要进入人工智能行业的您来说,节省时间、快速入门首要问题。再多的知识也要实践,现场实操,才是快速学习、消化的通路。 《Python深度强化学习入门:强化学习和深度学习的搜索与控制 》正是这样一本,从基础理论讲起,以实操驱动的方式全面展示技巧和方法,为您提供了快速入门深度强化学习的途径,找到了学习的方法。

    内容简介

    本书共7章。第1章介绍了机器学习的分类、强化学习的学习机制以及深度强化学习的概念;第2章通过强化学习的基本概念、马尔可夫决策过程和贝尔曼方程、贝尔曼方程的求解方法、无模型控制等介绍了强化学习的基本算法;第3章通过深度学习、卷积神经网络(CNN)、循环神经网络(RNN)介绍了强化学习中深度学习的特征提取方法;第4章通过行动价值函数的网络表示、策略函数的网络表示介绍了深度强化学习的实现;第5章通过策略梯度法的连续控制、学习算法和策略模型等,详细介绍了深度强化学习在连续控制问题中的应用及具体实现;第6章通过巡回推销员问题和魔方问题详细介绍了深度强化学习在组合优化中的应用及具体实现;第7章通过SeqGAN的文本生成和神经网络架构的搜索详细介绍了深度强化学习在时间序列数据生成的应用。在附录中还给出了Colaboratory和Docker等深度强化学习开发环境的构建。

    作者简介

    伊藤多一,1995年在名古屋大学理学研究所完成博士课程,井获得博士学位。后一直从事粒子物理学研究,直到2004年3月。同年,加入了一家专门从事合同数据分析的风险公司,井参与了多个数据分析项目。自2013年以来,他一直在BrainPad公司从事机器学习的广告效果分析工作。自2016年以来,通过深度学习参与了图像分析项目。

    精彩内容

    目录
    译者序
    原书前言
    阅读本书需要的知识基础
    本书的结构
    本书示例的运行环境
    第1部分 基础篇
    第1章 强化学习的用途
    1.1 机器学习的分类
    1.1.1 监督学习
    1.1.2 无监督学习
    1.1.3 强化学习
    1.2 强化学习的学习机制
    1.3 深度强化学习
    第2章 强化学习的算法
    2.1 强化学习的基本概念
    2.1.1 强化学习的问题设定
    2.1.2 强化学习的机制
    2.1.3 关于本章的内容
    2.2 马尔可夫决策过程和贝尔曼方程
    2.2.1 马尔可夫决策过程
    2.2.2 贝尔曼方程
    2.3 贝尔曼方程的求解方法
    2.3.1 动态规划法
    2.3.2 蒙特卡洛法
    2.3.3 TD学习法
    2.4 无模型控制
    2.4.1 策略改进的方法
    2.4.2 基于价值的方法
    2.4.3 基于策略的方法
    2.4.4 Actor-Critic法
    第3章 深度学习的特征提取
    3.1 深度学习
    3.1.1 深度学习的出现和背景
    3.1.2 什么是深度学习?
    3.1.3 深度学习平台
    3.2 CNN
    3.2.1 什么是CNN
    3.2.2 CNN的应用
    3.3 RNN
    3.3.1 什么是RNN
    3.3.2 什么是LSTM
    3.3.3 RNN的应用
    第4章 深度强化学习的实现
    4.1 深度强化学习的发展
    4.1.1 DQN的出现
    4.1.2 用于强化学习的模拟器
    4.2 行动价值函数的网络表示
    4.2.1 DQN算法
    4.2.2 DQN算法的实现
    4.2.3 学习结果
    4.3 策略函数的网络表示
    4.3.1 Actor的实现
    4.3.2 Critic的实现
    4.3.3 示例代码的介绍
    4.3.4 学习结果
    第5章 连续控制的应用
    5.1 策略梯度法的连续控制
    5.1.1 连续控制
    5.1.2 策略梯度法学习
    5.2 学习算法和策略模型
    5.2.1 算法概况
    5.2.2 REINFORCE算法
    5.2.3 基准函数的引入
    5.2.4 高斯模型的策略概率
    5.3 连续行动模拟器
    5.3.1 pybullet-gym
    5.3.2 Walker2D
    5.4 算法的实现
    5.4.1 算法实现的总体构成
    5.4.2 train.py
    5.4.3 policy_estimator.py
    5.4.4 value_estimator.py
    5.5 学习结果及预测控制
    5.5.1 学习结果
    5.5.2 预测控制的结果
    5.5.3 其他环境模型的应用
    5.5.4 总结
    第6章 组合优化的应用
    6.1 组合优化中的应用
    6.1.1 关于组合优化
    6.2 巡回推销员问题
    6.2.1 通过强化学习解决巡回推销员问题
    6.2.2 实现概要
    6.2.3 运行结果
    6.2.4 今后的发展趋势
    6.3 魔方问题
    6.3.1 用强化学习解决魔方问题
    6.3.2 实现概要
    6.3.3 实现结果
    6.3.4 AC+MCTS算法的预测结果
    6.3.5 今后的发展趋势
    6.4 总结
    第7章 序列数据生成的应用
    7.1 根据SeqGAN的文本生成
    7.1.1 GAN
    7.1.2 SeqGAN
    7.1.3 输入数据
    7.1.4 使用的算法及其实现
    7.1.5 实现结果
    7.1.6 总结
    7.2 神经网络架构的搜索
    7.2.1 神经体系结构搜索
    7.2.2 语义分割
    7.2.3 U-Net
    7.2.4 文件目录结构
    7.2.5 输入数据
    7.2.6 所使用的算法
    7.2.7 实现结果
    7.2.8 总结
    附录 开发环境的构建
    附录A Colaboratory的GPU环境构建
    A.1 Colaboratory
    A.2 Colaboratory的使用方法
    附录B 通过Docker进行Windows环境的构建
    B.1 介绍
    B.2 Docker的安装
    B.3 Docker映像的创建
    B.4 容器的启动
    B.5 运行情况的查看
    参考文献

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购