返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • 阿尔法零对最优模型预测自适应控制的启示 (美)德梅萃·P.博塞克斯 著 贾庆山,李岩 译 专业科技 文轩网
  • 新华书店正版
    • 作者: [美]德梅萃·P. 博塞克斯(Dimitri P. Bertsekas) 著 贾庆山 李岩 译著
    • 出版社: 清华大学出版社
    • 出版时间:2024-06-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

         https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: [美]德梅萃·P. 博塞克斯(Dimitri P. Bertsekas) 著 贾庆山 李岩 译著
    • 出版社:清华大学出版社
    • 出版时间:2024-06-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2024-05-01
    • 字数:262000
    • 页数:176
    • 开本:其他
    • 装帧:平装
    • ISBN:9787302660361
    • 国别/地区:中国
    • 版权提供:清华大学出版社

    阿尔法零对最优模型预测自适应控制的启示

    作  者:(美)德梅萃·P.博塞克斯 著 贾庆山,李岩 译
    定  价:69
    出 版 社:清华大学出版社
    出版日期:2024年06月01日
    页  数:176
    装  帧:平装
    ISBN:9787302660361
    主编推荐

    内容简介

    德梅萃·P.博塞克斯(Dimitri P.Bertsekas)教授是国际运筹优化与控制领域的著名学者,其系列经典教材被清华大学、麻省理工学院等国内外高校广泛使用。本书构建了近似动态规划和强化学习的新的理论框架,简洁但雄心勃勃。这一框架以离线训练和在线学习这两类算法为中心,彼此独立又通过牛顿法有机融合。当今新一代人工智能技术发展绚丽多彩,在看似纷繁复杂的数据与算法表象之下,其实蕴藏着简洁而美妙的规律。通过本书的学习,读者将能体会经典优化控制理论在分析和理解当代强化学习算法性能中的强大威力,更能领悟到以阿尔法零为代表的新一代算法浪潮为经典理论提供的新的发展机遇。本书适合作为普通高等学校信息科学技术领域研究生、本科生高年级教材,也可供本领域科研人员自学参考。

    作者简介

    精彩内容

    目录
    第1章 阿尔法零、离线训练和在线学习 1
    1.1 离线训练和策略迭代 3
    1.2 在线学习与值空间近似——截断滚动 4
    1.3 阿尔法零的经验 6
    1.4 强化学习的一种新概念框架 8
    1.5 注释与参考文献 9
    第2章 确定性和随机的动态规划 13
    2.1 无限时段上的很优控制 14
    2.2 值空间近似 18
    2.3 注释与参考文献 21
    第3章 强化学习的抽象视角 22
    3.1 贝尔曼算子 23
    3.2 值空间近似和牛顿法 28
    3.3 稳定域 32
    3.4 策略迭代、滚动和牛顿法 36
    3.5 在线对弈对于离线训练过程有多敏感? 41
    3.6 何不直接训练策略网络并在使用时摒弃在线对弈呢? 43
    3.7 多智能体问题和多智能体滚动 44
    3.8 在线简化策略迭代 47
    3.9 例外情形 52
    3.10 注释与参考文献 57
    第4章 线性二次型情形——例证 59
    4.1 很优解 60
    4.2 稳定线性策略的费用函数 61
    4.3 值迭代 63
    4.4 单步和多步前瞻——牛顿步的解释 64
    4.5 灵敏度问题 67
    4.6 滚动和策略迭代 69
    4.7 截断滚动——前瞻长度问题 71
    4.8 线性二次型问题中的例外行为 73
    4.9 注释与参考文献 74
    第5章 自适应和模型预测控制 75
    5.1 具有未知参数的系统——鲁棒和 PID 控制 76
    5.2 值空间近似、滚动和自适应控制 78
    5.3 值空间近似、滚动和模型预测控制 81
    5.4 末端费用近似——稳定性问题 83
    5.5 注释与参考文献 87
    第6章 有限时段确定性问题——离散优化 88
    6.1 确定性离散空间有限时段问题 89
    6.2 一般离散优化问题 92
    6.3 值空间近似 95
    6.4 离散优化的滚动算法 98
    6.5 采用多步前瞻的滚动——截断滚动 111
    6.6 约束形式的滚动算法 114
    6.7 使用部分可观马尔可夫决策问题模型滚动的自适应控制 124
    6.8 极小化极大控制的滚动 130
    6.9 小阶段费用与长时段——连续时间滚动 136
    6.10 结语 142
    附录A 不动点问题的牛顿法 145
    A.1 可微不动点问题的牛顿法 145
    A.2 无须贝尔曼算子可微性的牛顿法 148
    参考文献 152

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购