诺森图书音像专营店
  • 扫码下单

  • 音像强化学习:前沿算法与应用白辰甲 赵英男 郝建业 刘鹏
  • 正版
    • 作者: 白辰甲 赵英男 郝建业 刘鹏 王震著 | 白辰甲 赵英男 郝建业 刘鹏 王震编 | 白辰甲 赵英男 郝建业 刘鹏 王震译 | 白辰甲 赵英男 郝建业 刘鹏 王震绘
    • 出版社: 机械工业出版社
    • 出版时间:2023-05-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    店铺装修中

    商家:
    诺森图书音像专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    诺森图书音像专营店

  • 商品参数
    • 作者: 白辰甲 赵英男 郝建业 刘鹏 王震著| 白辰甲 赵英男 郝建业 刘鹏 王震编| 白辰甲 赵英男 郝建业 刘鹏 王震译| 白辰甲 赵英男 郝建业 刘鹏 王震绘
    • 出版社:机械工业出版社
    • 出版时间:2023-05-01
    • 版次:1
    • 印次:1
    • 印刷时间:2023-05-19
    • 页数:304
    • 开本:16开
    • ISBN:9787111724780
    • 版权提供:机械工业出版社
    • 作者:白辰甲 赵英男 郝建业 刘鹏
    • 著:白辰甲 赵英男 郝建业 刘鹏
    • 装帧:暂无
    • 印次:1
    • 定价:109.00
    • ISBN:9787111724780
    • 出版社:机械工业
    • 开本:16开
    • 印刷时间:2023-05-19
    • 语种:暂无
    • 出版时间:2023-05-01
    • 页数:304
    • 外部编号:31758491
    • 版次:1
    • 成品尺寸:暂无

    序言前言章 强化学习简介/ 1.1从监督学习到强化学习/ 1.2强化学习的发展历史/ 1.3强化学习的研究范畴/ 1.4强化学习的应用领域/第2章 强化学习基础知识/ 2.1强化学习的核心概念/ 2.2马尔可夫和决策过程/ .值函数和策略学习/第3章 基于值函数的强化学习算法/ 3.1深度学习的基本理论/ 3.1.1深度网络/ 3.1.2经验池/ 3.1.3目标网络/ 3.2深度学习的过估计/ 3.2.1过估计的产生原因/ 3.2.2Double -学习/ 3.3深度学习的网络改进和高效采样/ 3.3.1Dueling网络/ 3.3.2高效采样/ 3.4周期后序迭代学习/ 3.5学习用于连续动作空间/ 3.5.1基于并行结构的 学习/ 3.5.2基于顺序结构的学习/ 3.6实例:使用值函数学习的Atari游戏/ 3.6.1环境预处理/ 3.6.2网络的实现/ 3.6.3学习的核心步骤/第4章 策略梯度迭代的强化学习算法/ 4.1REINFORCE 策略梯度/ 4.1.1策略梯度的基本形式/ 4.1.2降低策略梯度的方差/ 4.2异步策略梯度法/ 4.2.1引入优势函数/ 4.2.2异步策略梯度/ 4.3近端策略优化法/ 4.3.1裁剪的优化目标/ 4.3.2自适应的优化目标/ 4.4深度确定策略梯度/ 4.4.1critic学习/ 4.4.2actor学习/ 4.4.3拓展1:探索噪声/ 4.4.4拓展2:孪生DDPG/ 4.5熵策略梯度/ 4.5.1熵约束的基本原理/ 4.5.2SAC算法/4.6实例:使用策略梯度的Mujoco任务/ 4.6.1actor-critic网络实现/ 4.6.2核心算法实现/第5章 基于模型的强化学习方法/ 5.1如何使用模型来进行强化学习/ 5.2基于模型预测的规划/ 5.2.1随机打靶法/ 5.2.2集成概率轨迹采样法/ 5..基于模型和无模型的混合算法/ 5.2.4基于想象力的隐式规划方法/ 5.3黑盒模型的理论框架/ 5.3.1随机下界优化算法/ 5.3.2基于模型的策略优化算法/ 5.4白盒模型的使用/ 5.4.1随机值梯度算法/ 5.4.2模型的actor-critic算法/ 5.5实例:AlphaGo围棋智能体/ 5.5.1网络结构介绍/ 5.5.2树搜索/ 5.5.3总体训练流程/第6章 值分布式强化学习算法/ 6.1离散分布投影的值分布式算法/ 6.2分位数回归的值分布式算法/ 6.2.1分位数回归/ 6.2.2Wasserstein距离/ 6..R-DN算法/ 6.2.4单调的分位数学习算法/ 6.3隐式的值分布网络/ 6.4基于值分布的代价学习/ 6.4.1IN中的代价学习/ 6.4.2基于IN的actor-critic模型的代价学习/ 6.5实例:基于值分布的网络实现/ 6.5.1IN模型构建/ 6.5.2IN损失函数/第7章 强化学习中的探索算法/ 7.1探索算法的分类/ 7.2基于不确定估计的探索/ 7.2.1参数化后验的算法思路/ 7.2.2重采样DN/ 7.3进行虚拟的探索/ 7.3.1基于图像生成模型的虚拟/ 7.3.2基于哈希的虚拟/ 7.4根据环境模型的探索/ 7.4.1特征表示的学习/ 7.4.2随机网络蒸馏/ 7.4.3Never-Give-Up算法/ 7.5实例:蒙特祖玛复仇任务的探索/ 7.5.1RND网络结构/ 7.5.2RND的训练/ 7.5.3RND用于探索/第8章 多目标强化学习算法/ 8.1以目标为条件的价值函数/ 8.1.1熵HER/ 8.1.2动态目标HER/ 8.2监督式的多目标学习/ 8.2.1Hindsight模仿学习/ 8.2.2加权监督式多目标学习/ 8.3推广的多目标学习/ 8.4实例:机械臂的多目标抓取/ 8.4.1多目标实验环境/ 8.4.2HER的实现方法/ 8.4.3MEP的算法实现/第9章 层次化强化学习算法/ 9.1层次化学习的重要/ 9.2基于子目标的层次化学习/ 9.2.1封建网络的层次化学习/ 9.2.2离策略修正的层次化学习/ 9..虚拟子目标的强化学习方法/ 9.3基于技能的层次化学习/ 9.3.1使用随机网络的层次化学习/ 9.3.2共享分层的元学习方法/ 9.4基于选项的层次化学习/ 9.4.1option与半马尔可夫决策过程/ 9.4.2option-critic结构/ 9.5实例:层次化学习蚂蚁走迷宫任务/0章 基于技能的强化学习算法/ 10.1技能学习的定义/ 10.2互信息化的技能学习算法/ 10.2.1多样化技能学习算法/ 10.2.2基于互信息的技能学习方法/ 10.3融合环境模型的技能学习算法/ 10.4化状态覆盖的技能学习算法/ 10.5实例:人形机器人的技能学习/1章 离线强化学习算法/ 11.1离线强化学习中面临的困难/ 11.2策略约束的离线学习/ 11.2.1BC算法/ 11.2.2BRAC算法/ 11..TD-BC算法/ 11.3使用保守估计的离线学习/ 11.4基于不确定的离线学习/ 11.4.1UWAC算法/ 11.4.2MOPO算法/ 11.4.3PBRL算法/ 11.5监督式的离线学习/ 11.5.1DT算法/ 11.5.2RVS算法/ 11.6实例:使用离线学习的D4RL任务集/ 11.6.1D4RL数据集的使用/ 11.6.2CL算法实现/ 11.6.3TD3-BC算法实现/2章 元强化学习算法/ 12.1元强化学习的定义/ 12.2基于网络模型的元强化学习方法/ 12.2.1使用循环神经网络的元强化学习方法/ 12.2.2基于时序卷积和软注意力机制的方法/ 1.元梯度学习/ 12.4元强化学习中的探索方法/ 12.4.1结构化噪声探索方法/ 12.4.2利用后验采样进行探索/ 12.5实例:元学习训练多任务猎豹智能体/3章 高效的强化学习表示算法/ 13.1为什么要进行表示学习/ 13.2对比学习的特征表示/ 13.2.1基本原理和SimCLR算法/ 13.2.2MoCo 算法/ 13..基于对比学习的 CURL算法/ 13.2.4基于对比学习的 ATC算法/ 13.2.5基于对比学习的 DIM算法/ 13.2.6对比学习和互信息理论/ 13.2.7完全基于图像增广的方法/ 13.3鲁棒的特征表示学习/ 13.3.1互模拟特征/ 13.3.2信息瓶颈特征/ 13.4使用模型预测的表示学习/ 13.5实例:鲁棒的自动驾驶/4章 强化学习在智能控制中的应用/ 14.1机器人控制/ 14.1.1机械臂操作任务的控制/ 14.1.2足式机器人的运动控制/ 14.1.3多任务机器人控制/ 14.1.4面临的挑战/ 14.2电力优化控制/ 14.2.1电力管理任务/ 14.2.2需求响应/ 14.3交通指挥优化控制/ 14.3.1多信号灯合作控制/ 14.3.2大规模信号灯控制方法/ 14.3.3元强化学习信号灯控制/5章 强化学习在机器视觉中的应用/ 15.1神经网络结构搜索/ 15.1.1利用强化学习解决NAS/ 15.1.2前沿方法/ 15.2目标检测和跟踪中的优化/ 15.2.1强化学习与目标检测/ 15.2.2强化学习与实时目标跟踪/ 15.3视频分析/6章 强化学习在语言处理中的应用/ 16.1知识图谱系统/ 16.2智能问答系统/ 16.2.1事后目标回放法/ 16.2.2多任务对话系统/ 16.3机器翻译系统/ 16.3.1NMT中奖励的计算/ 16.3.2策略梯度方差处理/7章 强化学习在领域中的应用/ 17.1医疗健康系统/ 17.1.1动态治疗方案/ 17.1.2重症监护/ 17.1.3自动医疗诊断/ 17.2个化系统/ 17.2.1策略优化方法/ 17.2.2基于图的对话/ 17.3交易系统/ 17.3.1FinRL强化学习框架/ 17.3.2FinRL训练示例/

    白辰甲上海人工智能实验室青年研究员,博士于哈尔滨工业大学计算学部,曾在加拿大多伦多大合培养,2022年获哈工大博士奖。在高水平国际会议和期刊上发表20余篇,获评机器学习顶会ICML2021、ICLR2022、NeurIPS2022亮点。研究方向包括强化学习、博弈智能和具身智能。赵英男博士于哈尔滨工业大学计算学部,曾在加拿大阿尔伯塔大进行合培养,主要研究方向为深度强化学习、表征学习等,在国际会议和期刊上发表多篇学术。郝建业天津大学智能与计算学部副教授,获哈尔滨工业大学士学,香港中文大学博士,曾任MIT计算机科学与人工智能实验室博士后研究员。研究方向为深度强化学习和多智能体系统,近年在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智能领域知名会议和IEEE汇刊发表80余篇,出版专著2部。刘鹏哈尔滨工业大学教授,博士生导师,模式识别与智能系统研究中心主任。主要研究方向为图像处理、模式识别、机器学习。发表学术50余篇,获发明专利10余项,获黑龙江省科技进步一等奖1项。西北工业大学教授,网络空间安全学院委书记,保密学院常务副院长,ElectedMemberofAcademiaEuropaea(EA),EuropeanAcademyofSciencesandArts(EASA),AAIAFellow,全球高被引科学家,杰青,国防创新团队负责人。围绕博弈智能,人工智能基础理论,网络空间智能对抗,在NatureCommunications、PNAS、ScienceAdvance、AAAI、NeurIPS、ICML、ICLR等发表系列成果,WoS引用2万余次,编制完成行标5项。获科学探索奖,中国青年五四奖章,、陕西省、学会科学技术奖一等奖等多个奖项。

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购