加载中...
扫一扫
下载苏宁易购APP
关注苏宁推客公众号
自购省钱·分享赚钱
下载苏宁金融APP
关注苏宁易购服务号
用户评价:----
物流时效:----
售后服务:----
实名认证领苏宁支付券立即领取 >
¥
提前抢
SUPER会员专享
由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
欢迎光临本店铺
点我可查看更多商品哦~
100%刮中券,最高50元无敌券,券有效期7天
亲,今日还有0次刮奖机会
我的云钻:0
您的云钻暂时不足,攒足云钻再来刮
恭喜获得1张券!
今天的机会已经全部用完了,请明天再来
恭喜刮出两张券,请选择一张领取
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
全新正版CUDA 编程:基础与实践9787302564607清华大学出版社
¥ ×1
商品
服务
物流
章 GPU硬件与CUDA程序开发工具 1.1 GPU 硬件简介 1.2 CUDA 程序开发工具 1.3 CUDA 开发环境搭建示例 1.4 用nvidia-smi检查与设置设备 1.5 学习资料第2章 CUDA中的线程组织 2.1 C++语言中的HelloWorld程序 2.2 CUDA中的HelloWorld程序 2.2.1 只有主机函数的CUDA程序 2.2.2 使用核函数的CUDA程序 . CUDA中的线程组织 ..1 使用多个线程的核函数 ..2 使用线程索引 .. 推广至多维网格 ..4 网格与线程块大小的限制 2.4 CUDA中的头文件 2.5 用nvcc编译CUDA程序第3章 简单CUDA程序的基本框架 3.1 例子:数组相加 3.2 CUDA 程序的基本框架 3.2.1 隐形的设备初始化 3.2.2 设备内存的分配与释放 3.. 主机与设备之间数据的传递 3.2.4 核函数中数据与线程的对应 3.2.5 核函数的要求 3.2.6 核函数中if语句的必要 3.3 自定义设备函数 3.3.1 函数执行空间标识符 3.3.2 例子:为数组相加的核函数定义一个设备函数第4章 CUDA程序的错误检测 4.1 一个检测CUDA运行时错误的宏函数 4.1.1 检查运行时API函数 4.1.2 检查核函数 4.2 用CUDA-MEMCHECK检查内存错误第5章 获得GPU加速的关键 5.1 用CUDA事件计时 5.1.1 为C++程序计时 5.1.2 为CUDA程序计时 5.2 几个影响GPU加速的关键因素 5.2.1 数据传输的比例 5.2.2 算术强度 5.. 并行规模 5.2.4 总结 5.3 CUDA中的数学函数库第6章 CUDA的内存组织 6.1 CUDA的内存组织简介 6.2 CUDA中不同类型的内存 6.2.1 全局内存 6.2.2 常量内存 6.. 纹理内存和表面内存 6.2.4 寄存器 6.2.5 局部内存 6.2.6 共享内存 6.2.7 L1和L2缓存 6.3 SM及其占有率 6.3.1 SM的构成 6.3.2 SM的占有率 6.4 用CUDA运行时API函数查询设备第7章 全局内存的合理使用 7.1 全局内存的合并与非合并访问 7.2 例子:矩阵转置 7.2.1 矩阵复制 7.2.2 使用全局内存进行矩阵转置第8章 共享内存的合理使用 8.1 例子:数组归约计算 8.1.1 仅使用全局内存 8.1.2 使用共享内存 8.1.3 使用动态共享内存 8.2 使用共享内存进行矩阵转置 8.3 避免共享内存的bank第9章 原子函数的合理使用 9.1 完全在GPU中进行归约 9.2 原子函数 9.3 例子:邻居列表的建立 9.3.1 C++版本的开发 9.3.2 利用原子操作的CUDA版本 9.3.3 不用原子操作的CUDA版本0章 线程束基本函数与协作组 10.1 单指令-多线程执行模式 10.2 线程束内的线程同步函数 10.3 更多线程束内的基本函数 10.3.1 介绍 10.3.2 利用线程束洗牌函数进行归约计算 10.4 协作组 10.4.1 线程块级别的协作组 10.4.2 利用协作组进行归约计算 10.5 数组归约程序的进一步优化 10.5.1 提高线程利用率 10.5.2 避免反复分配与释放设备内存1章 CUDA流 11.1 CUDA流概述 11.2 在默认流中重叠主机和设备计算 11.3 用非默认CUDA流重叠多个核函数的执行 11.3.1 核函数执行配置中的流参数 11.3.2 重叠多个核函数的例子 11.4 用非默认CUDA流重叠核函数的执行与数据传递 11.4.1 不可分页主机内存与异步的数据传输函数 11.4.2 重叠核函数执行与数据传输的例子2章 使用统一内存编程 12.1 统一内存简介 12.1.1 统一内存的基本概念 12.1.2 使用统一内存对硬件的要求 12.1.3 统一内存编程的优势 12.2 统一内存的基本使用方法 12.2.1 动态统一内存 12.2.2 静态统一内存 1. 使用统一内存申请超量的内存 1..1 个测试 1..2 第二个测试 1.. 第三个测试 12.4 优化使用统一内存的程序3章 分子动力学模拟的CUDA程序开发 13.1 分子动力学模拟的基本算法和C++实现 13.1.1 程序的整体结构 13.1.2 分子动力学模拟的基本流程 13.1.3 初始条件 13.1.4 边界条件 13.1.5 相互作用 13.1.6 运动方程的数值积分 13.1.7 程序中使用的单位制 13.1.8 程序的编译与运行 13.1.9 能量守恒的测试 13.1.10 C++版本程序运行速度的测试 13.2 CUDA版本的分子动力学模拟程序开发 13.2.1 仅加速求力和能量的部分 13.2.2 加速全部计算4章 CUDA标准库的使用 14.1 CUDA标准库简介 14.2 Thrust库 14.2.1 简介 14.2.2 数据结构 14.. 算法 14.2.4 例子:前缀和 14.3 cuBLAS库 14.3.1 简介 14.3.2 例子:矩阵乘法 14.4 cuSolver库 14.4.1 简介 14.4.2 例子:矩阵本征值 14.5 cuRAND库 14.5.1 简介 14.5.2 例子
樊哲勇,1983 年生,2010 年在南京大学物理系获理学博士,2010-2012 年在厦门大学物理系做博士后,2012-2014年在芬兰 Aalto 大学做博士后,2014-2016 在渤海大学任副教授,2016 年至今在芬兰 Aalto 大学做博士后。拥有 8 年 CUDA 编程经验,用 CUDA 开发了高效的分子动力学模拟程序 GPUMD 和量子输运程序 GPUT,在计算物理的品质期刊《Computer Physics Communications》发表9篇原创。
CUDA是目前较为流行的GPU高能计算的开发工具之一。本书通过大量实例系统地讲述CUDA编程的重要方面。前12章通过一些简短的例子循序渐进地介绍CUDA编程的基础知识,主要包括GPU硬件与CUDA程序开发工具(章)、CUDA中的线程组织(第2章)、CUDA程序的基本框架与错误检测(第3、4章)、获得GPU加速的关键(第5章)、CUDA中的内存组织与各种内存的合理使用(第6~8章)、原子函数的合理使用(第9章)、线程束内的基本函数(0章)、CUDA流(1章)、统一内存(2章)等。后面两章是可选读的内容:3章综合运用前述章节中的知识,用CUDA开发一个简单的分子动力学模拟程序;4章介绍若干CUDA库(包括Thrust、cuBLAS、cuSolver和cuRAND)的使用。 本书适合高等院校理工科专业的生和及任何对CUDA编程感兴趣的人士阅读。
本书是一本理想的学习 CUDA 编程的入门书籍,理论与实操结合,难易适中。
抢购价:¥ 38.00
易购价:¥ 38.00
注:参加抢购将不再享受其他优惠活动
亲,很抱歉,您购买的宝贝销售异常火爆,让小苏措手不及,请稍后再试~
验证码错误
看不清楚?换一张
确定关闭
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
查看我的收藏夹
非常抱歉,您前期未参加预订活动,无法支付尾款哦!
关闭
抱歉,您暂无任性付资格
继续等待
0小时0分
立即开通
SUPER会员