返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • [正版]CUDA C编程权威指南 如何使用GPU技术 CUDAC语言编程教程 CUDA概念编程技术 高性能计算技术丛书
  • 本店商品限购一件,多拍不发货,谢谢合作
    • 作者: 程润伟著
    • 出版社: 机械工业出版社
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    如梦图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    新春将至,本公司假期时间为:2025年1月23日至2025年2月7日。2月8日订单陆续发货,期间带来不便,敬请谅解!

    商品参数
    • 作者: 程润伟著
    • 出版社:机械工业出版社
    • ISBN:9781651434806
    • 版权提供:机械工业出版社

                                                        店铺公告

    为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。 温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货), 关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。

     

    书名:CUDA C编程指南

    定价:¥99.00

    作者:[美]程润伟(John Cheng)

    I S B N :978-7-111-56547-5

    条码书号:9787111565475

    上架日期:2017-5-25

    出版日期:2017-5-1

    版       次:1-1

    出 版 社:机械工业出版社

    丛 书 名: 高性能计算技术丛书 

    页     数:409    

     

     

    本书主要介绍了如何使用GPU和利用CUDAC语言对其进行编程的。首先从基本的CUDA概念及结构讲起,一步一步地引导读者进入CUDA的内部世界,由浅入深地介绍了其编程要求及其内部架构,使读者对其有了整体印象后,逐步深入了解其内部机能,后介绍了GPU的一些专用函数和注意事项。

    译者序

    推荐序

    自序

    作者简介

    技术审校者简介

    前言

    致谢

    第1章 基于CUDA的异构并行计算1

    1.1 并行计算1

    1.1.1 串行编程和并行编程2

    1.1.2 并行性3

    1.1.3 计算机架构4

    1.2 异构计算6

    1.2.1 异构架构7

    1.2.2 异构计算范例9

    1.2.3 CUDA:一种异构计算平台10

    1.3 用GPU输出Hello World12

    1.4 使用CUDA C编程难吗15

    1.5 总结16

    1.6 习题16

    第2章 CUDA编程模型18

    2.1 CUDA编程模型概述18

    2.1.1 CUDA编程结构19

    2.1.2 内存管理20

    2.1.3 线程管理24

    2.1.4 启动一个CUDA核函数29

    2.1.5 编写核函数30

    2.1.6 验证核函数31

    2.1.7 处理错误32

    2.1.8 编译和执行32

    2.2 给核函数计时35

    2.2.1 用CPU计时器计时35

    2.2.2 用nvprof工具计时39

    2.3 组织并行线程40

    2.3.1 使用块和线程建立矩阵索引40

    2.3.2 使用二维网格和二维块对矩阵求和44

    2.3.3 使用一维网格和一维块对矩阵求和47

    2.3.4 使用二维网格和一维块对矩阵求和48

    2.4 设备管理50

    2.4.1 使用运行时API查询GPU信息50

    2.4.2 确定优GPU53

    2.4.3 使用nvidia-smi查询GPU信息53

    2.4.4 在运行时设置设备54

    2.5 总结54

    2.6 习题55

    第3章 CUDA执行模型56

    3.1 CUDA执行模型概述56

    3.1.1 GPU架构概述57

    3.1.2 Fermi架构59

    3.1.3 Kepler架构61

    3.1.4 配置文件驱动优化65

    3.2 理解线程束执行的本质67

    3.2.1 线程束和线程块67

    3.2.2 线程束分化69

    3.2.3 资源分配74

    3.2.4 延迟隐藏76

    3.2.5 占用率78

    3.2.6 同步81

    3.2.7 可扩展性82

    3.3 并行性的表现83

    3.3.1 用nvprof检测活跃的线程束84

    3.3.2 用nvprof检测内存操作85

    3.3.3 增大并行性86

    3.4 避免分支分化88

    3.4.1 并行归约问题88

    3.4.2 并行归约中的分化89

    3.4.3 改善并行归约的分化93

    3.4.4 交错配对的归约95

    3.5 展开循环97

    3.5.1 展开的归约97

    3.5.2 展开线程的归约99

    3.5.3 完全展开的归约101

    3.5.4 模板函数的归约102

    3.6 动态并行104

    3.6.1 嵌套执行105

    3.6.2 在GPU上嵌套Hello World106

    3.6.3 嵌套归约109

    3.7 总结113

    3.8 习题113

    第4章 全局内存115

    4.1 CUDA内存模型概述115

    4.1.1 内存层次结构的优点116

    4.1.2 CUDA内存模型117

    4.2 内存管理124

    4.2.1 内存分配和释放124

    4.2.2 内存传输125

    4.2.3 固定内存127

    4.2.4 零拷贝内存128

    4.2.5 统一虚拟寻址133

    4.2.6 统一内存寻址134

    4.3 内存访问模式135

    4.3.1 对齐与合并访问135

    4.3.2 全局内存读取137

    4.3.3 全局内存写入145

    4.3.4 结构体数组与数组结构体147

    4.3.5 性能调整151

    4.4 核函数可达到的带宽154

    4.4.1 内存带宽154

    4.4.2 矩阵转置问题155

    4.5 使用统一内存的矩阵加法167

    4.6 总结171

    4.7 习题172

    第5章 共享内存和常量内存174

    5.1 CUDA共享内存概述174

    5.1.1 共享内存175

    5.1.2 共享内存分配176

    5.1.3 共享内存存储体和访问模式176

    5.1.4 配置共享内存量181

    5.1.5 同步183

    5.2 共享内存的数据布局185

    5.2.1 方形共享内存185

    5.2.2 矩形共享内存193

    5.3 减少全局内存访问199

    5.3.1 使用共享内存的并行归约199

    5.3.2 使用展开的并行归约202

    5.3.3 使用动态共享内存的并行归约204

    5.3.4 有效带宽205

    5.4 合并的全局内存访问205

    5.4.1 基准转置内核205

    5.4.2 使用共享内存的矩阵转置207

    5.4.3 使用填充共享内存的矩阵转置210

    5.4.4 使用展开的矩阵转置211

    5.4.5 增大并行性214

    5.5 常量内存215

    5.5.1 使用常量内存实现一维模板215

    5.5.2 与只读缓存的比较217

    5.6 线程束洗牌指令219

    5.6.1 线程束洗牌指令的不同形式220

    5.6.2 线程束内的共享数据222

    5.6.3 使用线程束洗牌指令的并行归约226

    5.7 总结227

    5.8 习题228

    第6章 流和并发230

    6.1 流和事件概述231

    6.1.1 CUDA流231

    6.1.2 流调度234

    6.1.3 流的优先级235

    6.1.4 CUDA事件235

    6.1.5 流同步237

    6.2 并发内核执行240

    6.2.1 非空流中的并发内核240

    6.2.2 Fermi GPU上的虚假依赖关系242

    6.2.3 使用OpenMP的调度操作244

    6.2.4 用环境变量调整流行为245

    6.2.5 GPU资源的并发限制246

    6.2.6 默认流的阻塞行为247

    6.2.7 创建流间依赖关系248

    6.3 重叠内核执行和数据传输249

    6.3.1 使用深度优先调度重叠249

    6.3.2 使用广度优先调度重叠252

    6.4 重叠GPU和CPU执行254

    6.5 流回调255

    6.6 总结256

    6.7 习题257

    第7章 调整指令级原语258

    7.1 CUDA指令概述259

    7.1.1 浮点指令259

    7.1.2 内部函数和标准函数261

    7.1.3 原子操作指令262

    7.2 程序优化指令264

    7.2.1 单精度与双精度的比较264

    7.2.2 标准函数与内部函数的比较266

    7.2.3 了解原子指令272

    7.2.4 综合范例277

    7.3 总结279

    7.4 习题280

    第8章 GPU加速库和OpenACC281

    8.1 CUDA库概述282

    8.1.1 CUDA库支持的作用域283

    8.1.2 通用的CUDA库工作流283

    8.2 cuSPARSE库285

    8.2.1 cuSPARSE数据存储格式286

    8.2.2 用cuSPARSE进行格式转换289

    8.2.3 cuSPARSE功能示例289

    8.2.4 cuSPARSE发展中的重要主题291

    8.2.5 cuSPARSE小结291

    8.3 cuBLAS库292

    8.3.1 管理cuBLAS数据293

    8.3.2 cuBLAS功能示例294

    8.3.3 cuBLAS发展中的重要主题295

    8.3.4 cuBLAS小结296

    8.4 cuFFT库296

    8.4.1 使用cuFFT API296

    8.4.2 cuFFT功能示例298

    8.4.3 cuFFT小结299

    8.5 cuRAND库299

    8.5.1 拟随机数或伪随机数的选择299

    8.5.2 cuRAND库概述300

    8.5.3 cuRAND介绍303

    8.5.4 cuRAND发展中的重要主题306

    8.6 CUDA 6.0中函数库的介绍307

    8.6.1 Drop-In库307

    8.6.2 多GPU库308

    8.7 CUDA函数库的性能研究310

    8.7.1 cuSPARSE与MKL的比较310

    8.7.2 cuBLAS与MKL BLAS的比较311

    8.7.3 cuFFT与FFTW及MKL的比较311

    8.7.4 CUDA库性能小结312

    8.8 OpenACC的使用312

    8.8.1 OpenACC计算指令的使用315

    8.8.2 OpenACC数据指令的使用321

    8.8.3 OpenACC运行时API325

    8.8.4 OpenACC和CUDA库的结合327

    8.8.5 OpenACC小结328

    8.9 总结329

    8.10 习题329

    第9章 多GPU编程331

    9.1 从一个GPU到多GPU332

    9.1.1 在多GPU上执行333

    9.1.2 点对点通信334

    9.1.3 多GPU间的同步335

    9.2 多GPU间细分计算336

    9.2.1 在多设备上分配内存336

    9.2.2 单主机线程分配工作337

    9.2.3 编译和执行337

    9.3 多GPU上的点对点通信338

    9.3.1 实现点对点访问338

    9.3.2 点对点的内存复制339

    9.3.3 统一虚拟寻址的点对点内存访问341

    9.4 多GPU上的有限差分342

    9.4.1 二维波动方程的模板计算342

    9.4.2 多GPU程序的典型模式343

    9.4.3 多GPU上的二维模板计算344

    9.4.4 重叠计算与通信347

    9.4.5 编译和执行348

    9.5 跨GPU集群扩展应用程序350

    9.5.1 CPU到CPU的数据传输351

    9.5.2 使用传统MPI在GPU和GPU间传输数据353

    9.5.3 使用CUDA-aware MPI进行GPU到GPU的数据传输356

    9.5.4 使用CUDA-aware MPI进行节点内GPU到GPU的数据传输357

    9.5.5 调整消息块大小358

    9.5.6 使用GPUDirect RDMA技术进行GPU到GPU的数据传输359

    9.6 总结361

    9.7 习题362

    第10章 程序实现的注意事项364

    10.1 CUDA C的开发过程364

    10.1.1 APOD开发周期365

    10.1.2 优化因素367

    10.1.3 CUDA代码编译370

    10.1.4 CUDA错误处理373

    10.2 配置文件驱动优化374

    10.2.1 使用nvprof寻找优化因素375

    10.2.2 使用nvvp指导优化379

    10.2.3 NVIDIA工具扩展381

    10.3 CUDA调试383

    10.3.1 内核调试383

    10.3.2 内存调试390

    10.3.3 调试小结395

    10.4 将C程序移植到CUDA C的案例研究396

    10.4.1 评估crypt396

    10.4.2 并行crypt397

    10.4.3 优化crypt398

    10.4.4 部署crypt404

    10.4.5 移植crypt小结407

    10.5 总结407

    10.6 习题407

    附录 推荐阅读409

     

    A2  

     

    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购