《算力芯片――高性能 CPU/GPU/NPU 微架构分析》濮元恺著【摘要书评在线阅读】-苏宁易购图书

云钻刮券活动规则

活动时间

活动自2017年6月2日上线，敬请关注云钻刮券活动规则更新。

活动形式

会员打开苏宁易购wap端、PC端、苏宁易购APP端方可参与活动。
活动方式为云钻刮券，每次刮券需要扣除200云钻。奖励分为无敌券和店铺云券两种，100%刮出无敌券，最低2元。店铺券由店铺提供，用户可以根据购物需求，在无敌券和店铺云券之间二选一。如因为网络、用户关闭等原因，造成页面关闭，导致用户没有或无法选择，系统将在5分钟内自动按照获得的无敌券面额发放到用户账户。
每人每天参与刮券次数上限为1次。活动每日限量，如用户参与时已达到活动最高上限，则不能再继续参与，次日可以继续参与。
如会员在刮券时选择了店铺云券，券发至账户后则无法再更改为平台的无敌券；如会员在刮券时选择了平台的无敌券，券发至账户后则无法再更改为店铺云券。
云钻刮券获得的不固定面值的券，会随机获得无敌券：2~2.2元、5元、10元、20元、50元的无敌券或不同面额的店铺云券。
券是否成功发放，可在“我的优惠券”中查询。

其他

如活动受政府机关指令需要停止举办的，或活动遭受严重网络攻击需暂停举办的，或者系统故障导致的其它意外问题，苏宁无需为此承担赔偿或者进行补偿。

券使用规则

不同面额的无敌券有不同的使用门槛，2~2.2元、5元、10元、20元、50元无敌券为无门槛使用，具体以实际发放券说明为准。配送方式仅限选择配送使用，不能抵扣运费部分。
用户刮券获得的店铺云券可与店铺内领取的店铺易券叠加使用。
店铺云券使用门槛等具体信息以商家在其店铺内的设置使用说明为准。
无敌券可用于单件商品的付款，也可用于购物车合并下单付款，同时支持在跨店铺订单中使用。店铺云券仅可使用在指定店铺中，注：部分店铺活动商品不支持用券，以订单实际提交为准。
云钻刮券获得的无敌券可以购买大聚惠、抢购、团购、手机专享价，但不可购买闪拍、预售、S码、名品特卖、海外购、秒杀、虚拟产品、法律规定限制产品如一段奶粉（包括但不仅限列出的商品）等、云钻加钱兑及云钻全额兑。
在购物时，点击购买后，页面会提示可使用易购券，只要点击选择易购券即可抵用扣除对应金额。云钻刮券获得无敌券或店铺云券使用时可用于抵扣商品金额，不能抵扣运费、运费险、增值服务等非商品金额。
云钻刮券获得的无敌券或店铺云券可与店铺页面领取的店铺易券叠加使用，付款时默认优先使用力度较大的店铺优惠券，如使用店铺易券后的订单金额仍然满足云钻刮券所获得店铺云券使用条件，可继续叠加使用店铺云券。（举例：店铺在页面设置满199减50元的店铺易券，同时用户在店铺刮券获得一张满20元减20元的店铺云券，如商品订单金额为200元，会员在用已使用领取的50元店铺易券情况下，仍然可以使用云钻刮券获得20元店铺云券）
云钻刮券获得的无敌券或店铺云券不得提现，不得转赠他人，不得为他人付，不得拆分使用。
一个订单最多使用6张易购券。
云钻刮券获得的有效期为：自获得之日起7天内有效（部分活动券可能存在不同有效期，具体详见“我的优惠券”内易购券有效期说明）。
在获取和使用券过程中，如果出现违规行为（如作弊领取、恶意套现、刷取信誉、虚假交易等），苏宁将取消用户的中奖资格，并有权撤销违规交易、收回易购券（含已使用的易购券及未使用的易购券）,必要时追究法律责任。
使用易购券的订单若交易未成功或发生退款及售后，在交易所使用的易购券有效期内订单取消完成的，易购券将退回用户账户，退回后的易购券有效期不变。如在使用的易购券有效期之外发生退款，所使用的券退回当天有效，过期不予退还。如发生售后退款，易购券退回当天有效，过期不予退还。

文轩网图书旗舰店

https://product.suning.com/0070067633/11555288247.html

商品参数

作者：濮元恺著
出版社：电子工业出版社
出版时间：2024-08-01 00:00:00
版次：1
印次：1
印刷时间：2024-08-01
页数：456
开本：其他
装帧：平装
ISBN：9787121483790
国别/地区：中国
版权提供：电子工业出版社

算力芯片高性能 CPU/GPU/NPU微架构分析

作者:濮元恺编

定价:129

出版社:电子工业出版社

出版日期:2024年08月01日

页数:456

装帧:平装

ISBN:9787121483790

无

本书介绍了超级计算机算力和AI算力的异同，从CPU流水线开始，描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分，介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理，以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述，中国也拥有独立自主知识产权的高算力芯片，并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点，介绍了存储与互连总线技术，即大模型专用AI超级计算机的中枢核心。

无

无

第1章从TOP500和MLPerf看算力芯片格局 1
1.1 科学算力最前沿TOP500 1
1.1.1 TOP500的测试方式HPL 3
1.1.2 TOP500与算力芯片行业发展 5
1.2 AI算力新标准MLPerf 9
第2章高性能CPU流水线概览 14
2.1 什么是指令 14
指令集的设计哲学 14
2.2 流水线与MIPS 17
2.2.1 经典5级流水线概述 18
2.2.2 超流水线及其挑战 21
2.3 分支预测 25
2.3.1 先进分支预测之“感知机分支预测器” 29
2.3.2 先进分支预测之“TAGE分支预测器” 31
2.4 指令缓存体系 33
2.5 译码单元 37
2.6 数据缓存 39
2.6.1 多级缓存的数据包含策略 41
2.6.2 缓存映射关系 42
2.6.3 受害者缓存 45
2.6.4 写入策略与一致性协议 47
2.7 TLB（旁路快表缓冲） 49
2.8 乱序执行引擎 52
2.8.1 指令相关的解决方案 53
2.8.2 寄存器重命名 55
2.8.3 指令提交与ROB单元 57
2.8.4 发射队列 59
2.8.5 数据旁路 65
2.9 超线程技术 66
第3章缓存硬件结构 71
3.1 DRAM与SRAM设计取舍 71
3.2 DRAM读写过程 72
3.3 SRAM读写过程（以6T SRAM为例） 74
3.4 Intel对8T SRAM的探索 76
3.5 不同规格SRAM物理特性 78
3.6 非一致性缓存架构 79
第4章 CPU计算单元设计 82
4.1 计算单元逻辑构成 82
4.2 整数和浮点数的差异 83
4.3 算术逻辑单元 84
4.3.1 ALU加法器与减法器 85
4.3.2 ALU比较单元和位移单元 85
4.3.3 ALU乘法器与除法器 86
4.4 浮点数单元 87
4.4.1 浮点加法器与减法器 88
4.4.2 浮点乘法器与除法器 91
4.5 指令的加载和存储单元 93
4.6 单指令多数据 95
4.6.1 MMX指令集 97
4.6.2 3DNow!指令集 101
4.6.3 SSE指令集及其扩展指令集 102
4.6.4 AVX指令集及其扩展指令集 104
4.6.5 AVX-512指令集与下一代AVX10指令集 105
4.6.6 对AVX指令集的间接实施 112
4.7 矩阵加速指令集 113
4.8 ARM SVE指令集 115
第5章逻辑拓扑结构 120
5.1 环形拓扑方式 120
5.2 Infinity Fabric拓扑方式 124
5.3 网格拓扑方式 129
5.4 片上网络（NoC） 133
5.4.1 NoC分析重点 135
5.4.2 NoC高速发展的原因 136
5.4.3 常见NoC拓扑结构及特性 136
5.4.4 拓扑结构指标参数 139
5.4.5 拓扑结构改进案例 140
5.4.6 路由器微架构设计 142
5.5 近存计算拓扑特性 144
5.5.1 IPU芯片 145
5.5.2 WSE芯片 147
5.6 单芯片UMA与NUMA 151
第6章经典算力CPU芯片解读 155
6.1 申威处理器 155
6.1.1 SW26010单芯片设计 155
6.1.2 “神威·太湖之光”系统设计 157
6.1.3 SW26010对比CPU+协处理器方案 158
6.1.4 针对SW26010的OpenCL编译系统设计 159
6.1.5 SW26010后期迭代 161
6.2 富士通A64FX处理器 162
A64FX指令流水线设计 163
6.3 苹果M1处理器 165
6.3.1 SoC模块化设计 166
6.3.2 高性能核心流水线设计 167
6.3.3 计算单元资源 168
6.3.4 UltraFusion芯片扩展 169
6.4 Ampere处理器 171
6.4.1 Ampere Altra 171
6.4.2 AmpereOne 174
6.5 IBM POWER处理器 177
6.5.1 POWER9架构设计 179
6.5.2 POWER9拓扑技术 181
6.5.3 POWER10架构分析 183
6.5.4 POWER10拓扑技术 183
6.5.5 POWER10 SIMD单元改进与MMA加速器 186
6.6 EPYC 9004处理器 187
6.6.1 Zen微架构介绍 187
6.6.2 EPYC处理器设计 200
6.6.3 Zen4c小核心设计策略 202
6.7 Sapphire Rapids微架构Xeon处理器 205
6.7.1 EMIB封装 206
6.7.2 Golden Cove微架构 209
6.7.3 其他硬件加速单元——Intel IAA存内分析加速器 211
6.7.4 其他硬件加速单元——Intel DSA数据流加速器 212
6.7.5 Intel QAT数据保护与压缩加速技术 213
6.7.6 Intel DLB动态负载均衡器 215
6.8 Tesla Dojo超级计算机和D1处理器 217
6.8.1 D1芯片微架构 218
6.8.2 训练瓦片和存储资源 220
6.8.3 丰富的低精度数据类型 221
6.8.4 设计独特性与思考 223
第7章从图形到计算的GPU架构演进 224
7.1 GPU图形计算发展 224
7.1.1 从三角形开始的几何阶段 224
7.1.2 光栅化衔接3D和2D世界 227
7.1.3 像素着色阶段 228
7.1.4 DirectX API推动GPU演进 229
7.2 GPGPU 指令流水线 233
7.2.1 取指阶段 234
7.2.2 译码阶段 235
7.2.3 发射阶段 238
7.2.4 执行阶段 240
7.2.5 写回阶段 242
第8章 GPGPU存储体系与线程管理 245
8.1 GPGPU多级别存储体系 245
8.1.1 大容量寄存器与倒金字塔结构 248
8.1.2 不同时代NVIDIA GPU片上存储器容量 250
8.1.3 GPGPU存储组织模式之合并访存 253
8.1.4 GPGPU存储组织模式之板块冲突 255
8.2 GPGPU线程管理 258
8.2.1 GPU线程定义 259
8.2.2 线程束宽度 261
8.2.3 线程调度和管理 265
8.2.4 线程块在线程管理中的作用 268
8.2.5 SIMT堆栈与Volta架构对线程管理的改进 270
8.2.6 Cooperative Group 275
8.2.7 Hopper架构对线程管理的改进 278
8.3 通用矩阵乘法与AI类任务 279
8.3.1 利用线程块优化矩阵计算 280
8.3.2 通过流实现任务级并行 281
8.4 VLIW指令结构在GPU中的应用历史 283
第9章张量处理器设计 287
9.1 张量的定义 287
9.2 脉动阵列计算单元 288
9.2.1 谷歌TPU处理器 291
9.2.2 TPU v4芯片概览 293
9.2.3 自研光学芯片用于TPU节点拓扑 295
9.3 Volta架构引入张量核心 298
9.3.1 张量核心设计细节 298
9.3.2 张量核心数据加载与指令编译 303
9.3.3 矩阵乘法访存优势与数据布局 306
9.3.4 Ampere架构引入稀疏性张量加速 308
9.3.5 Hopper架构改进张量内存加速器 311
9.3.6 低精度性能增益 313
9.4 华为�腾Ascend 910 NPU芯片 315
9.4.1 达芬奇架构AI Core分析 316
9.4.2 拓扑互连能力 319
9.4.3 CANN与AI框架MindSpore 321
第10章经典GPU算力芯片解读 324
10.1 NVIDIA GPU芯片 324
10.1.1 G80架构 324
10.1.2 GT200架构 326
10.1.3 Fermi架构 329
10.1.4 Kepler架构 333
10.1.5 Maxwell架构 337
10.1.6 Pascal架构 338
10.1.7 Volta架构 340
10.1.8 Turing架构 343
10.1.9 Ampere架构 345
10.1.10 Hopper架构 351
10.2 AMD GPU芯片 357
10.2.1 TeraScale架构 357
10.2.2 GCN架构 364
10.2.3 RDNA架构 371
10.3 Intel Xe GPU架构 386
10.3.1 x86指令集Larrabee GPGPU 386
10.3.2 Xe-core高端核心与EU低端核心 389
10.3.3 子片和扩展结构 395
10.3.4 超大芯片Ponte Vecchio 396
第11章存储与互连总线技术 400
11.1 从DDR到HBM 400
11.1.1 为更高带宽持续改进——GDDR 400
11.1.2 新封装方式——HBM 405
11.2 PCI Express总线概况 407
11.2.1 由需求驱动的PCIe总线发展历程 408
11.2.2 PCIe物理和数据链路层技术概览 411
11.3 CXL扩展技术 414
11.3.1 CXL的3个子协议 416
11.3.2 CXL 2.0主要特性：内存池化 417
11.3.3 CXL 3.0主要特性：内存共享、多级拓扑 418
11.3.4 CXL协议细节 419
11.3.5 CXL延迟拆解 421
11.4 NVLink互连技术与GPU超级计算机 424
11.4.1 Pascal架构第一代NVLink 424
11.4.2 Volta架构第二代NVLink 428
11.4.3 Ampere架构第三代NVLink 429
11.4.4 Hopper架构第四代NVLink 429
11.4.5 Grace Hopper超级芯片 432

查看全部评论>

服务体验

算力芯片高性能 CPU/GPU/NPU微架构分析濮元恺编专业科技文轩网

新华书店正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

文轩网图书旗舰店

售后保障

最近浏览

猜你喜欢

服务体验

算力芯片 高性能 CPU/GPU/NPU微架构分析 濮元恺 编 专业科技 文轩网

新华书店正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

计算机/网络排行榜

文轩网图书旗舰店

售后保障

最近浏览

猜你喜欢

算力芯片高性能 CPU/GPU/NPU微架构分析濮元恺编专业科技文轩网