返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • 全新正版精通Hadoop39787302596875清华大学出版社
    • 作者: (印)尚沙勒·辛格等著著 | (印)尚沙勒·辛格等著编 | (印)尚沙勒·辛格等著译 | (印)尚沙勒·辛格等著绘
    • 出版社: 清华大学出版社
    • 出版时间:2022-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    如梦图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品参数
    • 作者: (印)尚沙勒·辛格等著著| (印)尚沙勒·辛格等著编| (印)尚沙勒·辛格等著译| (印)尚沙勒·辛格等著绘
    • 出版社:清华大学出版社
    • 出版时间:2022-01
    • 版次:第1版
    • 印次:1
    • 字数:100千字
    • 页数:452
    • 开本:16开
    • ISBN:9787302596875
    • 版权提供:清华大学出版社
    • 作者:(印)尚沙勒·辛格等著
    • 著:(印)尚沙勒·辛格等著
    • 装帧:平装
    • 印次:1
    • 定价:149.00
    • ISBN:9787302596875
    • 出版社:清华大学出版社
    • 开本:16开
    • 印刷时间:暂无
    • 语种:暂无
    • 出版时间:2022-01
    • 页数:452
    • 外部编号:11465939
    • 版次:第1版
    • 成品尺寸:暂无

    部分 Hadoop 3简介
    章 Hadoop 3简介 3
    1.1 Hadoop起源和时间轴 3
    1.1.1 Hadoop的起源 4
    1.1.2 时间轴 5
    1.2 Hadoop 3及其特 7
    1.3 Hadoop逻辑视图 8
    1.4 Hadoop发行版本 10
    1.4.1 本地版本 11
    1.4.2 云版本 11
    1.5 回顾 12
    1.6 本章小结 12
    第2章 深入理解Hadoop分布式文件系统 13
    2.1 技术需求 13
    2.2 定义HDFS 13
    . 深入研究HDFS体系结构 14
    ..1 HDFS逻辑结构 15
    ..2 数据分组的概念 18
    .. HDFS通信体系结构 19
    2.4 NameNode内部机制 21
    2.5 数据本地和机架感知 22
    2.6 DataNode内部机制 24
    2.7 orum Journal Manager(JM) 25
    2.8 Hadoop 3.x中的高可用 26
    2.9 数据管理 27
    2.9.1 元数据管理 28
    2.9.2 使用二级NameNode的检查点 31
    2.9.3 数据集成 32
    2.9.4 HDFS快照 32
    2.9.5 数据平衡机制 33
    2.9.6 均衡器的应用方案 35
    2.10 HDFS写入、读取操作 36
    2.10.1 写入工作流 36
    2.10.2 读取工作流 38
    2.10.3 短路读取 40
    2.11 管理Hadoop 3.x中的磁盘倾斜数据 41
    2.12 HDFS中的延迟持久化写入操作 42
    2.13 Hadoop 3.x中的纠删码 43
    2.13.1 纠删码的优点 45
    2.13.2 纠删码的缺点 45
    2.14 HDFS公共接口 45
    2.14.1 HDFS读取操作 46
    2.14.2 HDFS写入操作 48
    2.14.3 HDFSFileSystemWrite.java文件 49
    2.14.4 HDFS删除操作 50
    2.15 HDFS命令参考 50
    2.15.1 文件系统命令 50
    2.15.2 分布式复制 52
    2.15.3 管理命令 53
    2.16 回顾 54
    2.17 本章小结 54
    第3章 YARN资源管理器 55
    3.1 YARN体系结构 55
    3.1.1 资源管理器组件 58
    3.1.2 节点管理器核心 60
    3.2 YARN作业调度机制简介 60
    3.3 FIFO调度器 61
    3.4 计算能力调度器 61
    3.5 公平调度器 63
    3.5.1 调度队列 63
    3.5.2 配置公平调度器 64
    3.6 资源管理器的高可用 65
    3.6.1 资源管理器高可用的体系结构 66
    3.6.2 配置资源管理器高可用 67
    3.7 节点标记 69
    3.8 Hadoop 3.x中的YARN时间轴服务器 75
    3.9 Hadoop 3.x中的机会型容器 77
    3.10 YARN中的Docker容器 79
    3.10.1 配置Docker容器 80
    3.10.2 运行Docker镜像 80
    3.10.3 运行容器 80
    3.11 YARN REST API 81
    3.11.1 资源管理API 81
    3.11.2 节点管理器REST API 85
    3.12 YARN命令参考 86
    3.12.1 用户命令 87
    3.12.2 应用程序命令 87
    3.1. 日志命令 88
    3.12.4 管理员命令 89
    3.13 本章小结 90
    第4章 MapReduce内部机制 91
    4.1 技术需求 91
    4.2 深入了解Hadoop MapReduce框架 91
    4.3 YARN和MapReduce 95
    4.4 Hadoop框架中的MapReduce工作流 97
    4.5 常见的MapReduce模式 100
    4.5.1 求和模式 100
    4.5.2 过滤模式 112
    4.5.3 连接模式 116
    4.5.4 复合连接 1
    4.6 MapReduce用例 126
    4.6.1 MovieRatingMapper 127
    4.6.2 MovieRatingReducer 128
    4.6.3 MovieRatingDriver 128
    4.7 优化MapReduce 130
    4.7.1 硬件配置 130
    4.7.2 操作系统调试 131
    4.7.3 优化技术 132
    4.7.4 运行期配置 133
    4.7.5 文件系统优化 133
    4.8 本章小结 134
    第2部分 Hadoop生态圈
    第5章 Hadoop中的SL 37
    5.1 技术需求 137
    5.2 Prest 37
    5.2.1 Presto体系结构 138
    5.2.2 安装Presto并执行基本的查询操作 139
    5.. 函数 142
    5.2.4 Presto连接器 144
    5.3 Hive 147
    5.3.1 Apache Hive体系结构 148
    5.3.2 安装和运行Hive 149
    5.3.3 Hive查询 150
    5.3.4 选择文件格式 154
    5.3.5 HCatalog简介 156
    5.3.6 HiveServer2简介 157
    5.3.7 Hive UDF 157
    5.3.8 理解Hive中的AC 161
    5.3.9 分区机制和分桶机制 166
    5.3.10 实践 167
    5.4 Impala 168
    5.4.1 Impala体系结构 168
    5.4.2 了解Impala接口和查询 170
    5.4.3 Impala实战 171
    5.4.4 加载CSV文件中的数据 173
    5.4.5 实践方案 175
    5.5 本章小结 176
    第6章 实时处理引擎 177
    6.1 技术需求 177
    6.2 Spark 177
    6.2.1 Apache Spark内部机制 178
    6.2.2 弹分布式数据集 180
    6.. 安装并运行个Spark作业 182
    6.2.4 累加器和广播变量 188
    6.2.5 理解数据框和数据集 189
    6.2.6 Spark集群管理器 192
    6.2.7 实践 193
    6.3 Apache Flink 195
    6.3.1 Flink体系结构 195
    6.3.2 Apache Flink生态圈组件 196
    6.3.3 数据流和数据集API 198
    6.3.4 表API 201
    6.3.5 实践 203
    6.4 Storm/Heron 204
    6.4.1 Storm/Heron体系结构 205
    6.4.2 理解Storm Trident 210
    6.4.3 Storm集成 211
    6.4.4 实践 212
    6.5 本章小结 212
    第7章 Hadoop生态圈组件 213
    7.1 技术需求 213
    7.2 Pig 213
    7.2.1 Apache Pig体系结构 214
    7.2.2 安装并运行Pig 216
    7.. Pig Latin和Grunt 217
    7.2.4 编写Pig中的UDF 218
    7.2.5 Pig和Hive 221
    7.2.6 实践 222
    7.3 HBase 222
    7.3.1 HBase体系结构及其概念 2
    7.3.2 CAP理论 225
    7.3.3 HBase操作机器示例 227
    7.3.4 安装 0
    7.3.5 实践 2
    7.4 Kafka
    7.4.1 Apache Kafka体系结构 4
    7.4.2 安装和运行Apache Kafka
    7.4.3 生产者和使用者的内部机制
    7.4.4 编写生产者和使用者应用程序 241
    7.4.5 Kafka的ETL连接 244
    7.4.6 实践 248
    7.5 Flume 249
    7.5.1 Apache Flume体系结构 249
    7.5.2 深入理解源、通道和接收器 251
    7.5.3 Flume 265
    7.5.4 用例—Twitter数据 271
    7.5.5 实践 273
    7.6 本章小结 274
    第3部分 Hadoop的实际应用
    第8章 定义Hadoop中的应用程序 277
    8.1 技术需求 277
    8.2 文件格式 277
    8.2.1 了解文件格式 278
    8.2.2 文本 279
    8.. 序列文件 279
    8.2.4 Avro 282
    8.2.5 优化的行和列(ORC) 284
    8.2.6 Parquet 285
    8.3 数据压缩 285
    8.3.1 Hadoop中的数据压缩类型 286
    8.3.2 压缩格式 289
    8.4 序列化 290
    8.5 数据摄取 290
    8.5.1 批量摄取 291
    8.5.2 宏批处理摄取 292
    8.5.3 实时摄取 293
    8.6 数据处理 294
    8.6.1 批处理 294
    8.6.2 微批处理 296
    8.6.3 实时处理 297
    8.7 常见的批处理模式 298
    8.7.1 缓时变维度 298
    8.7.2 重复记录和小型文件 300
    8.7.3 实时查找 301
    8.8 针对编排的Airflow 302
    8.9 数据治理 303
    8.9.1 数据治理的主要内容 303
    8.9.2 元数据管理 304
    8.9.3 数据生命周期管理 305
    8.9.4 数据分类 306
    8.10 本章小结 307
    第9章 Hadoop中的实时流处理 309
    9.1 技术需求 309
    9.2 流式数据集 309
    9.3 流数据摄取 310
    9.3.1 Flume中基于事件的数据摄取 310
    9.3.2 Kafka 311
    9.4 常见的流数据处理模式 313
    9.5 流式设计 314
    9.5.1 延迟 315
    9.5.2 数据可用、一致和安全 315
    9.5.3 数据源 316
    9.5.4 数据查找 316
    9.5.5 数据格式 317
    9.5.6 序列化数据 317
    9.5.7 并行处理机制 317
    9.5.8 无序事件 318
    9.5.9 消息传递语义 318
    9.6 微批处理用例 319
    9.7 实时处理案例 328
    9.7.1 主代码 333
    9.7.2 执行代码 344
    9.8 本章小结 345
    0章 Hadoop中的机器学习 347
    10.1 技术需求 347
    10.2 机器学习步骤 347
    10.3 常见的机器学习挑战 348
    10.4 Spark机器学习 349
    10.4.1 转换器函数 350
    10.4.2 评估器 351
    10.4.3 Spark ML管线 351
    10.5 Hadoop和R 352
    10.6 Mahout 353
    10.7 Spark中的机器学习案例 354
    10.8 本章小结 358
    1章 云端中的Hadoop 359
    11.1 技术需求 359
    11.2 云端Hadoop的逻辑视图 359
    11.3 网络 361
    11.3.1 区域和可用区 361
    11.3.2 VPC和子网 362
    11.3.3 安全组和防火墙规则 363
    11.3.4 AWS操作示例 364
    11.4 管理资源 370
    11.5 数据管线 374
    11.5.1 Amazon数据管线 375
    11.5.2 Airflow 375
    11.5.3 Airflow组件 376
    11.5.4 数据管线的DAG示例 376
    11.6 高可用(HA) 379
    11.6.1 服务器故障 379
    11.6.2 云存储高可用 31
    11.7 本章小结 382
    2章 Hadoop集群分析 383
    12.1 基准测试和分析简介 383
    12.2 HDFS 385
    1. NameNode 386
    1..1 NNBench 386
    1..2 NNThroughputBenchmark 387
    1.. 合成加载生成器 389
    12.4 YARN 392
    12.5 Hive 393
    12.5.1 TPC-DS 393
    12.5.2 TPC-H 394
    12.6 混合工作负载 395
    12.6.1 Rumen 395
    12.6.2 Gridmix 396
    12.7 本章小结 397
    第4部分 Hadoop的安全机制
    3章 Hadoop中的角色及其执行内容 401
    13.1 Hadoop安全问题的各种因素 401
    13.2 系统安全 402
    13.3 Kerberos制 403
    13.3.1 Kerberos的优点 404
    13.3.2 Kerberos验流 404
    13.4 用户权限 406
    13.4.1 Ranger 407
    13.4.2 Sentry 408
    13.5 Hadoop 3.0中的安全特征列表 409
    13.6 本章小结 411
    4章 网络和数据安全 413
    14.1 Hadoop网络安全 413
    14.1.1 隔离不同类型的网络 413
    14.1.2 网络防火墙 415
    14.1.3 Hadoop服务的网络边界安全工具 415
    14.2 加密技术 417
    14.2.1 传输数据加密 417
    14.2.2 静态数据加密 418
    14.3 数据屏蔽机制 419
    14.4 过滤机制 420
    14.4.1 行级别过滤机制 420
    14.4.2 列级别过滤机制 421
    14.5 本章小结 421
    5章 监测Hadoop 4
    15.1 通用监测机制 4
    15.1.1 HDFS指标 4
    15.1.2 YARN指标 425
    15.1.3 ZooKeeper指标 426
    15.1.4 Apache Ambari 426
    15.2 安全监测机制 427
    15.2.1 安全信息和事件管理 427
    15.2.2 SIEM的工作方式 428
    15.. 入侵检测系统 429
    15.2.4 入侵预防系统 430
    15.3 本章小结 430

    《精通Hadoop3》阐述了Hadoop生态圈中的高级概念,并通过安全机制、监测机制和数据管理机制构建高能的Hadoop数据管线。除此之外,本书还利用Apache Spark 和Flink改进企业级应用程序,并考查Hadoop的内部工作机制,包括一些真实案例的构建方案。同时,我们还将通过Hadoop 3数据平台探讨企业级应用程序的实践方案,其中涉及授权和身份制。随后,我们将学习如何在Hadoop中对数据进行建模、深入了解基于Hadoop 3的分布式计算机制,并查看不同的数据批处理模式。后,本书讨论如何高效地继承Hadoop生态圈中的组件,以实现高速、可靠的大数据管线。

    《精通Hadoop3》详细阐述了与Hadoop 3相关的基础知识,主要包括Hadoop 3简介、深入理解Hadoop分布式文件系统、YARN资源管理器、MapReduce内部机制、Hadoop中的SL、实时处理引擎、Hadoop生态圈组件、定义Hadoop中的应用程序、Hadoop中的实时流处理、Hadoop中的机器学习、云端中的Hadoop、Hadoop集群分析、Hadoop中的角色及其执行内容、网络和数据安全、监测Hadoop等内容。此外,本书还提供了相应的示例、代码,以帮读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。

    "《精通Hadoop3》阐述了Hadoop生态圈中的高级概念,并通过安全机制、监测机制和数据管理机制构建高能的Hadoop数据管线。 除此之外,本书还利用Apache Spark 和Flink改进企业级应用程序,并考查Hadoop的内部工作机制,包括一些真实案例的构建方案。同时,我们还将通过Hadoop 3数据平台探讨企业级应用程序的很好实践方案,其中涉及授权和身份制。随后,我们将学习如何在Hadoop中对数据进行建模、深入了解基于Hadoop 3的分布式计算机制,并查看不同的数据批处理模式。 ,本书讨论如何高效地继承Hadoop生态圈中的组件,以实现高速、可靠的大数据管线。 "

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购