由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
正版 大数据平台运维(高级1+X证书系列教材)/新华三数字化技术人
¥ ×1
目录
第一部分 大数据平台架构
第1章 Hadoop集群选型 2
1.1 Hadoop 集群概述 2
1.1.1 Cloudera Hadoop发行版
CDH简介 2
1.1.2 CDH 特性 3
1.1.3 CDH 版本演进 3
1.1.4 CDH 和 Apache Hadoop 对比 4
1.1.5 Cloudera Manager 简介 4
1.2 Hadoop 集群硬件设计概述 5
1.3 大数据平台硬件选型 6
1.4 集群硬件配置方案制定 7
1.5 大数据集群网络方案设计 8
1.5.1 网络平面设计 8
1.5.2 机架部署设计 8
1.5.3 Hadoop集群网络规范 8
1.5.4 大数据集群网络部署实例 10
1.6 大数据集群网络高可用方案
设计 11
1.6.1 集群主机和角色分布 11
1.6.2 集群高可用方案设计 11
1.7 本章小结 12
第2章 Hadoop平台架构设计 13
2.1 Hadoop 集群节点高可用方案
规划设计 13
2.2 Hadoop集群容量方案规划
设计 14
2.2.1 小规模集群规划设计 14
2.2.2 中等规模集群规划设计 15
2.2.3 大规模集群规划设计 16
2.3 Hadoop行业方案规划设计 17
2.4 Hadoop企业方案规划设计 21
2.4.1 企业大数据平台易产生的
缺陷 21
2.4.2 企业大数据平台架构思想 22
2.4.3 企业大数据平台能力需求 23
2.4.4 企业大数据平台设计方案 24
2.5 本章小结 26
第3章 Hadoop组件部署规划 27
3.1 Hadoop 集群组件选择 27
3.1.1 CDH 集群 27
3.1.2 CDH 组件 28
3.2 Hadoop 集群版本选择 32
3.3 Hadoop 生态组件的工作原理 32
3.3.1 生态体系 32
3.3.2 各层相关组件概念及原理 32
3.4 Hadoop 生态圈的发展趋势 37
3.5 本章小结 37
第二部分 大数据平台安全管理
第4章 大数据平台安全体系 40
4.1 安全与认证概述 40
4.1.1 安全要求 40
4.1.2 安全等级 41
4.1.3 认证概述 41
4.2 Hadoop 安全背景 41
4.2.1 Hadoop 安全背景 41
4.2.2 Hadoop 安全架构 42
4.2.3 Hadoop 安全机制 43
4.3 安全认证 43
4.3.1 身份验证协议(Kerberos) 43
4.3.2 Hadoop 安全机制的具体
实现 48
4.3.3 Hadoop 安全机制的应用
场景 50
4.4 认证方式 52
4.4.1 Kerberos 安全工件 52
4.4.2 Kerberos 主体 52
4.5 本章小结 53
第5章 大数据平台安全实战 54
5.1 Kerberos 安装部署 54
5.1.1 集群环境准备 55
5.1.2 Kerberos 安装 55
5.2 HDFS 配置 Kerberos 60
5.2.1 创建认证规则 60
5.2.2 认证规则配置实现 60
5.2.3 创建 keytab 文件 61
5.2.4 部署 Kerberos keytab 文件 62
5.2.5 修改 HDFS 配置文件 62
5.2.6 启动 NameNode 64
5.2.7 启动 DataNode 65
5.3 YARN 配置 Kerberos 66
5.3.1 生成 keytab 66
5.3.2 修改 YARN 配置文件 67
5.3.3 启动服务 69
5.3.4 测试 69
5.4 本章小结 70
第6章 大数据平台治理 71
6.1 大数据数据资产概述 71
6.1.1 数据资产定义 71
6.1.2 数据资产管理五星模型 72
6.1.3 大数据资产管理框架 75
6.2 大数据平台管理体系 76
6.2.1 大数据标准体系框架 76
6.2.2 大数据平台关键技术 78
6.2.3 面向特定领域大数据参考
架构 81
6.3 大数据的数据共享与开放 83
6.3.1 数据共享开放概述 83
6.3.2 政府数据开放共享发展
历程 84
6.3.3 数据开放共享主要实现
方式 85
6.3.4 大数据开放共享困境 87
6.4 大数据安全与隐私保护 88
6.4.1 大数据安全与隐私问题
现状 88
6.4.2 大数据安全技术总体视图 89
6.4.3 开源大数据平台安全方案 90
6.5 本章小结 92
第三部分 大数据平台资源治理
第7章 大数据平台资源治理 94
7.1 大数据平台资源治理概述 94
7.1.1 资源统一管理与调度 94
7.1.2 资源管理调度模型框架 96
7.2 资源管理调度技术框架 99
7.2.1 Hadoop 资源管理调度架构 99
7.2.2 YARN 资源隔离 101
7.2.3 YARN 资源调度策略 102
7.3 Spark 内存管理模型 107
7.3.1 Spark 内存管理模型概述 107
7.3.2 静态资源管理模型 108
7.3.3 动态资源管理模型 110
7.4 本章小结 111
第8章 大数据平台数据治理 112
8.1 数据治理综述 112
8.2 数据治理标准及框架 114
8.2.1 数据管理能力成熟度评估
模型(DCMM) 114
8.2.2 GB/T 34960 数据治理规范 115
8.2.3 DAMA 数据管理理论框架 116
8.2.4 数据资产管理体系架构 116
8.3 数据治理核心工具 117
8.3.1 数据模型管理工具 117
8.3.2 元数据管理工具 118
8.3.3 数据质量管理工具 119
8.3.4 数据标准管理工具 120
8.3.5 主数据管理工具 121
8.3.6 数据安全管理工具 122
8.3.7 数据服务平台工具 123
8.4 高校数据治理实践 124
8.4.1 背景介绍 124
8.4.2 数据治理解决方案 125
8.5 本章小结 127
第四部分 大数据平台优化
第9章 Linux系统优化 130
9.1 swap 分区优化 130
9.1.1 swap 分区简介 130
9.1.2 swap 分区的优化 131
9.2 内存分配策略调整 132
9.2.1 内存分页 132
9.2.2 脏页 133
9.2.3 脏页参数优化 134
9.3 Socket 监听参数修改 134
9.3.1 什么是 Socket 134
9.3.2 Socket 读写缓冲区调优 135
9.4 打开文件描述符的上限优化 137
9.4.1 什么是文件描述符 137
9.4.2 可打开文件描述符的数目
优化 137
9.5 Transparent Huge Pages 优化 138
9.5.1 Transparent Huge Pages
简介 138
9.5.2 Transparent Huge Pages 对
系统的影响 139
9.5.3 禁用 Transparent Huge
Pages 139
9.6 本章小结 140
第10章 Hadoop应用程序优化 141
10.1 减少大量小文件输入 141
10.1.1 HDFS 上的小文件问题 141
10.1.2 小文件问题解决方案 142
10.2 合理分配分布式缓存 143
10.2.1 分布式缓存简介 143
10.2.2 分布式缓存应用场景 144
10.2.3 分布式缓存的工作机制 144
10.2.4 分布式缓存实现 144
10.3 写数据类型合理使用 145
10.3.1 Hadoop 中的写数据类型
介绍 145
10.3.2 Java 基本数据类型的
Writable 封装 145
10.3.3 自定义 Writable 数据类型 146
10.4 JVM 缓存调优 146
10.4.1 为什么需要 JVM 缓存
调优 146
10.4.2 JVM 缓存参数 147
10.4.3 JVM 调优的原则和步骤 148
10.5 本章小结 148
第11章 Hadoop组件性能优化 149
11.1 HDFS 集中缓存管理 149
11.1.1 HDFS 集中缓存简介 149
11.1.2 HDFS 集中缓存架构及
概念定义 150
11.1.3 集中缓存配置 152
11.2 MapReduce 调度配置优化 153
11.2.1 MapReduce on YARN 调度
机制 153
11.2.2 公平调度器(Fair Scheduler)
153
11.2.3 容量调度器(Capacity
Scheduler) 156
11.2.4 先进先出调度器
(FIFO Scheduler) 158
11.3 YARN 内存配置优化 159
11.3.1 MapReduce on YARN 159
11.3.2 优化内存配置方法 160
11.4 Spark 程序优化 161
11.4.1 Spark 程序优化必要性 161
11.4.2 Spark 参数调优 162
11.4.3 环境变量配置 163
11.4.4 常用的可调优参数 163
11.5 本章小结 165
第五部分 大数据平台升级
第12章 大数据备份和恢复 168
12.1 备份恢复概述 168
12.2 HDFS 备份恢复 168
12.2.1 HDFS 元数据备份恢复 168
12.2.2 HDFS 快照 171
12.2.3 HDFS 本地备份与恢复 173
12.2.4 Sqoop 增量导入 174
12.3 Hive元数据库备份恢复 174
12.4 HBase 备份恢复 176
12.4.1 HBase 表备份恢复 176
12.4.2 HBase 快照 179
12.5 本章小结 181
第13章 大数据平台核心升级 182
13.1 大数据平台升级概述 182
13.2 评估升级的影响 183
13.3 升级平台操作系统 184
13.4 升级准备工作 185
13.4.1 集群检查 185
13.4.2 备份 CDH 187
13.4.3 备份 HDFS 188
13.4.4 备份 HBase 190
13.4.5 升级前相关组件手动
操作 195
13.4.6 准备 CDH6 的本地
yum 源 195
13.5 本章小结 197
第14章 大数据平台及组件升级 198
14.1 HDFS 升级概述 198
14.1.1 不停机升级 198
14.1.2 停机升级 199
14.1.3 滚动升级的命令和启动
选项 200
14.2 HDFS 升级 201
14.3 YARN 升级 203
14.4 ZooKeeper 升级 206
14.5 HBase 升级 206
14.5.1 HBase 版本号和兼容性 206
14.5.2 滚动升级 208
14.5.3 升级路径 209
14.5.4 升级 HBase 操作 211
14.6 本章小结 212
第六部分 大数据平台项目综合案例
第15章 政务大数据运维项目实战 214
15.1 政务项目背景和流程 214
15.1.1 背景介绍 214
15.1.2 政务项目开发流程 215
15.2 数据说明与预处理 215
15.2.1 数据说明 215
15.2.2 数据预处理 215
15.3 数据上传 216
15.4 在 MySQL 中建库 218
15.4.1 进入 MySQL Shell环境 218
15.4.2 创建一个数据库 218
15.4.3 创建数据明细表 218
15.4.4 创建区域金额表 219
15.4.5 创建人员类型金额表 219
15.4.6 添加 MySQL 数据库驱动
程序 JAR 包 219
15.5 通过 Spark 程序分析数据 220
15.5.1 新建项目 220
15.5.2 设置依赖包 221
15.5.3 设置项目目录 222
15.5.4 新建 Scala 代码文件 222
15.5.5 编写 Scala 代码文件 223
15.5.6 配置 pom.xml 文件 225
15.5.7 在 IDEA 中运行程序 227
15.6 查询分析结果 228
15.7 本章小结 229
第16章 大数据平台安全运维实战 230
16.1 项目背景 230
16.1.1 大数据加大隐私泄露风险 230
16.1.2 大数据技术被应用到攻击
手段中 230
16.1.3 认证授权能力弱 231
16.1.4 数据无加密 231
16.1.5 内部人员窃密 231
16.2 需求分析 231
16.3 Sentry 介绍 232
16.3.1 Sentry 架构概述 232
16.3.2 Sentry 关键概念 232
16.3.3 Sentry 与 Hadoop 生态系统
集成 233
16.3.4 Hive 和 Sentry 233
16.3.5 Sentry 和 HDFS 234
16.4 解决方案 235
16.4.1 总体设计 235
16.4.2 详细设计 235
16.5 项目实施 236
16.5.1 用户规划 236
16.5.2 目录规划 237
16.5.3 HDFS 文件权限控制 237
16.5.4 HDFS ACL 权限设置 238
16.5.5 服务访问控制授权 239
16.5.6 YARN 队列访问控制列表 240
16.5.7 安装 Sentry 244
16.5.8 配置 Sentry 244
16.5.9 配置 Sentry 客户端参数 245
16.5.10 配置 Hive 集群集成 Sentry 246
16.6 本章小结 250
第17章 商业大数据平台运维实战 251
17.1 集群状态查看 251
17.1.1 检查各服务的运行状态 251
17.1.2 集群各个主机资源负载
情况 252
17.2 HDFS 运维与监控 253
17.2.1 HDFS 总体情况 253
17.2.2 HDFS 数据节点卷故障
检查 254
17.2.3 HDFS 回收站管理 255
17.2.4 NameNode 重要监控 255
17.2.5 HDFS 数据块检查 256
17.2.6 HDFS 安全模式操作 259
17.3 YARN 运维与监控 259
17.3.1 YARN 总体情况 259
17.3.2 YARN 多租户资源队列
运维 260
17.4 HBase 运维与监控 262
17.4.1 HBase 总体情况 262
17.4.2 定位数据热点 262
17.4.3 禁用 Major 合并 263
17.4.4 一致性检查和不一致
修复 263
17.4.5 备份和恢复 264
17.4.6 数据快照 265
17.5 本章小结 266
新华三技术有限公司是紫光股份旗下新华三集团作为数字化解决方案,致力于成为客户业务创新、数字化转型最可信赖的合作伙伴。新华三拥有计算、存储、网络、5G、安全等多方面的数字化基础设施整体能力,提供云计算、大数据、人工智能、工业互联网、信息安全、智能联接、新安防、边缘计算等在内的一站式数字化解决方案,以及端到端的技术服务。同时,新华三也是HPE?服务器、存储和技术服务的中国定制提供商。
本书为"1+X”职业技能等级证书配套教材,按国家"1+X”大数据平台运维职业技能等级标准编写。本书属于大数据平台运维初级教材,从大数据平台运维工程师角度由浅入深、全方位地介绍大数据平台运维的相关基础知识和基本实操。本书共分6个部分18章,第一部分为大数据平台安装,涉及平台操作系统的使用、Hadoop平台安装、平台基础环境配置;第二部分为大数据平台配置,涉及Hadoop文件参数配置、Hadoop集群运行;第三部分为大数据平台组件的安装与配置,涉及Hive、HBase、ZooKeeper、Sqoop和Flume组件的安装与配置;第四部分为大数据平台实施,涉及大数据平台实施方案、培训方案;第五部分为大数据平台监控,涉及基于大数据平台的监控命令、监控界面和报表、日志和告警信息监控;第六部分为大数据运维综合实战案例,以实际项目为例介绍从平台部署、数据业务采集、数据分析到数据可视化的整体基础实施过程,并介绍了大数据平台运维的常见故障及处理流程。 本书可作为中高职院校大数据及计算机类相关专业的教材,也可作为大数据平台运维人员的参考用书。
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格