返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • 大数据平台运维(中级) 新华三技术有限公司 编 大中专 文轩网
  • 新华书店正版
    • 作者: 新华三技术有限公司著
    • 出版社: 电子工业出版社
    • 出版时间:2021-04-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

         https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: 新华三技术有限公司著
    • 出版社:电子工业出版社
    • 出版时间:2021-04-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2021-04-01
    • 字数:490000
    • 页数:281
    • 开本:16开
    • 装帧:平装
    • ISBN:9787121410307
    • 国别/地区:中国
    • 版权提供:电子工业出版社

    大数据平台运维(中级)

    作  者:新华三技术有限公司 编
    定  价:69.8
    出 版 社:电子工业出版社
    出版日期:2021年04月01日
    页  数:292
    装  帧:平装
    ISBN:9787121410307
    主编推荐

    内容简介

    本书为“1+X”职业技能等级证书配套教材,按国家1+X证书制度试点大数据平台运维职业技能等级标准编写。本书从大数据平台运维工程师的角度,由浅入深、全方位地介绍了大数据平台运维的相关实践知识和核心实操。本书共六部分,包括21章:第一部分,大数据平台架构,涉及大数据的特点及发展趋势、大数据的实施和运维流程、大数据的应用场景与案例;第二部分,大数据平台高可用(HA)集群部署,涉及Hadoop集群基础环境的配置、HadoopHA集群的配置、HadoopHA集群的启动;第三部分,大数据组件的维护,涉及HBase组件的维护、Hive组件的维护、ZooKeeper组件的维护、ETL组件的维护、Spark组件的维护;第四部分,大数据平台优化,涉及Linux系统优化、HDFS配置优化、MapReduce配置优化、Spark配置优化;第五部分,大数据平台的诊断与处理,涉及Hadoop及生态圈组件负载均衡的诊断null

    作者简介

    精彩内容

    目录
    第一部分大数据平台架构
    第1章大数据的特点及发展趋势2
    1.1大数据平台架构概述2
    1.1.1大数据的概念2
    1.1.2大数据的特征3
    1.1.3大数据的处理流程及相关技术4
    1.1.4大数据平台架构的特点5
    1.2大数据平台架构的原理5
    1.3大数据的发展历程6
    1.3.1大数据的具体发展过程6
    1.3.2大数据技术的具体发展历程7
    1.4大数据的发展趋势8
    1.4.1大数据技术面临的挑战8
    1.4.2大数据应用的发展趋势10
    1.5本章小结11
    第2章大数据的实施和运维流程12
    2.1大数据实施和运维工程师的工作职责12
    2.1.1大数据职位体系12
    2.1.2大数据实施工程师的工作职责14
    2.1.3大数据运维工程师的工作职责15
    2.2大数据实施和运维工程师的工作能力素养要求15
    2.2.1大数据实施工程师的工作能力素养要求15
    2.2.2大数据运维工程师的工作能力素养要求16
    2.3大数据项目实施的工作流程18
    2.3.1大数据项目规划阶段18
    2.3.2大数据项目数据治理阶段19
    2.3.3大数据项目设计阶段20
    2.3.4大数据项目数据应用阶段21
    2.3.5大数据项目迭代实施与应用推广阶段22
    2.4大数据运维的日常工作23
    2.4.1应急处置23
    2.4.2故障报告24
    2.4.3故障检查24
    2.4.4故障诊断25
    2.4.5故障测试与修复25
    2.5本章小结26
    第3章大数据的应用场景与案例27
    3.1大数据平台架构的典型行业应用场景27
    3.1.1医疗行业的应用27
    3.1.2金融行业的应用28
    3.1.3零售行业的应用29
    3.1.4地产行业的应用29
    3.1.5农业的应用30
    3.1.6政务和智慧城市的应用30
    3.1.7教育行业的应用30
    3.1.8环境行业的应用30
    3.2大数据平台架构的典型企业应用场景30
    3.2.1舆情分析31
    3.2.2商业智能31
    3.3Hadoop生态圈中行业应用的典型实战案例32
    3.3.1电信行业――中国移动基于Hadoop的大数据应用32
    3.3.2金融行业――VISA公司的Hadoop应用案例33
    3.3.3电商行业――eBay网站的Hadoop应用案例33
    3.4Hadoop生态圈中企业应用的典型实战案例33
    3.4.1新华三大数据集成平台在大地影院的应用案例背景33
    3.4.2大地的应用案例的用户痛点分析34
    3.4.3大地的应用案例的项目需求34
    3.4.4大地的应用案例的数据构成34
    3.4.5大地的应用案例的技术方案设计与实现34
    3.4.6大地的应用案例系统核心组件(H3C数据集成组件)简介36
    3.4.7大地的应用案例的系统优势及成效36
    3.5本章小结36
    第二部分大数据平台高可用(HA)集群部署
    第4章Hadoop集群基础环境的配置38
    4.1Hadoop集群概述38
    4.1.1Hadoop集群的核心组件38
    4.1.2Hadoop集群的网络拓扑结构40
    4.2平台系统的环境设置41
    4.2.1Linux系统环境配置41
    4.2.2创建hadoop用户43
    4.3Linux防火墙43
    4.3.1Linux防火墙的种类与特点44
    4.3.2Linux防火墙管理45
    4.4SELinux47
    4.4.1SELinux简介47
    4.4.2SELinux的功能47
    4.4.3SELinux的配置47
    4.4.4关闭集群中的SELinux47
    4.5配置集群主机之间时钟同步48
    4.5.1直接同步48
    4.5.2平滑同步49
    4.6SSH无密码登录50
    4.6.1生成SSH密钥50
    4.6.2交换SSH密钥51
    4.6.3验证SSH无密码登录52
    4.7Java环境变量配置52
    4.7.1JDK功能简介52
    4.7.2下载JDK安装包53
    4.7.3JDK的安装与环境变量配置53
    4.8Hadoop的安装与配置54
    4.8.1获取Hadoop安装包54
    4.8.2安装Hadoop软件54
    4.9本章小结55
    第5章HadoopHA集群的配置56
    5.1HadoopHA集群的特点56
    5.2HadoopHA集群的实现原理57
    5.2.1HDFSHA的实现原理57
    5.2.2YARNHA的实现原理58
    5.3ZooKeeper的特点58
    5.3.1ZooKeeper的功能原理58
    5.3.2ZooKeeper集群节点组成59
    5.3.3ZooKeeper的同步机制60
    5.3.4ZooKeeper的选举机制60
    5.4ZooKeeperHA集群61
    5.4.1在master节点上安装部署ZooKeeper61
    5.4.2在master节点上配置ZooKeeper文件参数61
    5.4.3分发ZooKeeper给slave1节点和slave2节点62
    5.5HadoopHA集群的文件参数64
    5.5.1在master节点上配置HadoopHA集群的文件参数64
    5.5.2分发hadoop相关文件给slave1节点和slave2节点68
    5.6JournalNode服务69
    5.6.1JournalNode服务的原理69
    5.6.2启动JournalNode服务70
    5.7本章小结70
    第6章HadoopHA集群的启动71
    6.1HDFS的格式化71
    6.1.1activeNameNode的格式化和启动71
    6.1.2standbyNameNode的格式化和启动72
    6.1.3格式化ZKFC73
    6.2HadoopHA集群的启动流程73
    6.2.1启动HDFS73
    6.2.2启动YARN74
    6.2.3启动MapReduce的历史服务器75
    6.3启动后验证75
    6.3.1查看进程75
    6.3.2查看端口76
    6.3.3运行测试77
    6.4HadoopHA集群的主备切换78
    6.4.1HadoopHA集群的切换机制78
    6.4.2手动切换测试79
    6.4.3自动切换测试79
    6.5本章小结81
    第三部分大数据组件的维护
    第7章HBase组件的维护84
    7.1NoSQL与传统RDBMS的差异84
    7.1.1传统RDBMS及其应用场景84
    7.1.2NoSQL简介85
    7.2HBase组件的原理86
    7.2.1HBase简介86
    7.2.2HBase的体系结构86
    7.3HBase的分布式部署87
    7.3.1HBase集群环境准备87
    7.3.2HBase的分布式安装88
    7.4HBase库/表管理90
    7.4.1HBase库管理90
    7.4.2HBase表管理91
    7.5HBase数据操作93
    7.5.1基础操作93
    7.5.2模糊查询94
    7.5.3批量导入/导出95
    7.6HBase错误恢复97
    7.7退出HBase库98
    7.8卸载HBase库98
    7.9本章小结98
    第8章Hive组件的维护99
    8.1Hive的架构99
    8.1.1Hive简介99
    8.1.2Hive的数据类型100
    8.2分布式部署Hive101
    8.2.1环境需求101
    8.2.2MySQL的安装与启动102
    8.2.3配置Hive参数103
    8.2.4BeelineCLI远程访问Hive105
    8.3Hive库操作106
    8.4Hive表操作107
    8.4.1创建表107
    8.4.2查看与修改表108
    8.4.3删除表和退出Hive108
    8.5Hive数据操作109
    8.5.1数据导入109
    8.5.2查询110
    8.6Hive宕机恢复111
    8.6.1数据备份111
    8.6.2基于HDFS的数据恢复112
    8.6.3基于MySQL元数据生成表结构112
    8.7退出和卸载Hive组件115
    8.7.1退出Hive115
    8.7.2卸载Hive115
    8.8本章小结115
    第9章ZooKeeper组件的维护116
    9.1ZooKeeper基础116
    9.1.1ZooKeeper简介116
    9.1.2ZooKeeper中的重要概念117
    9.2ZooKeeper的功能及其优点和局限性117
    9.2.1ZooKeeper的功能117
    9.2.2ZooKeeper的优点118
    9.2.3ZooKeeper的局限性118
    9.3ZooKeeper的架构118
    9.4ZooKeeper仲裁模式119
    9.5配置ZooKeeper120
    9.6配置ZooKeeper集群120
    9.6.1集群环境准备120
    9.6.2ZooKeeper集群的安装121
    9.7Zookeeper集群的决策选举122
    9.8ZooKeeper组件管理123
    9.8.1JMX管理框架123
    9.8.2ZooKeeperShell操作125
    9.9本章小结127
    第10章ETL组件的维护128
    10.1Sqoop概述与架构128
    10.1.1Sqoop概述128
    10.1.2Sqoop的架构129
    10.2Flume概述与架构130
    10.2.1Flume概述130
    10.2.2Flume的架构130
    10.3Kafka概述与架构131
    10.3.1Kafka概述131
    10.3.2Kafka的架构132
    10.4Sqoop导入数据133
    10.5Sqoop导出数据134
    10.6修改控制Sqoop组件的参数134
    10.7Flume组件代理配置136
    10.8Flume组件的数据获取137
    10.9Flume组件管理137
    10.10Kafka组件的部署138
    10.11Kafka组件的验证部署139
    10.12Kafka组件的数据处理140
    10.13本章小结141
    第11章Spark组件的维护142
    11.1Spark概述与架构142
    11.1.1Spark概述142
    11.1.2Spark的架构144
    11.2Spark的工作原理146
    11.3Scala的安装部署148
    11.3.1Scala简介148
    11.3.2Scala的安装148
    11.4安装Spark149
    11.4.1Spark模式介绍149
    11.4.2Spark的安装部署151
    11.5修改Spark参数154
    11.5.1Spark属性154
    11.5.2环境变量155
    11.5.3Spark日志156
    11.5.4覆盖配置目录156
    11.6SparkShell编程156
    11.6.1SparkShell概述156
    11.6.2SparkShell操作156
    11.7Spark的基本管理158
    11.8本章小结160
    第四部分大数据平台优化
    第12章Linux系统优化162
    12.1Linux系统优化工具162
    12.1.1free命令162
    12.1.2top命令163
    12.2优化Linux系统的内存164
    12.2.1将hadoop用户添加到sudo组中164
    12.2.2避免使用Swap分区164
    12.2.3脏页配置优化165
    12.3优化Linux系统网络167
    12.3.1关闭Linux防火墙167
    12.3.2禁用IPv6167
    12.3.3修改somaxconn参数167
    12.3.4Socket读/写缓冲区的调优168
    12.3.5iperf网络测试工具169
    12.4优化Linux系统磁盘169
    12.4.1I/O调度器的选择169
    12.4.2禁止记录访问时间戳171
    12.5优化Linux文件系统172
    12.5.1增大可打开文件描述符的数目172
    12.5.2关闭THP172
    12.5.3关闭SELinux173
    12.6优化Linux系统预读缓冲区173
    12.7本章小结174
    第13章HDFS配置优化175
    13.1HDFS概述175
    13.1.1HDFS写数据流程176
    13.1.2HDFS读数据流程176
    13.2存储优化176
    13.2.1合理的副本系数177
    13.2.2合理的数据块大小178
    13.3磁盘I/O优化179
    13.3.1多数据存储目录179
    13.3.2开启HDFS的短路本地读配置183
    13.4节点通信优化183
    13.4.1延迟blockreport次数183
    13.4.2增大DataNode文件并发传输的大小184
    13.4.3增大NameNode工作线程池的大小184
    13.4.4增加DataNode连接NameNode的RPC请求的线程数量185
    13.4.5调整DataNode用于平衡操作的带宽185
    13.5其他常见的优化项186
    13.5.1避免读取“过时”的DataNode186
    13.5.2避免写入失效的DataNode186
    13.5.3为MapReduce任务保留一些硬盘资源187
    13.6本章小结187
    第14章MapReduce配置优化188
    14.1MapReduce概述188
    14.2Map阶段的优化190
    14.2.1降低溢出(spill)的次数190
    14.2.2在MapTask结束前对spill文件进行合并191
    14.2.3减少合并写入磁盘文件的数据量192
    14.2.4控制Map中间结果是否使用压缩192
    14.2.5选择Map中间结果的压缩算法193
    14.3Reduce阶段的优化193
    14.3.1ReduceTask的数量193
    14.3.2ReduceI/O的相关参数195
    14.3.3ReduceShuffle阶段并行传输数据的数量196
    14.3.4tasktracker并发执行的Reduce数196
    14.3.5可并发处理来自tasktracker的RPC请求数197
    14.4本章小结197
    第15章Spark配置优化198
    15.1优化SparkStreaming配置198
    15.1.1SparkStreaming简介198
    15.1.2Spark参数的配置方式199
    15.1.3Spark常用的优化参数202
    15.2优化Spark读取Kafka202
    15.2.1Spark参数设置202
    15.2.2Kafka参数设置203
    15.3优化读取Flume205
    15.3.1Flume参数设置205
    15.3.2接收端参数设置206
    15.3.3Spark读取Flume206
    15.4优化Spark写入HDFS208
    15.4.1SparkShell读取并写入HDFS208
    15.4.2显示调用HadoopAPI写入HDFS208
    15.4.3SparkStreaming实时监控HDFS209
    15.5优化SparkScala代码210
    15.5.1Scala编程技巧210
    15.5.2Scala数据优化211
    15.6本章小结212
    第五部分大数据平台的诊断与处理
    第16章Hadoop及生态圈组件负载均衡的诊断与处理214
    16.1HDFS磁盘负载不均衡问题及解决方案214
    16.1.1问题概述214
    16.1.2磁盘负载不均衡的原因与影响215
    16.1.3HDFS磁盘负载不均衡的解决方案215
    16.2MapReduce负载不均衡问题215
    16.2.1问题概述215
    16.2.2MapReduce的原理分析216
    16.2.3MapReduce负载不均衡的解决方案216
    16.3Spark负载不均衡问题216
    16.3.1问题概述216
    16.3.2Spark负载不均衡的危害217
    16.3.3Spark负载不均衡的原因217
    16.3.4问题发现与定位217
    16.3.5Spark负载不均衡的解决方案218
    16.3.6自定义Partitioner219
    16.3.7Reduce端Join转化为Map端Join219
    16.4HBase负载不均衡问题220
    16.4.1问题概述220
    16.4.2HBase负载不均衡的原因及解决方案220
    16.4.3性能指标221
    16.5Hive数据不均衡问题222
    16.5.1问题概述222
    16.5.2Hive数据不均衡的原因及解决方案223
    16.5.3Hive的典型业务场景223
    16.6本章小结224
    第17章集群节点故障的诊断与处理225
    17.1使用集群日志对节点故障进行诊断225
    17.1.1Hadoop集群中的日志文件226
    17.1.2日志主要结构解析226
    17.1.3日志级别分析227
    17.2使用集群告警信息诊断节点故障227
    17.2.1集群告警信息监控227
    17.2.2集群节点主机告警信息228
    17.3Ganglia大数据集群节点监控229
    17.4处理集群节点故障230
    17.4.1集群节点硬件异常230
    17.4.2集群节点组件及系统异常231
    17.5本章小结231
    第18章集群组件服务故障的诊断与处理232
    18.1使用集群日志诊断组件服务故障问题232
    18.1.1大数据集群常见故障问题232
    18.1.2集群中各组件日志解析232
    18.2使用集群告警信息诊断组件服务故障问题234
    18.3制订集群告警信息诊断组件服务故障问题的解决方案236
    18.3.1Nagios简介236
    18.3.2Nagios的工作原理236
    18.3.3Nagios的功能与用途236
    18.3.4Nagios的监测模式237
    18.4处理集群告警信息诊断组件服务故障问题238
    18.4.1Hadoop常见故障问题分析238
    18.4.2Nagios配置监控Hadoop日志239
    18.5本章小结240
    第六部分大数据平台项目综合案例
    第19章数据仓库运维项目实战242
    19.1项目背景和流程242
    19.1.1项目背景242
    19.1.2项目流程243
    19.2数据的说明、导入及清洗和预处理244
    19.2.1数据说明244
    19.2.2数据导入245
    19.2.3清洗和预处理246
    19.3Hive建仓248
    19.3.1数据仓库的分层设计248
    19.3.2Hive数据入仓249
    19.3.3业务调用252
    19.4本章小结253
    第20章金融行业运维项目实战254
    20.1项目背景和流程254
    20.1.1项目背景254
    20.1.2项目流程255
    20.2数据说明及清洗255
    20.2.1数据说明255
    20.2.2数据清洗256
    20.3数据分析258
    20.3.1借款金额分布258
    20.3.2借款等级分布258
    20.3.3借款等级与借款金额的关联关系259
    20.3.4借款金额与工作年限、年收入的关联关系259
    20.3.5借款金额与房屋所有权状态的关联关系260
    20.4数据可视化260
    20.5综合分析264
    20.6本章小结264
    第21章典型大数据平台监控运维项目实战265
    21.1实验背景和流程265
    21.1.1实验背景265
    21.1.2实验流程266
    21.2数据说明及预处理267
    21.2.1数据说明267
    21.2.2数据预处理267
    21.3安装Ganglia269
    21.3.1安装Ganglia所需的依赖269
    21.3.2监控端安装Gmeta、Gmond、Gweb、Nginx、Php270
    21.3.3被监控端安装Gmond274
    21.4开启Ganglia274
    21.4.1修改Ganglia-monitor的配置文件274
    21.4.2主节点配置275
    21.4.3修改Hadoop的配置文件275
    21.4.4重启所有服务276
    21.4.5访问页面查看各机器的节点信息276
    21.5进行上传操作277
    21.6进行查询操作278
    21.7Ganglia监控结果279
    21.7.1基本指标279
    21.7.2上传操作前后集群状态的变化279
    21.7.3查询操作前后集群状态的变化280
    21.8本章小结281

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购