《大数据技术体系详解》董西成著著【摘要书评在线阅读】-苏宁易购图书

萌萌哒图书专营店

商品参数

作者：董西成著著| 董西成著编| 董西成著译| 董西成著绘
出版社：机械工业出版社
出版时间：2018-03-01
版次：1
印次：1
页数：361
开本：16开
ISBN：9787111590729
版权提供：机械工业出版社

作者：董西成著
著：董西成著
装帧：平装
印次：1
定价：79.00
ISBN：9787111590729

出版社：机械工业出版社
开本：16开
印刷时间：暂无
语种：暂无

出版时间：2018-03-01
页数：361
外部编号：1201666622
版次：1
成品尺寸：暂无

前言
部分概述篇
章企业级大数据技术体系概述2
1.1大数据系统产生背景及应用场景2
1.1.1产生背景2
1.1.2常见大数据应用场景3
1.2企业级大数据技术框架5
1.2.1数据收集层6
1.2.2数据存储层7
1..资源管理与服务协调层7
1.2.4计算引擎层8
1.2.5数据分析层9
1.2.6数据可视化层9
1.3企业级大数据技术实现方案9
1.3.1Google大数据技术栈10
1.3.2Hadoop与Spark开源大数据技术栈12
1.4大数据架构：LambdaArchitecture15
1.5Hadoop与Spark版本选择及安装部署16
1.5.1Hadoop与Spark版本选择16
1.5.2Hadoop与Spark安装部署17
1.6小结18
1.7本章问题18
第二部分数据收集篇
第2章关系型数据的收集20
2.1Sqoop概述20
2.1.1设计动机20
2.1.2Sqoop基本思想及特点21
2.2Sqoop基本架构21
2.2.1Sqop基本架构22
2.2.2Sqoop2基本架构
2..Sqop与Sqoop2对比24
.Sqoop使用方式25
..1Sqop使用方式25
..2Sqoop2使用方式28
2.4数据增量收集CDC31
2.4.1CDC动机与应用场景31
2.4.2CDC开源实现Canal32
2.4.3多机房数据同步系统Otter33
2.5小结35
2.6本章问题35
第3章非关系型数据的收集36
3.1概述36
3.1.1Flume设计动机36
3.1.2Flume基本思想及特点37
3.2FlumeNG基本架构38
3.2.1FlumeNG基本架构38
3.2.2FlumeNG不错组件41
3.3FlumeNG数据流拓扑构建方法42
3.3.1如何构建数据流拓扑42
3.3.2数据流拓扑实例剖析46
3.4小结50
3.5本章问题50
第4章分布式消息队列Kafka51
4.1概述51
4.1.1Kafka设计动机51
4.1.2Kafka特点53
4.2Kafka设计架构53
4.2.1Kafka基本架构54
4.2.2Kafka各组件详解54
4..Kafka关键技术点58
4.3Kafka程序设计60
4.3.1Producer程序设计61
4.3.2Consumer程序设计63
4.3.3开源Producer与Consumer实现65
4.4Kafka典型应用场景65
4.5小结67
4.6本章问题67
第三部分数据存储篇
第5章数据序列化与文件存储格式70
5.1数据序列化的意义70
5.2数据序列化方案72
5.2.1序列化框架Thrift72
5.2.2序列化框架Protobuf74
5..序列化框架Avro76
5.2.4序列化框架对比78
5.3文件存储格式剖析79
5.3.1行存储与列存储79
5.3.2行式存储格式80
5.3.3列式存储格式ORC、Parquet与CarbonData82
5.4小结88
5.5本章问题89
第6章分布式文件系统90
6.1背景90
6.2文件级别和块级别的分布式文件系统91
6.2.1文件级别的分布式系统91
6.2.2块级别的分布式系统92
6.3HDFS基本架构93
6.4HDFS关键技术94
6.4.1容错设计95
6.4.2副本放置策略95
6.4.3异构存储介质96
6.4.4集中式缓存管理97
6.5HDFS访问方式98
6.5.1HDFSshell98
6.5.2HDFSAPI100
6.5.3数据收集组件101
6.5.4计算引擎102
6.6小结102
6.7本章问题103
第7章分布式结构化存储系统104
7.1背景104
7.2HBase数据模型105
7.2.1逻辑数据模型105
7.2.2物理数据存储107
7.3HBase基本架构108
7.3.1HBase基本架构108
7.3.2HBase内部原理110
7.4HBase访问方式114
7.4.1HBaseshell114
7.4.2HBaseAPI116
7.4.3数据收集组件118
7.4.4计算引擎119
7.4.5ApachePhoenix119
7.5HBase应用案例120
7.5.1社交关系数据存储120
7.5.2时间序列数据库OpenTSDB122
7.6分布式列式存储系统Kudu125
7.6.1Kudu基本特点125
7.6.2Kudu数据模型与架构126
7.6.3HBase与Kudu对比126
7.7小结127
7.8本章问题127
第四部分分布式协调与资源管理篇
第8章分布式协调服务ZooKeeper130
8.1分布式协调服务的存在意义130
8.1.1leader选举130
8.1.2负载均衡131
8.2ZooKeeper数据模型132
8.3ZooKeeper基本架构133
8.4ZooKeeper程序设计134
8.4.1ZooKeeperAPI135
8.4.2ApacheCuratr39
8.5ZooKeeper应用案例142
8.5.1leader选举142
8.5.2分布式队列143
8.5.3负载均衡143
8.6小结144
8.7本章问题145
第9章资源管理与调度系统YARN146
9.1YARN产生背景146
9.1.1MRv1局限146
9.1.2YARN设计动机147
9.2YARN设计思想148
9.3YARN的基本架构与原理149
9.3.1YARN基本架构149
9.3.2YARN高可用152
9.3.3YARN工作流程153
9.4YARN资源调度器155
9.4.1层级队列管理机制155
9.4.2多租户资源调度器产生背景156
9.4.3Capacity/FairScheduler157
9.4.4基于节点标签的调度160
……
16.4本章问题

董西成，资历大数据技术实践者和研究者，对大数据基础架构有很好深刻的认识和理解，有着丰富的实践经验。熟悉常见的开源大数据解决方案，包括Hadoop和spark生态系统等，擅长底层分布式系统的优化和开发。撰写了大量Had00p和spark等大数据相关的技术文章并分享在自己的博客上，由于文章技术含量高，所以很好受欢迎。

Preface?前言为什么要写这本书随着大数据技术的普及，它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计，大数据人才需求呈井喷态势，越来越多的程序员开始学数据技术，这使得它已经成为程序员所需的基本技能。为了满足大数据人才市场需求，越来越多的大数据技术书籍不断面世，包括《Hadoop指南》《Hadoop实战》等。尽管如此，面向初、中级学者，能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者，他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求，笔者根据自己多年的数据项目和培训经验，继《Hadoop技术内幕》书籍之后，于两年前开始尝试编写一本浅显易读的大数据基础书籍。相比于现有的大数据基础书籍，本书具有三大特色：①系统：深度剖析大数据技术体系的六层架构；②技术：详尽介绍Hadoop和Spark等主流大数据技术；③实用：理论与实践相结合，探讨常见的大数据问题。本书尝试以“数据生命周期”为线索，按照分层结构逐步介绍大数据技术体系，涉及数据收集、数据存储、资源管理和服务协调、计算引擎及数据分析五层技术架构，由点及面，通过综合案例将这些技术串接在一起。读者对象（1）大数据应用开发人员本书用了相当大的篇幅介绍各个大数据系统的适用场景和使用方式，能够很好地帮大数据应用开发设计出满足要求的程序。（2）大数据讲师和学员本书按照大数据五层架构，即数据收集→数据存储→资源管理与服务协调→计算引擎→数据分析，完整介绍了整个大数据技术体系，易于理解，此外，每节包含大量代码示例和思考题目，适合大数据教学。（3）大数据运维对于一名合格的大数据运维而言，适当地了解大数据系统的应用场景、设计原理和架构是十分有帮的，这不仅有于我们更快地排除各种可能的大数据系统故障，也能够让运维人员与研发人员更有效地进行沟通。本书可以有效地帮运维全面理解当下主流的大数据技术体系。（4）开源软件爱好者开源大数据系统（比如Hadoop和Spark）是开源软件中的佼佼者，它们在实现的过程中吸收了大量开源领域的思想，同时也有很多值得学习的创新。通过阅读本书，这部分读者不仅能领略到开源软件的思想，还可以学习如何构建一套完整的技术生态。如何阅读本书本书以数据在大数据系统中的生命周期为线索，介绍以Hadoop与Spark为主的开源大数据技术栈。本书内容组织方式如下。部分：主要介绍大数据体系架构，以及Google和Hadoop技术栈，让读者从高层次上对大数据技术有一定了解。第二部分：介绍大数据分析相关技术，主要涉及关系型数据收集工具Sqoop与Canel、非关系型数据收集系统Flume，以及分布式消息队列Kafka。第三部分：介绍大数据存储相关技术，涉及数据存储格式、分布式文件系统及分布式数据库三部分。第四部分：介绍资源管理和服务协调相关技术，涉及资源管理和调度系统YARN，以及资源协调系统ZooKeeper。第五部分：介绍计算引擎相关技术，包括批处理、交互式处理，以及流式实时处理三类引擎，内容涉及MapReduce、Spark、Impala/Presto、Storm等常用技术。第六部分：介绍数据分析相关技术，涉及基于数据分析的语言HL与SL、大数据统一编程模型及机器学习库等。大数据体系的逻辑也是本书的逻辑，故这里给出大数据体系逻辑图。勘误和支持由于笔者的水平有限，编写时间仓促，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正。为此，笔者特意创建了一个在线支持与应急方案的站点http://hadop.com和公众号hadop-。你可以将书中的错误发布在Bug勘误表页面。如果你遇到任何问题，也可以访问&A页面，我将尽量在线上为你提供满意的解答。如果你有更多宝贵的意见，也欢迎发送邮件至邮箱dongxicheng@yahoo.com，期待能够得到你们的真挚反馈。获取源代码实例本书各节的源代码实例可从http://hadop.com或公众号hadop-中获取。致谢感谢我的导师廖华明副研究员，是她我入大数据世界。感谢机械工业出版社华章公司的孙海亮编辑对本书的校订，他的鼓励和帮使我顺利完成了本书的编写工作。感谢我的父母，感谢他们的养育之恩，感谢兄长的鼓励和支持，感谢他们时时刻刻给我以信心和力量！谨以此书献给我亲的家人，以及众多热爱大数据技术的朋友们！董西成

查看全部评论>

全新大数据技术体系详解董西成著9787111590729

正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

店铺装修中

搜索店内商品

商品分类

萌萌哒图书专营店

售后保障

最近浏览

猜你喜欢

全新大数据技术体系详解董西成 著9787111590729

正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

店铺装修中

搜索店内商品

商品分类

计算机/网络排行榜

萌萌哒图书专营店

售后保障

最近浏览

猜你喜欢

全新大数据技术体系详解董西成著9787111590729