实名认证领苏宁支付券立即领取 >
¥
提前抢
SUPER会员专享
由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
欢迎光临本店铺
点我可查看更多商品哦~
100%刮中券,最高50元无敌券,券有效期7天
亲,今日还有0次刮奖机会
我的云钻:0
您的云钻暂时不足,攒足云钻再来刮
恭喜获得1张券!
今天的机会已经全部用完了,请明天再来
恭喜刮出两张券,请选择一张领取
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
全新大数据技术体系详解董西成 著9787111590729
¥ ×1
商品
服务
物流
前言部分概述篇章企业级大数据技术体系概述21.1大数据系统产生背景及应用场景21.1.1产生背景21.1.2常见大数据应用场景31.2企业级大数据技术框架51.2.1数据收集层61.2.2数据存储层71..资源管理与服务协调层71.2.4计算引擎层81.2.5数据分析层91.2.6数据可视化层91.3企业级大数据技术实现方案91.3.1Google大数据技术栈101.3.2Hadoop与Spark开源大数据技术栈121.4大数据架构:LambdaArchitecture151.5Hadoop与Spark版本选择及安装部署161.5.1Hadoop与Spark版本选择161.5.2Hadoop与Spark安装部署171.6小结181.7本章问题18第二部分数据收集篇第2章关系型数据的收集202.1Sqoop概述202.1.1设计动机202.1.2Sqoop基本思想及特点212.2Sqoop基本架构212.2.1Sqop基本架构222.2.2Sqoop2基本架构2..Sqop与Sqoop2对比24.Sqoop使用方式25..1Sqop使用方式25..2Sqoop2使用方式282.4数据增量收集CDC312.4.1CDC动机与应用场景312.4.2CDC开源实现Canal322.4.3多机房数据同步系统Otter332.5小结352.6本章问题35第3章非关系型数据的收集363.1概述363.1.1Flume设计动机363.1.2Flume基本思想及特点373.2FlumeNG基本架构383.2.1FlumeNG基本架构383.2.2FlumeNG不错组件413.3FlumeNG数据流拓扑构建方法423.3.1如何构建数据流拓扑423.3.2数据流拓扑实例剖析463.4小结503.5本章问题50第4章分布式消息队列Kafka514.1概述514.1.1Kafka设计动机514.1.2Kafka特点534.2Kafka设计架构534.2.1Kafka基本架构544.2.2Kafka各组件详解544..Kafka关键技术点584.3Kafka程序设计604.3.1Producer程序设计614.3.2Consumer程序设计634.3.3开源Producer与Consumer实现654.4Kafka典型应用场景654.5小结674.6本章问题67第三部分数据存储篇第5章数据序列化与文件存储格式705.1数据序列化的意义705.2数据序列化方案725.2.1序列化框架Thrift725.2.2序列化框架Protobuf745..序列化框架Avro765.2.4序列化框架对比785.3文件存储格式剖析795.3.1行存储与列存储795.3.2行式存储格式805.3.3列式存储格式ORC、Parquet与CarbonData825.4小结885.5本章问题89第6章分布式文件系统906.1背景906.2文件级别和块级别的分布式文件系统916.2.1文件级别的分布式系统916.2.2块级别的分布式系统926.3HDFS基本架构936.4HDFS关键技术946.4.1容错设计956.4.2副本放置策略956.4.3异构存储介质966.4.4集中式缓存管理976.5HDFS访问方式986.5.1HDFSshell986.5.2HDFSAPI1006.5.3数据收集组件1016.5.4计算引擎1026.6小结1026.7本章问题103第7章分布式结构化存储系统1047.1背景1047.2HBase数据模型1057.2.1逻辑数据模型1057.2.2物理数据存储1077.3HBase基本架构1087.3.1HBase基本架构1087.3.2HBase内部原理1107.4HBase访问方式1147.4.1HBaseshell1147.4.2HBaseAPI1167.4.3数据收集组件1187.4.4计算引擎1197.4.5ApachePhoenix1197.5HBase应用案例1207.5.1社交关系数据存储1207.5.2时间序列数据库OpenTSDB1227.6分布式列式存储系统Kudu1257.6.1Kudu基本特点1257.6.2Kudu数据模型与架构1267.6.3HBase与Kudu对比1267.7小结1277.8本章问题127第四部分分布式协调与资源管理篇第8章分布式协调服务ZooKeeper1308.1分布式协调服务的存在意义1308.1.1leader选举1308.1.2负载均衡1318.2ZooKeeper数据模型1328.3ZooKeeper基本架构1338.4ZooKeeper程序设计1348.4.1ZooKeeperAPI1358.4.2ApacheCuratr398.5ZooKeeper应用案例1428.5.1leader选举1428.5.2分布式队列1438.5.3负载均衡1438.6小结1448.7本章问题145第9章资源管理与调度系统YARN1469.1YARN产生背景1469.1.1MRv1局限1469.1.2YARN设计动机1479.2YARN设计思想1489.3YARN的基本架构与原理1499.3.1YARN基本架构1499.3.2YARN高可用1529.3.3YARN工作流程1539.4YARN资源调度器1559.4.1层级队列管理机制1559.4.2多租户资源调度器产生背景1569.4.3Capacity/FairScheduler1579.4.4基于节点标签的调度160……16.4本章问题
董西成,资历大数据技术实践者和研究者,对大数据基础架构有很好深刻的认识和理解,有着丰富的实践经验。熟悉常见的开源大数据解决方案,包括Hadoop和spark生态系统等,擅长底层分布式系统的优化和开发。撰写了大量Had00p和spark等大数据相关的技术文章并分享在自己的博客上,由于文章技术含量高,所以很好受欢迎。
Preface?前 言为什么要写这本书随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学数据技术,这使得它已经成为程序员所需的基本技能。 为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop指南》《Hadoop实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者,他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求,笔者根据自己多年的数据项目和培训经验,继《Hadoop技术内幕》书籍之后,于两年前开始尝试编写一本浅显易读的大数据基础书籍。 相比于现有的大数据基础书籍,本书具有三大特色:①系统:深度剖析大数据技术体系的六层架构;②技术:详尽介绍Hadoop和Spark等主流大数据技术;③实用:理论与实践相结合,探讨常见的大数据问题。本书尝试以“数据生命周期”为线索,按照分层结构逐步介绍大数据技术体系,涉及数据收集、数据存储、资源管理和服务协调、计算引擎及数据分析五层技术架构,由点及面,通过综合案例将这些技术串接在一起。 读者对象(1)大数据应用开发人员本书用了相当大的篇幅介绍各个大数据系统的适用场景和使用方式,能够很好地帮大数据应用开发设计出满足要求的程序。 (2)大数据讲师和学员本书按照大数据五层架构,即数据收集→数据存储→资源管理与服务协调→计算引擎→数据分析,完整介绍了整个大数据技术体系,易于理解,此外,每节包含大量代码示例和思考题目,适合大数据教学。 (3)大数据运维对于一名合格的大数据运维而言,适当地了解大数据系统的应用场景、设计原理和架构是十分有帮的,这不仅有于我们更快地排除各种可能的大数据系统故障,也能够让运维人员与研发人员更有效地进行沟通。本书可以有效地帮运维全面理解当下主流的大数据技术体系。 (4)开源软件爱好者开源大数据系统(比如Hadoop和Spark)是开源软件中的佼佼者,它们在实现的过程中吸收了大量开源领域的思想,同时也有很多值得学习的创新。通过阅读本书,这部分读者不仅能领略到开源软件的思想,还可以学习如何构建一套完整的技术生态。 如何阅读本书本书以数据在大数据系统中的生命周期为线索,介绍以Hadoop与Spark为主的开源大数据技术栈。本书内容组织方式如下。 部分:主要介绍大数据体系架构,以及Google和Hadoop技术栈,让读者从高层次上对大数据技术有一定了解。 第二部分:介绍大数据分析相关技术,主要涉及关系型数据收集工具Sqoop与Canel、非关系型数据收集系统Flume,以及分布式消息队列Kafka。 第三部分:介绍大数据存储相关技术,涉及数据存储格式、分布式文件系统及分布式数据库三部分。 第四部分:介绍资源管理和服务协调相关技术,涉及资源管理和调度系统YARN,以及资源协调系统ZooKeeper。 第五部分:介绍计算引擎相关技术,包括批处理、交互式处理,以及流式实时处理三类引擎,内容涉及MapReduce、Spark、Impala/Presto、Storm等常用技术。 第六部分:介绍数据分析相关技术,涉及基于数据分析的语言HL与SL、大数据统一编程模型及机器学习库等。 大数据体系的逻辑也是本书的逻辑,故这里给出大数据体系逻辑图。 勘误和支持由于笔者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。为此,笔者特意创建了一个在线支持与应急方案的站点http://hadop.com和公众号hadop-。你可以将书中的错误发布在Bug勘误表页面。如果你遇到任何问题,也可以访问&A页面,我将尽量在线上为你提供满意的解答。如果你有更多宝贵的意见,也欢迎发送邮件至邮箱dongxicheng@yahoo.com,期待能够得到你们的真挚反馈。 获取源代码实例本书各节的源代码实例可从http://hadop.com或公众号hadop-中获取。 致谢感谢我的导师廖华明副研究员,是她我入大数据世界。 感谢机械工业出版社华章公司的孙海亮编辑对本书的校订,他的鼓励和帮使我顺利完成了本书的编写工作。 感谢我的父母,感谢他们的养育之恩,感谢兄长的鼓励和支持,感谢他们时时刻刻给我以信心和力量! 谨以此书献给我亲的家人,以及众多热爱大数据技术的朋友们! 董西成
抢购价:¥ 38.00
易购价:¥ 38.00
注:参加抢购将不再享受其他优惠活动
亲,很抱歉,您购买的宝贝销售异常火爆,让小苏措手不及,请稍后再试~
验证码错误
看不清楚?换一张
确定关闭
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
查看我的收藏夹
非常抱歉,您前期未参加预订活动,无法支付尾款哦!
关闭
抱歉,您暂无任性付资格
继续等待
0小时0分
立即开通
SUPER会员