内容简介
本书全面介绍了Hadoop生态系统中各个开源组件的理论知识和实践案例。全书分为上篇——Hadoop基础篇、中篇——Hadoop提高篇、下篇——案例篇三部分,共11章,涉及数据采集、数据存储与管理、数据处理与分析、数据可视化一系列大数据应用生命周期中各阶段典型组件的理论知识、安装部署和实战使用。上篇为第1~8章,具体内容包括大数据概述、初识Hadoop、分布式文件系统HDFS、分布式计算框架MapReduce、统一资源管理和调度框架YARN、分布式协调框架ZooKeeper、分布式数据库HBase、数据仓库Hive;中篇为第9、10章,具体内容包括大数据迁移和采集工具、数据可视化;下篇为第11章,介绍了使用Hadoop平台完成用户画像项目的全过程。本书在Hadoop、HDFS、MapReduce、ZooKeeper、HBase、Hive等重要章节安排了初级实践操作,以便读者更好地学习和掌握H......