《【正版】大数据技术与应用微课视频版肖政宏大数据与人工智能技术丛书数版数】》肖政宏著【摘要书评在线阅读】-苏宁易购图书

友一个文化制品专营店

商品参数

作者：肖政宏著
出版社：清华大学出版社
开本：16开
ISBN：9788817868202
版权提供：清华大学出版社

店铺公告

为保障消费者合理购买需求及公平交易机会，避免因非生活消费目的的购买货囤积商品，抬价转售等违法行为发生，店铺有权对异常订单不发货且不进行赔付。异常订单：包括但不限于相同用户ID批量下单，同一用户（指不同用户ID，存在相同/临近/虚构收货地址，或相同联系号码，收件人，同账户付款人等情形的）批量下单（一次性大于5本），以及其他非消费目的的交易订单。

温馨提示：请务必当着快递员面开箱验货，如发现破损，请立即拍照拒收，如验货有问题请及时联系在线客服处理，（如开箱验货时发现破损，所产生运费由我司承担，一经签收即为货物完好，如果您未开箱验货，一切损失就需要由买家承担，所以请买家一定要仔细验货）。

关于退货运费：对于下单后且物流已发货货品在途的状态下，原则上均不接受退货申请，如顾客原因退货需要承担来回运费，如因产品质量问题（非破损问题）可在签收后，联系在线客服。

书名：	大数据技术与应用-微课视频版（大数据与人工智能技术丛书）
出版社：	清华大学出版社
出版日期	2020
ISBN号：	9787302538431

本书共分12章，分为基础篇、核心篇和应用篇。基础篇包括大数据概论、大数据集群系统基础、Hadoop分布式系统、HDFS分布式文件系统、MapReduce分布式计算、HBase分布式数据库应用；核心篇包括YARN资源分配、Spark集群计算、Spark机器学习、Hive数据仓库应用、ZooKeeper协调服务；应用篇包括医药大数据案例分析。
本书可以作为高等院校大数据技术相关课程本科生教材，也可以作为大数据技术基础相关课程研究生教材，还可以作为从事大数据相关工作的工程技术人员的参考用书。

1、个人简介
肖政宏，博士、教授，硕士生导师，广东技术师范大学计算机科学学院副院长（主管教学、实验室）。主要研究方向：大数据理论与技术
，智能信息处理、机器学习，以第一作者身份共计发表论文二十多篇，其中SCI\EI检索8篇，中文核心8篇，近年来主持承担省部级科研课题
3项，其他厅级课题及横向课题5项，获得计算机软件著作权2项，申请发明专利5项。
学术兼职(或社会兼职)：广州市智能工程研究会常务理事、广东省科技厅咨询专家、广东省经济与社会化委员会专家、广东省软件工程教
学指导委员会委员、广东省计算机学会竞赛委员会常务委员。
2、教育背景
1982.9-1986.7南京理工大学,计算机软件专业，获学士学位；
1998.9-2001.2北京理工大学，计算机应用专业，获硕士学位；
2004.9-2005.7清华大学计算机科学与技术系人工智能国家重点实验室做访问学者。
2007.9-2012.12中南大学，计算机应用技术专业，获博士学位。
3、著译作品
(1) 曾文、肖政宏、盘茂杰、韩腊萍. 软件测试基础教程，清华大学出版社，2016.6
（2）陈智斌、梁鹏、肖政宏. Linux 综合实训案例教程，

本教材的实质上是项目教学法或者案列教学法，目的是让同学们通过操作实践来实现一个大数据系统，全书围绕hadoop大数据的生态系统，从原理上、技术上进行深入的理论分析，通过操作、大数据系统、大数据编程来学习，真正实现“教、学、做”的一体化教学方法。

基础篇

第1章大数据概论

1.1大数据概述

1.1.1大数据的定义

1.1.2大数据的特征

1.2大数据的分析过程

1.2.1大数据的采集

1.2.2大数据的存储方式

1.2.3大数据分析技术

1.2.4大数据的展示及应用

1.3大数据的价值、挑战与风险

1.3.1商业价值

1.3.2社会生活价值

1.3.3大数据的挑战与风险

1.4大数据的应用

1.5大数据的处理流程

1.6大数据成为人工智能产业的燃料

1.7大数据技术的发展前景

小结

习题

第2章大数据集群系统基础

2.1大数据集群系统概述

2.1.1集群的分类

2.1.2集群的目的

2.2Linux操作系统

2.2.1Linux操作系统简介

2.2.2Linux操作系统的特性

2.2.3Linux安装与基础操作

2.2.4Linux常用命令

2.3虚拟化技术

2.3.1虚拟化技术简介

2.3.2虚拟技术的原理

2.3.3常见的虚拟化软件

2.3.4虚拟化技术的优势和劣势

2.4CentOS大数据集群系统的组成

2.5大数据集群技术的架构

2.6操作实践：大数据集群的部署

2.6.1集群规划

2.6.2网络配置

2.6.3安全配置

2.6.4时间同步

2.6.5SSH登录

小结

习题

第3章Hadoop分布式系统

3.1Hadoop概述

3.1.1Hadoop简介

3.1.2Hadoop的发展历程

3.1.3Hadoop原理及运行机制

3.2Hadoop相关技术及生态系统

3.3操作实践： Hadoop安装与配置

3.3.1安装JDK

3.3.2安装Hadoop

3.3.3配置Hadoop

3.3.4格式化

3.3.5运行Hadoop

小结

习题

第4章HDFS分布式文件系统

4.1HDFS

4.1.1设计前提和设计目标

4.1.2Namenode和Datanode

4.1.3文件系统的名字空间

4.1.4数据复制

4.1.5HDFS读流程

4.1.6HDFS写流程

4.2HDFS操作实践

4.2.1HDFS Shell

4.2.2HDFS Java API

4.2.3Eclipse开发环境

4.2.4综合实例

小结

习题

第5章MapReduce分布式计算

5.1MapReduce简介

5.1.1MapReduce架构

5.1.2MapReduce的原理

5.1.3MapReduce的工作机制

5.2MapReduce操作实践

5.2.1MapReduce WordCount编程实例

5.2.2MapReduce倒排索引编程实例

小结

习题

第6章HBase分布式数据库应用

6.1HBase简介

6.1.1HBase架构

6.1.2HBase的存储

6.2HBase集群部署

6.2.1HBase参数配置

6.2.2HBase运行与测试

6.3HBase Shell操作命令

6.3.1general操作

6.3.2namespace操作

6.3.3DDL操作

6.3.4DML操作

6.3.5授权

6.4HBase过滤器

6.5HBase编程

6.5.1HBase表操作编程

6.5.2HBase过滤查询编程

小结

习题

核心篇

第7章YARN资源分配

7.1统一资源管理和调度平台引例

7.1.1背景

7.1.2特点

7.1.3典型的统一资源调度平台

7.2YARN简介

7.2.1YARN架构

7.2.2YARN的工作流程

7.2.3YARN的优势

7.3操作实践： YARN Shell实例

小结

习题

第8章Spark集群计算

8.1Spark简介

8.1.1Spark生态系统

8.1.2Spark架构

8.2Spark RDD

8.2.1RDD的依赖关系

8.2.2作业调度

8.2.3内存管理

8.2.4检查点支持

8.3Spark集群部署及应用案例

8.3.1Spark参数配置

8.3.2Spark集群运行

8.3.3Spark交互

8.3.4Spark算子

8.3.5Spark算法实例1：词频统计

8.3.6Spark算法实例2：相关系数

小结

习题

第9章Spark机器学习

9.1机器学习概述

9.1.1机器学习的发展史

9.1.2机器学习步骤

9.2Spark MLlib概述

9.2.1数据类型

9.2.2基本统计——基于DataFrame的API

9.2.3基本统计——基于RDD的API

9.3Spark实例

9.3.1聚类问题

9.3.2随机森林

小结

习题

第10章Hive数据仓库应用

10.1Hive简介

10.1.1Hive组成模块

10.1.2Hive执行流程

10.1.3MetaStore存储模式

10.2Hive安装与配置

10.2.1Hive参数配置

10.2.2Hive运行与测试

10.2.3Hive Beeline

10.3数据类型和文件格式

10.3.1数据类型

10.3.2文件格式

10.4Hive数据定义与数据操作

10.4.1基本概念

10.4.2数据库管理

10.4.3表的管理

10.4.4外部表的管理

10.4.5分区管理

10.4.6数据操作

10.4.7桶的操作

10.4.8索引

10.5Hive数据查询

10.5.1简单查询

10.5.2复杂查询

10.5.3JOIN连接查询

10.5.4其他语句

10.6Hive编程

10.6.1JDBC函数

10.6.2完整实例

小结

习题

第11章ZooKeeper协调服务

11.1ZooKeeper简介

11.1.1ZAB协议

11.1.2ZooKeeper数据模型

11.1.3会话

11.1.4事件监听器

11.1.5访问权限

11.2ZooKeeper集群部署

11.3ZooKeeper基本命令

11.4ZooKeeper应用

11.4.1Hadoop

11.4.2Spark

11.4.3Hive

11.5ZooKeeper编程

11.5.1ZooKeeper读/写操作

11.5.2集群状态监控

小结

习题

应用篇

第12章医药大数据案例分析

12.1项目概述

12.2功能需求

12.3软件关键技术

12.4效果展示

12.5系统构架设计

12.5.1系统组成

12.5.2系统协作方式

12.5.3系统网络拓扑

12.5.4系统建设方案

12.6数据存储设计

12.7数据分析

12.8数据展示

小结

习题

参考文献

随着云计算、大数据、物联网、人工智能等信息技术的迅猛发展，大数据在电子商务、媒体营销、旅游、物流交通、农业、工业、企

业服务、娱乐、汽车、物联网、生命科技、金融科技、房产、教育及政府等诸多行业得到了广泛的应用，大数据的相关课程也逐渐成

为各个高等学校数据科学与大数据技术等专业的核心课程以及计算机相关硕士专业的必修课程。
平台支撑
大数据分布式系统的学习开发需要有实验平台，而一般大数据的实验平台的建设需要较多经费支持，同时一些基于这些平台的学习、

训练也不是很方便。本书基于普通的PC，充分利用Linux操作系统、VMware 虚拟软件的特点，通过虚拟多台计算机组建分布式计算机

系统，搭建Hadoop 大数据分析平台，非常适合读者从底层学懂弄通大数据的搭建过程，以及分布式文件系统、分布式计算框架、分布

式数据库、Spark内存计算、分布式机器学习及大数据的分析系统的开发和应用。
本书内容
本书共分12章，分为基础篇、核心篇和应用篇。
基础篇包括第1~6章。第1章大数据概论，涉及的内容有大数据定义，大数据分析过程、技术与工具，以及大数据的应用；第2章大数

据集群系统基础，讲解Linux操作系统、虚拟化技术和大数据集群的搭建；第3章Hadoop分布式系统，讲解Hadoop的原理和运行机制，

以及Hadoop系统的配置与安装；第4章HDFS分布式文件系统，主要讲解大数据文件系统的读写过程和HDFS的操作；第5章MapReduce分

布式计算，讲解MapReduce的架构、原理与机制，以及MapReduce应用案例；第6章HBase分布式数据库应用，主要讲解HBase的架构、

部署和应用。
核心篇包括第7~11章。第7章YARN资源分配，讲解YARN架构、流程及操作应用；第8章Spark集群计算，主要讲解Spark架构、RDD、部

署和应用；第9章Spark机器学习，讲解机器学习库和相关应用；第10章Hive数据仓库应用，讲解Hive的组成、安装、配置和应用；

第11章ZooKeeper协调服务，讲解分布式应用程序的定义、部署、命令和应用。
应用篇包括第12章。第12章医药大数据案例分析，主要内容包括大数据系统的需求分析、架构设计、关键技术、存储设计、数据分析

与数据展示。

本书特点
本书的作者团队具有多年大数据教材的编写经验，同时具有丰富的高校教学和大数据的培训经验，也具有实际的大数据项目开发经验

。作者团队在“云计算大数据与智能制造论坛”，国家级、省级职业教育培训，研究生课程教学，以及本科生课程教学等方面进行了

多次大数据技术的教学实践，本书也是这些系列教学的成果之一。
本书的主要特点如下。
1. 组织结构高效合理
作为大数据技术方面的教材，其内容全面、逐步递进，完整地呈现了一个大数据分析系统所涉及的各类技术。
2. 适合“线上线下”混合式教学模式
本书的每章首先描述的是基本原理，然后是操作实践，最后是课后作业，方便教师在原理部分讲授时利用一些公共的教学平台，把教

学资源在讲课之前发送给学生，课堂讲授时突出重点、难点及实现部分，课后布置作业。
3. 基于项目的案例教学
为方便读者对大数据的相关系统进行开发学习，第12章通过项目概述、功能需求分析、软件关键技术、效果展示、系统架构设计、数

据存储设计、数据分析及数据展示来呈现一个实际的大数据分析系统，让读者真正实现边学习、边训练、边实践。
读者对象
本书可以作为高等院校数据科学与大数据技术相关课程本科生教材，也可以作为大数据技术基础相关课程研究生教材，还可以作为从

事大数据相关工作的工程技术人员的参考用书。
资源下载
本书提供教学大纲、教学课件、电子教案、习题答案、全部实例的源代码和教学进度表，扫描封底的课件二维码可以下载。本书还提

供600分钟的视频讲解，扫描书中相应位置的二维码可以在线观看、学习。
致谢
本书由肖政宏、李俊杰、谢志明编写，编写过程中得到广东技术师范大学、汕尾职业技术学院、汕尾市创新工业设计研究院、广州市

乐商软件科技有限公司、广州五舟科技股份有限公司、北京普开数据技术有限公司的大力协助，感谢梅阳阳、闫艺婷、吴进、周健烨

、黄镇生、曾静、徐胜东等的全力支持。
编者关于大数据分析技术的研究及本书写作还得到了广东省省级科技计划项目——基于医药电商大数据的服务系统研发（No：

2016A010101029）、广州市科技计划项目——大数据分析平台的关键技术研究及应用示范（No： 201607010152）的资助，在此表示感

谢。
大数据技术发展很快，涉及的内容也较多，加上编者的水平有限，在内容的安排、表述方面难免有不当之处，希望广大读者在阅读本

书的过程中能够批评指正。
编者
2020年1月

清华大学出版社官方旗舰店

商品详情
内容简介

查看全部评论>

服务体验

[正版] 大数据技术与应用微课视频版肖政宏大数据与人工智能技术丛书数据处理

正版图书！品质保证！默认发最新版本！收藏店铺可享优先发货！

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

友一个文化制品专营店

售后保障

最近浏览

猜你喜欢

服务体验

[正版] 大数据技术与应用 微课视频版 肖政宏 大数据与人工智能技术丛书 数据处理

正版图书！品质保证！默认发最新版本！收藏店铺可享优先发货！

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

计算机/网络排行榜

友一个文化制品专营店

售后保障

最近浏览

猜你喜欢

[正版] 大数据技术与应用微课视频版肖政宏大数据与人工智能技术丛书数据处理