由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
正版新书]Spark SQL入门与数据分析实践杨虹[等]编著97871155532
¥ ×1
章Spark SQL基础知识1
1.1Spark SQL背景1
1.2Spark SQL简介1
1.2.1Spark SQL的特点2
1.2.2Spark SQL的用途2
1.2.3Spark SQL的使用场景2
1.3为什么要学习Spark SQL3
1.4Spark SQL的原理3
1.4.1传统SQL的运行原理3
1.4.2Spark SQL的运行原理4
1.4.3Spark SQL的开发步骤6
1.5Spark SQL的运行模式7
1.5.1Local模式7
1.5.2Standalone模式7
1.5.3OnYarn模式8
小结11
习题11
第2章Spark SQL安装部署12
2.1运行环境说明12
2.1.1操作系统说明12
2.1.2Java版本说明12
2.1.3Scala版本说明12
2.1.4操作系统客户端工具说明13
2.2运行环境准备13
2.2.1依赖下载13
2.2.2安装Java14
2.2.3安装Scala14
2.3部署Spark SQL15
2.3.1下载安装包15
2.3.2单机部署15
2.3.3集群部署16
2.3.4运行环境参数21
小结23
习题23
第3章个Spark SQL应用程序24
3.1搭建开发环境24
3.1.1下载开发工具24
3.1.2安装IDEA25
3.2编写Spark SQL应用程序26
3.2.1Spark SQL应用程序的编写步骤27
3.2.2编写个Spark SQL应用程序27
3.2.3运行个Spark SQL应用程序38
小结44
习题44
第4章Spark SQL编程基础45
4.1RDD概述45
4.1.1RDD的优缺点45
4.1.2RDD模型介绍46
4.2深入剖析RDD47
4.2.1Spark相关专业术语定义47
4.2.2SparkApplication的构成55
4.2.3Spark运行的基本流程55
4.2.4Spark运行架构的特点56
4.2.5Spark核心原理58
4.3创建RDD62
4.4RDD操作65
4.4.1RDD转换操作65
4.4.2RDD控制操作72
4.4.3RDD行动操作73
4.5RDD持久化76
4.5.1持久化优势77
4.5.2持久化策略77
4.6RDD容错机制78
4.6.1lineage机制78
4.6.2checkpoint机制79
小结81
习题81
第5章Spark SQL编程进阶82
5.1概述82
5.2SparkSession82
5.2.1SparkSession介绍82
5.2.2创建SparkSession82
5.2.3SparkSession参数设置85
5.2.4SparkSession元信息读取85
5.3DataFrame85
5.3.1深入理解DataFrame86
5.3.2DataFrame的优缺点86
5.3.3DataFrame的演变过程87
5.3.4DataFrame的使用形式89
5.3.5创建DataFrame89
5.3.6DataFrame操作102
5.3.7DataFrame持久化114
5.3.8DataFrame实例117
5.4DataSet120
5.4.1深入理解DataSet120
5.4.2DataSet的优点120
5.4.3创建DataSet121
5.4.4DataSet操作121
5.4.5DataSet持久化122
5.5数据抽象的共性与区别122
5.5.13种数据抽象的共性123
5.5.23种数据抽象的区别123
5.6数据抽象的相互转换123
5.6.1将RDD转换为DataFrame124
5.6.2将DataFrame转换为DataSet124
5.6.3将DataSet转换为DataFrame124
小结125
习题125
第6章Spark SQL函数126
6.1用户定义函数126
6.1.1注册UDF126
6.1.2使用UDF126
6.1.3UDF实例127
6.2用户定义聚合函数128
6.2.1注册UDAF129
6.2.2使用UDAF129
6.2.3UDAF实例129
6.3常用内置函数131
小结131
习题131
第7章Spark SQL性能调优133
7.1概述133
7.1.1木桶原理133
7.1.2阿姆达尔定律134
7.2并行度调优134
7.2.1什么是并行度134
7.2.2为什么需要对并行度进行调优134
7.2.3如何合理设置并行度135
7.3内存调优135
7.3.1为什么需要对内存进行调优136
7.3.2如何充分使用内存136
7.4磁盘I/O调优137
7.4.1为什么需要对磁盘I/O进行调优137
7.4.2如何充分使用磁盘I/O138
7.5网络I/O调优139
7.5.1为什么需要对网络I/O进行调优139
7.5.2如何充分使用网络I/O139
小结140
习题140
第8章Spark SQL编程实践141
8.1Spark SQL实践一——学生考试信息分析141
8.2Spark SQL实践二——生鲜电商交易数据分析142
8.3Spark SQL实践三——四川省新生婴儿信息分析144
小结152
附录153
附录1常用内置函数153
附录1.1常用聚合函数153
附录1.2常用排序函数156
附录1.3常用字符串函数157
附录1.4常用时间函数162
附录1.5常用数学函数167
附录1.6常用集合函数170
附录1.7其他常用函数172
附录2常用高阶函数173
附录2.1transform函数173
附录2.2aggregate函数174
附录2.3filter函数174
附录2.4exists函数175
附录2.5zip_with函数175
附录3术语解释175
杨虹 重庆市半导体行业协会副理事长,重庆市电子学会常务理事,重庆市高校青年骨干教师。 张安文 加米谷大数据负责人,国家大数据标准组成员、大数据架构师,大数据实战开发者。
1、本书由Spark项目经验丰富的作者编写,作者之一为加米谷大数据公司张安文(国家大数据标准组成员、大数据架构师,大数据实战开发者),项目开发经验丰富。
2、本书主要讲Spark SQL的深度理论知识及实践,市面上关于Spark的书籍绝大多数讲整个Spark的知识,在有广度的情况下很难兼顾到深度。本书的特点是只关注Spark整套理论中的Spark SQL细分技术领域,关于Spark SQL的所有知识点会进行讲解,并有针对性的代码实践,从理论到实践让读者掌握深层次的Spark SQL技术,做到精通这门技术。
3、本书的读者更多会针对大数据领域数据分析方向的从业人员,使读者能够使用Spark SQL的知识来解决企业中遇到的问题,书中会有大量的实践内容,包括代码及相关项目中的实践,做到理论与实践相结合。
本书编写立足于浅显易懂而又不失深度,从0起步让读者了解、熟悉并掌握该技术,读者适用群体广泛。
Spark?SQL是Spark用于处理结构化数据的一个模块。本书共8章内容,由浅入深地讲解Spark?SQL的基础知识、安装部署、编程基础、编程进阶、函数、性能调优技巧以及编程实践等知识。通过本书的学习,读者能够掌握Spark?SQL核心技术。本书每章安排了习题和总结,以便使读者能更好地学习和更牢固地掌握Spark?SQL编程方法。此外,本书还提供了PPT教学课件、源代码等配套资源,供使用本书的读者下载。
本书可作为高等学校大数据、计算机、统计相关专业学生的大数据进阶课程的教材,也可供相关技术人员学习参考。
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格