加载中...
扫一扫
下载苏宁易购APP
关注苏宁推客公众号
自购省钱·分享赚钱
下载苏宁金融APP
关注苏宁易购服务号
用户评价:----
物流时效:----
售后服务:----
实名认证领苏宁支付券立即领取 >
¥
提前抢
SUPER会员专享
由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
欢迎光临本店铺
点我可查看更多商品哦~
100%刮中券,最高50元无敌券,券有效期7天
亲,今日还有0次刮奖机会
我的云钻:0
您的云钻暂时不足,攒足云钻再来刮
恭喜获得1张券!
今天的机会已经全部用完了,请明天再来
恭喜刮出两张券,请选择一张领取
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
醉染图书Spark实战(第2版)9787302596783
¥ ×1
商品
服务
物流
第Ⅰ部分 通过示例讲解理论章 Spark介绍 31.1 Spark简介及其作用 41.1.1 什么是Spark 41.1.2 Spark神力的四个支柱 51.2 如何使用Spark 71.2.1 数据处理/工程场景中的Spark 71.2.2 数据科学场景中的Spark 81.3 使用Spark,能做些什么 91.3.1 使用Spark预测NC餐饮行业的餐馆质量 101.3.2 Spark允许Lumeris进行快速数据传输 101.3.3 Spark分析CERN的设备日志 101.3.4 用例 111.4 为什么你应该喜欢数据帧 111.4.1 从Java角度了解数据帧 111.4.2 从RDBMS角度理解数据帧 121.4.3 数据帧的图形表示 121.5 个示例 131.5.1 软件 131.5.2 下载代码 131.5.3 运行个应用程序 141.5.4 份代码 151.6 小结 16第2章 架构和流程 172.1 构建思维模型 172.2 使用Java代码构建思维模型 18. 运行应用程序 21..1 连接到主机 21..2 加载或提取CSV文件 22.. 转换数据 25..4 将数据帧中完成的工作保存到数据库中 262.4 小结 29第3章 数据帧的重要作用 313.1 数据帧在Spark中的基本作用 323.1.1 数据帧的组织 323.1.2 不变并非贬低之词 333.2 通过示例演示数据帧的使用 353.2.1 简单提取CSV后的数据帧 363.2.2 数据存储在分区中 403.. 挖掘模式 413.2.4 提取JSON后的数据帧 433.2.5 合并两个数据帧 483.3 数据帧Dataset 533.3.1 重用POJO 533.3.2 创建字符串数据集 543.3.3 来回转换 553.4 数据帧的祖先:RDD 603.5 小结 61第4章 Spark的“惰”本质 634.1 现实中懒惰但高效的示例 644.2 懒惰但高效的Spark示例 654.2.1 查看数据转换和数据操作的结果 654.2.2 数据转换的过程,逐步进行 664.. 数据转换/操作流程的后台代码 684.2.4 在182毫秒内创建700多万个数据点的奥秘 714.2.5 操作计时背后的奥秘 724.3 与RDBMS和传统应用程序进行比较 764.3.1 使用青少年生育率数据集 764.3.2 分析传统应用程序和Spark应用程序之间的区别 774.4 对于以数据为中心的应用程序而言,Spark的表现出乎意料 784.5 Catalyst是应用程序的催化器 794.6 小结 81第5章 构建一个用于部署的简单应用程序 835.1 无数据提取的示例 835.1.1 计算π 845.1.2 计算近似值π的代码 855.1.3 Java中的lambda函数是什么 905.1.4 使用lambda函数估算π 925.2 与Spark交互 935.2.1 本地模式 945.2.2 集群模式 955.. Scala和Python的交互模式 975.3 小结 102第6章 部署简单的应用程序 1056.1 示例之外:组件的作用 1066.1.1 快速浏览组件及其之间的交互 1076.1.2 Spark架构的故障排除技巧 1106.1.3 知识拓展 1106.2 构建集群 1116.2.1 如何构建集群 1116.2.2 设置环境 1126.3 构建应用程序,在集群上运行 1156.3.1 构建应用程序的不错JAR 1156.3.2 使用Git和Maven构建应用程序 1176.4 在集群上运行应用程序 1196.4.1 提交不错JAR 1196.4.2 运行应用程序 1206.4.3 分析Spark的用户界面 1216.5 小结 122第Ⅱ部分 数据提取第7章 从文件中提取数据 1257.1 解析器的常见行为 1267.2 从CSV中提取数据(比较复杂) 1267.2.1 预期输出 1287.2.2 代码 1287.3 使用已知模式提取CSV 1297.3.1 预期输出 1307.3.2 代码 1307.4 提取JSON文件 1327.4.1 预期输出 1347.4.2 代码 1347.5 提取多行JSON文件 1357.5.1 预期输出 1377.5.2 代码 1377.6 提取XML文件 1387.6.1 预期输出 1407.6.2 代码 1407.7 提取文本文件 1427.7.1 预期输出 1437.7.2 代码 1437.8 用于大数据的文件格式 1447.8.1 传统文件格式的问题 1447.8.2 Avro是基于模式的序列化格式 1457.8.3 ORC是一种列式存储格式 1457.8.4 Parquet也是一种列式存储格式 1467.8.5 比较Avro、ORC和Parquet 1467.9 提取Avro、ORC和Parquet文件 1467.9.1 提取Avr 467.9.2 提取ORC 1487.9.3 提取Parquet 1507.9.4 用于提取Avro、ORC或Parquet的参考表格 1517.10 小结 151第8章 从数据库中提取数据 1538.1 从关系数据库中提取数据 1548.1.1 数据库连接备忘录 1548.1.2 了解示例中使用的数据 1558.1.3 预期输出 1568.1.4 代码 1578.1.5 可替代的代码 1598.2 dialect的作用 1608.2.1 什么是dialect 1608.2.2 Spark提供的JDBC dialect 1618.. 构建自定义dialect 1618.3 不错查询和提取 1638.3.1 使用WHERE子句进行过滤 1638.3.2 在数据库中连接数据 1668.3.3 执行数据提取和分区 1688.3.4 不错功能总结 1718.4 从Elasticsearch中提取数据 1718.4.1 数据流 1718.4.2 Spark提取的NYC餐馆数据集 1728.4.3 从 Elasticsearch中提取NYC餐馆数据集的代码 1738.5 小结 175第9章 数据提取进阶:寻找数据源与构建自定义数据源 1779.1 什么是数据源 1799.2 直接连接数据源的好处 1799.2.1 临时文件 1809.2.2 数据质量脚本 1819.. 按需提供数据 1819.3 查找Spark软件包中的数据源 1819.4 构建自己的数据源 1819.4.1 示例项目的范围 1829.4.2 数据源API和选项 1839.5 幕后工作:构建数据源本身 1859.6 使用注册器文件和广告器类 1869.7 理解数据和模式之间的关系 1889.7.1 数据源构建关系 1899.7.2 关系内部 1919.8 使用JavaBean构建模式 1949.9 使用实用程序构建数据帧的方法 1969.10 类 2019.11 小结 2010章 提取结构化流数据 20310.1 什么是流数据 20410.2 创建少有流数据 20510.2.1 生成文件流数据 20610.2.2 消费记录 20810.. 获取记录,而非数据行 21310.3 从网络流数据中提取数据 21410.4 处理多个流数据 21610.5 区分离散化流数据和结构化流数据 22110.6 小结 221第III部分 转换数据1章 使用SL 22511.1 使用Spark SL 22511.2 本地视图与全局视图之间的区别 22911.3 混合使用数据帧API和Spark SL 011.4 不要删除数据 11.5 进一步了解SL 511.6 小结 52章 转换数据 12.1 数据转换是什么 12.2 在记录层面进行数据转换的过程和示例 12.2.1 数据发现,了解数据的复杂 24012.2.2 数据映,绘制过程 24112.. 编写转换代码 24412.2.4 审查数据转换,确保质量流程 24912.2.5 如何排序 25112.2.6 结束Spark数据转换的抢先发售演示 2511. 连接数据集 2511..1 仔细查看要连接的数据集 2521..2 构建各县的高等教育机构列表 2531.. 执行连接操作 25812.4 执行更多的数据转换 26312.5 小结 2633章 转换整个文档 26513.1 转换整个文档及其结构 26513.1.1 展平JSON文档 26613.1.2 构建嵌套文档,用于数据传输和存储 27013.2 静态函数背后的魔力 27413.3 执行更多的数据转换 27513.4 小结 2754章 使用自定义函数扩展数据转换 27714.1 扩展Apache Spark 27814.2 注册和调用UDF 27914.2.1 在Spark中注册UDF 28114.2.2 将UDF与数据帧API结合起来使用 28214.. 使用SL处理UDF 28314.2.4 实现UDF 28414.2.5 编写服务代码 28514.3 使用UDF,确保数据高质量 28714.4 考虑UDF的约束 28914.5 小结 2895章 聚合数据 29115.1 使用Spark聚合数据 29115.1.1 简单回顾数据聚合 29215.1.2 使用Spark执行基本的数据聚合 29415.2 使用实时数据执行数据聚合 29615.2.1 准备数据集 29715.2.2 聚合数据,更好地了解学校 30115.3 使用UDAF构建自定义的聚合操作 30615.4 小结 311第IV部分 百尺竿头,更进一步6章 缓存和检查点:Spark的能 31516.1 使用缓存和检查点可提高能 31516.1.1 Spark缓存的用途 31716.1.2 Spark检查点的妙用 31816.1.3 使用缓存和检查点 31816.2 缓存实战 32616.3 有关能优化的知识拓展 33516.4 小结 3357章 导出数据,构建完整数据管道 33717.1 导出数据的主要概念 33717.1.1 使用NASA数据集构建管道 33817.1.2 将列转换为日期时间(datetime) 34117.1.3 将置信度百分比转换为置信度等级 34117.1.4 导出数据 34217.1.5 导出数据:实际发生了什么 34417.2 Delta Lake:使用系统核心的数据库 34617.2.1 理解需要数据库的原因 34617.2.2 在数据管道中使用Delta Lake 34717.. 消费来自Delta Lake的数据 35117.3 从Spark访问云存储服务 35317.4 小结 3548章 探索部署约束:了解生态系统 35518.1 使用YARN、Mesos和Kubernetes管理资源 35618.1.1 使用内置的独立模式管理资源 35618.1.2 在Hadoop环境中,使用YARN管理资源 35718.1.3 Mesos是独立的资源管理器 35818.1.4 Kubernetes编排容器 36018.1.5 选择合适的资源管理器 36018.2 与Spark共享文件 36118.2.1 访问文件中包含的数据 36218.2.2 通过分布式文件系统共享文件 36218.. 访问共享驱动器或文件服务器上的文件 36318.2.4 使用文件共享服务分发文件 36418.2.5 访问Spark文件的选项 36518.2.6 用于与Spark共享文件的混合解决方案 36518.3 确保Spark应用程序的安全 36518.3.1 保护基础架构的网络组件 36618.3.2 保护Spark磁盘的使用 36718.4 小结 367附录部分内容通过封底二维码下载获取附录A 安装Eclipse 369附录B 安装Maven 375附录C 安装Git 379附录D 下载代码,启用Eclipse 381附录E 企业数据的历史 387附录F 有关关系数据库的帮信息 391附录G 静态函数使数据转换变得容易 397附录H 简略的Maven备忘单 407附录I 数据转换和数据操作的参考资料 411附录J Scala简介 421附录K 在生产环境中安装Spark,以及一些提示 4附录L 关于数据提取的参考资料 435附录M 关于连接的参考资料 447附录N 安装Elasticsearch和示例数据 459附录O 生成流数据 465附录P 有关流数据的参考资料 469附录 有关导出数据的参考资料 479附录R 遇到困难,寻找帮 487
吉恩·乔治·佩林是一位经验丰富的数据和软件架构师。他是法国的位IBM Champion,并连续12年获奖,成为终身IBM Champion。
抢购价:¥ 38.00
易购价:¥ 38.00
注:参加抢购将不再享受其他优惠活动
亲,很抱歉,您购买的宝贝销售异常火爆,让小苏措手不及,请稍后再试~
验证码错误
看不清楚?换一张
确定关闭
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
查看我的收藏夹
非常抱歉,您前期未参加预订活动,无法支付尾款哦!
关闭
抱歉,您暂无任性付资格
继续等待
0小时0分
立即开通
SUPER会员