返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • 醉染图书基于Apache Spark的流处理9787519852948
  • 正版全新
    • 作者: (美)杰拉德·马斯,(美)弗朗索瓦·加里洛著 | (美)杰拉德·马斯,(美)弗朗索瓦·加里洛编 | (美)杰拉德·马斯,(美)弗朗索瓦·加里洛译 | (美)杰拉德·马斯,(美)弗朗索瓦·加里洛绘
    • 出版社: 中国电力出版社
    • 出版时间:2021-03-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    醉染图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: (美)杰拉德·马斯,(美)弗朗索瓦·加里洛著| (美)杰拉德·马斯,(美)弗朗索瓦·加里洛编| (美)杰拉德·马斯,(美)弗朗索瓦·加里洛译| (美)杰拉德·马斯,(美)弗朗索瓦·加里洛绘
    • 出版社:中国电力出版社
    • 出版时间:2021-03-01
    • 版次:1
    • 印次:1
    • 字数:581000
    • 页数:444
    • 开本:16开
    • ISBN:9787519852948
    • 版权提供:中国电力出版社
    • 作者:(美)杰拉德·马斯,(美)弗朗索瓦·加里洛
    • 著:(美)杰拉德·马斯,(美)弗朗索瓦·加里洛
    • 装帧:平装
    • 印次:1
    • 定价:128.00
    • ISBN:9787519852948
    • 出版社:中国电力出版社
    • 开本:16开
    • 印刷时间:暂无
    • 语种:暂无
    • 出版时间:2021-03-01
    • 页数:444
    • 外部编号:1202346567
    • 版次:1
    • 成品尺寸:暂无

    序 1

    前言 3

    部 Apache Spark 流处理的基本原理

    章 流处理概述 13

    什么是流处理 14

    批处理与流处理 15

    流处理中的时间概念 15

    不确定因素 16

    流处理案例 16

    可扩展的数据处理能力 18

    扩展与容错 19

    分布式流处理 19

    Apache Spark 概述 20

    波浪潮:函数式API 20

    第二波浪潮:SL 21

    统一的引擎21

    Spark 组件 22

    Spark Streaming

    Structured Streaming

    接下来? 24

    第2章 流处理模型 25

    数据源与接收器 26

    不可变流 27

    转换与聚合 27

    窗口聚合 28

    滚动窗口 28

    滑动窗口 29

    无状态处理与有状态处理 29

    有状态的流 30

    案例:Scala中的本地状态计算 31

    无状态流,还是有状态流? 33

    时间效应 33

    带时间戳的事件计算 33

    通过时间戳来定义时间概念 34

    事件时间与处理时间 34

    使用水位线计算 37

    小结 39

    第3章 流处理架构 41

    数据平台的组件 41

    体系模型 43

    在流处理应用中使用批处理组件 44

    流处理架构参考 45

    Lambda 架构 45

    Kappa 架构 46

    流处理算法与批处理算法 47

    流处理算法有时候本质上与批处理算法接近不同 47

    流处理算法难以保比批处理算法表现更好 48

    小结 50

    第4章 流处理引擎Apache Spark 51

    两种API 的由来 51

    Spark 的内存使用 52

    故障恢复 53

    惰执行 53

    缓存使用建议 53

    延迟 54

    面向吞吐的数据处理 55

    Spark的多语言API 55

    快速实现数据分析 56

    更多关于Spark的内容 57

    小结 57

    第5章 Spark分布式处理模型 59

    通过集群管理器来运行Apache Spark 59

    Spark的集群管理器 61

    分布式系统的弹与容错 62

    故障恢复 63

    集群管理器对容错的支持 63

    数据交付语义 64

    微批处理与一次处理一个 66

    微批处理:整体同步处理应用案例 66

    一次处理一个 68

    微批与一次处理一个:权衡 68

    微批处理与一次处理一个方式地结合 69

    动态的批次间隔 69

    Structured Streaming处理模型 69

    第6章 Spark弹模型 71

    Spark中的弹分布式数据集 71

    Spark组件 73

    Spark容错保 75

    Task失败恢复 76

    stage失败恢复 77

    Driver失败恢复 77

    小结 78

    参考文献 81

    第二部分 Structured Streaming

    第7章 Structured Streaming 概述 87

    学习Structured Streaming 之前 88

    批处理分析 89

    流分析 92

    连接Stream 93

    准备流数据93

    流式Dataset操作 94

    创建查询(ery) 95

    启动流处理96

    浏览数据 97

    小结 97

    第8章 Structured Streaming 编程模型 99

    初始化Spark实例 100

    source:接收流数据 100

    流数据的转换 102

    sink:输出结果数据 105

    format 106

    outputMode 107

    queryName 107

    option 108

    options 108

    trigger 108

    start() 109

    小结 109

    第9章 Structured Streaming 实战 111

    消费流source 112

    程序逻辑 114

    写入流sink 114

    小结 116

    0章 Structured Streaming的Source 117

    source概述 117

    可靠的source需要能够重放数据 118

    source需要提供schema 119

    可用的source 121

    文件source 122

    指定文件格式 122

    公共配置 1

    常用的文本解析配置项(CSV、JSON) 124

    JSON文件source 125

    CSV文件source127

    Parquet文件source 128

    文本文件source 128

    Kafka source 129

    创建Kafka source 130

    选择订阅主题的方法 131

    Kafka source的配置项 132

    Kafka消费者的配置项 133

    Socket source 134

    配置 135

    操作 136

    Rate source 136

    1章 Structured Streaming的Sink 139

    sink概述 139

    可用的sink 140

    可靠的sink 140

    实验型sink 141

    sink API 141

    深入学习sink 141

    文件sink 142

    在文件sink中使用触发器 143

    文件格式的通用配置项 145

    常见的时间和日期格式化设置(CSV、JSON) 146

    CSV文件sink 146

    JSON文件sink 147

    Parquet文件sink 148

    文本文件sink 148

    Kafka sink 148

    Kafka发布模型 148

    Kafka sink的使用 149

    内存sink 152

    控制台sink 153

    配置项 153

    输出模式 153

    Foreach sink 154

    ForeachWriter 接口 154

    TCP Writer sink: ForeachWriter使用案例 155

    案例总结 158

    ForeachWriter序列化问题排查 159

    2章 基于事件时间的流处理 161

    Structured Streaming中的事件时间 161

    事件时间 163

    处理时间 164

    水位线 164

    基于时间的窗口聚合 165

    基于时间的窗口定义 166

    如何计算间隔 167

    多维聚合 167

    滚动窗口和滑动窗口 168

    记录去重 170

    小结 170

    3章 不错状态操作 173

    案例:车队管理 174

    分组状态操作 174

    使用MapGroupsWithState 176

    使用FlatMapGroupsWithState 180

    输出模式 182

    管理状态的时变 13

    小结 186

    4章 Structured Streaming 应用监控 187

    Spark 指标子系统 188

    Streamingery 实例 189

    StreamingeryListener 接口 192

    5章 实验模块:连续处理与机器学习 195

    连续处理 195

    连续处理介绍 195

    使用连续处理 197

    局限 198

    机器学习 199

    学习与应用199

    在流中使用机器学习模型 200

    案例:利用环境传感器估计房间使用情况 201

    在线训练 204

    参考文献 207

    第三部分 Spark Streaming

    6章 Spark Streaming 概述 213

    DStream 抽象 214

    基于DStream 的编程模型 214

    基于DStream 的执行模型 216

    Spark Streaming 程序结构 216

    创建Spark Streaming Context 217

    定义DStream 218

    定义输出操作 218

    启动Spark Streaming Context 218

    停止Streaming进程 219

    小结 219

    7章 Spark Streaming编程模型 221

    RDD,DStream的底层抽象 221

    DStream转换操作 224

    元素级别的DStream转换 226

    RDD 级别的DStream转换228

    Count操作 229

    修改结构的转换操作 0

    小结 1

    8章 Spark Streaming执行模型

    整体同步架构

    Receiver 模型 5

    Receiver API 5

    Receiver 工作流程

    Receiver 数据流

    内部的数据弹

    Receiver 的并行

    资源平衡:Receiver 与处理核数

    通过预写式日志(Write-Ahead Log)达到零数据丢失 240

    无Receiver(Direct)模式 241

    小结 242

    9章 Spark Streaming 的Source 245

    source 分类 245

    基础source 246

    基于Receiver 模式的source 246

    基于Direct 模式的source 247

    常用source 247

    文件source 248

    队列source 251

    工作流程 252

    使用队列source 进行单元测试 252

    队列source 的简单替代方案:ConstantInputDStream 254

    Socket source 256

    Kafka source 258

    使用Kafka source 260

    工作流程 261

    哪里有更多的source 262

    第20章 Spark Streaming 的Sink 263

    输出操作 263

    内置的输出操作 265

    print 266

    saveAs 系列 266

    foreachRDD 268

    使用foreachRDD 编写自定义sink 268

    第三方输出操作 271

    2章 基于时间的流处理 273

    窗口聚合 273

    滚动窗口 274

    滑动窗口 275

    滑动窗口与批次间隔 275

    滑动窗口与滚动窗口 276

    使用窗口还是较长的批次间隔 276

    窗口上的reduce 操作 277

    reduceByWindow 278

    reduceByKeyAndWindow 278

    countByWindow 278

    countByValueAndWindow 279

    可逆的窗口聚合操作 279

    流的分片 281

    小结 281

    第22章 任意有状态的流处理 283

    流的状态

    updateStateByKey 284

    updateStateByKey 的局限 26

    能 286

    内存占用 287

    使用mapwithState 进行有状态的计算 287

    使用mapWithState 289

    使用mapWithState进行基于事件时间的流计算 291

    第章 使用Spark SL 295

    Spark SL 296

    在Spark Streaming中使用Spark SL函数 297

    静态数据处理 301

    Join 优化 304

    更新流处理程序中的参考数据集 307

    小结 309

    第24章 checkpoint 机制 311

    checkpoint的使用 312

    DStream的checkpoint机制 317

    从checkpoint中恢复 318

    checkpoint的代价 320

    checkpoint调优 320

    第25章 Spark Streaming应用监控 3

    Streaming UI 324

    通过Streaming UI了解作业能 326

    输入速率图326

    调度延迟图327

    处理时间图328

    总延迟图 328

    批次细节 329

    监控REST API 331

    监控REST API 的使用 331

    监控REST API 详解 331

    指标子系统 333

    内部事件总线 335

    小结 339

    第26章 能调优 341

    Spark Streaming中的能平衡 341

    批次间隔与处理延迟的关系 342

    作业是如何失败的 342

    深入理解调度延迟和处理延迟 343

    checkpoint对处理时间的影响 344

    影响作业能的外部因素 345

    如何提高能 345

    调整批次间隔 346

    以固定速率对数据摄入限流 346

    反压 347

    动态限流 348

    P 反压调优 349

    自定义速率估算器 349

    另一种动态处理策略 350

    缓存 350

    推测执行 352

    参考文献 353

    第四部分 Spark Streaming不错技巧

    第27章 流式近似与抽样算法 357

    准确、实时与大数据 358

    准确 358

    实时处理 358

    大数据 359

    准确、实时与大数据之间的三角关系 359

    近似算法 362

    哈希与素描 362

    去重统计:HyperLogLog 363

    角色扮演练习:如我们是系统管理员 364

    HyperLogLog 在Spark中的实践 367

    统计元素频率:Count-min Sketch 371

    布隆过滤器概述 372

    在Spark 中使用布隆过滤器 373

    使用Count-min Sketch统计频率 373

    排名与分位数:T-Digest 算法 376

    减少元素数量:抽样 378

    随机抽样 379

    分层抽样 380

    第28章 实时机器学习 381

    利用朴素贝叶斯进行流分类 382

    streamDM介绍384

    朴素贝叶斯实践案例 385

    训练一个电影评论分类器 386

    决策树介绍 387

    Hoeffding树 389

    使用在线K-means进行流聚类 392

    K-means聚类 392

    在线数据与在线K-means算法 393

    聚类的衰退问题 394

    使用Spark Streaming运行流式K-means 396

    参考文献 399

    第五部分 Apache Spark之外的世界

    第29章 分布式实时流处理系统 405

    Apache Storm 405

    编程模型 406

    Storm 拓扑 406

    Storm 集群 407

    与Spark 相比 407

    Apache Flink 408

    流处理优先的框架 408

    与Spark相比 409

    Kafka Streams 409

    Kafka Streams编程模型 410

    与Spark相比 410

    云上的流处理系统 411

    AWS上的Amazon Kinesis 411

    微软的Azure Stream Analytics 412

    Apache Beam 和Google Cloud Dataflow 413

    第30章 展望 417

    紧随Spark 项目 418

    在Stack Overflow上寻求帮 418

    在邮件列表中进行讨论 418

    参加会议 419

    参加交流会 419

    贡献Apache Spark 项目 419

    参考文献 421

    作者介绍 4

    封面介绍 4

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购