返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • Kettle构建Hadoop ETL系统实践 王雪迎 著 专业科技 文轩网
  • 新华书店正版
    • 作者: 王雪迎著
    • 出版社: 清华大学出版社
    • 出版时间:2021-08-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

         https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: 王雪迎著
    • 出版社:清华大学出版社
    • 出版时间:2021-08-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2021-06-01
    • 页数:0
    • 开本:其他
    • 装帧:平装
    • ISBN:9787302582618
    • 国别/地区:中国
    • 版权提供:清华大学出版社

    Kettle构建Hadoop ETL系统实践

    作  者:王雪迎 著
    定  价:79
    出 版 社:清华大学出版社
    出版日期:2021年08月01日
    页  数:332
    装  帧:平装
    ISBN:9787302582618
    主编推荐

    Kettle易用性好,编码工作量小,功能完备,基于Java,允许多线程与并发执行以提高效率。本书以CDH作为Hadoop平台,结合销售订单示例,详细介绍并演示如何使用Kettle完成Hadoop数据仓库的ETL过程。本书适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读。

    内容简介

    Kettle是一款国外开源的ETL工具,纯Java编写,无须安装,功能完备,数据抽取高效稳定。
    本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程,所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。全书共分10章,主要内容包括ETL与Kettle的基本概念、Kettle安装与配置、Kettle对Hadoop的支持、建立ETL示例模型、数据转换与装载、定期自动执行ETL作业、维度表技术、事实表技术,以及Kettle并行、集群与分区技术。
    本书既适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。

    作者简介

    王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。

    精彩内容

    目录
    第1章ETL与Kettle1
    1.1ETL基础1
    1.1.1数据仓库架构中的ETL1
    1.1.2数据抽取3
    1.1.3数据转换5
    1.1.4数据装载6
    1.1.5开发ETL系统的方法6
    1.2ETL工具7
    1.2.1ETL工具的产生7
    1.2.2ETL工具的功能7
    1.3Kettle基本概念10
    1.3.1Kettle设计原则11
    1.3.2转换12
    1.3.3作业15
    1.3.4数据库连接18
    1.3.5连接与事务21
    1.3.6元数据与资源库21
    1.3.7工具22
    1.3.8虚拟文件系统26
    1.4为什么选择Kettle27
    1.4.1主要特性27
    1.4.2与SQL的比较27
    1.5小结30
    第2章Kettle安装与配置31
    2.1安装31
    2.1.1确定安装环境31
    2.1.2安装前准备33
    2.1.3安装运行Kettle41
    2.2配置43
    2.2.1配置文件和.kettle目录44
    2.2.2用于启动Kettle程序的shell脚本48
    2.2.3管理JDBC驱动49
    2.3使用资源库50
    2.3.1Kettle资源库简介50
    2.3.2创建数据库资源库50
    2.3.3资源库的管理与使用51
    2.4小结55
    第3章Kettle对Hadoop的支持56
    3.1Hadoop相关的步骤与作业项56
    3.2连接Hadoop57
    3.2.1连接Hadoop集群57
    3.2.2连接Hive63
    3.2.3连接Impala64
    3.2.4建立MySQL数据库连接66
    3.3导入导出Hadoop集群数据67
    3.3.1向HDFS导入数据67
    3.3.2向Hive导入数据67
    3.3.3从HDFS抽取数据到MySQL68
    3.3.4从Hive抽取数据到MySQL70
    3.4执行HiveQL语句72
    3.5执行MapReduce72
    3.5.1生成聚合数据集72
    3.5.2格式化原始Web日志77
    3.6执行Spark作业81
    3.6.1在Kettle主机上安装Spark客户端81
    3.6.2为Kettle配置Spark81
    3.6.3提交Spark作业82
    3.7小结83
    第4章建立ETL示例模型84
    4.1业务场景84
    4.1.1操作型数据源84
    4.1.2销售订单数据仓库模型设计85
    4.2Hive相关配置86
    4.2.1选择文件格式86
    4.2.2选择表类型88
    4.2.3支持行级更新92
    4.2.4Hive事务支持的94
    4.3建立数据库表94
    4.3.1源数据库表94
    4.3.2RDS库表97
    4.3.3TDS库表98
    4.4装载日期维度数据100
    4.5小结103
    第5章数据抽取104
    5.1Kettle数据抽取概览104
    5.1.1文件抽取105
    5.1.2数据库抽取116
    5.2变化数据捕获119
    5.2.1基于源数据的CDC119
    5.2.2基于触发器的CDC125
    5.2.3基于快照的CDC126
    5.2.4基于日志的CDC130
    5.3使用Sqoop抽取数据132
    5.3.1Sqoop简介132
    5.3.2使用Sqoop抽取数据134
    5.3.3Sqoop优化137
    5.4小结138
    第6章数据转换与装载139
    6.1数据清洗139
    6.1.1处理“脏数据”139
    6.1.2数据清洗原则140
    6.1.3数据清洗实例140
    6.2Hive简介146
    6.2.1Hive体系结构147
    6.2.2Hive工作流程148
    6.2.3Hive服务器149
    6.2.4Hive优化152
    6.3初始装载160
    6.3.1系统初始化162
    6.3.2装载过渡区164
    6.3.3装载维度表165
    6.3.4装载事实表167
    6.3.5设置后装载日期168
    6.4定期装载168
    6.4.1设置系统日期169
    6.4.2装载过渡区169
    6.4.3装载维度表169
    6.4.4装载事实表174
    6.4.5设置后装载日期176
    6.5小结178
    第7章定期自动执行ETL作业179
    7.1使用crontab179
    7.1.1crontab权限180
    7.1.2crontab命令180
    7.1.3crontab文件181
    7.1.4crontab示例181
    7.1.5crontab环境182
    7.1.6重定向输出183
    7.2使用Oozie183
    7.2.1Oozie体系结构184
    7.2.2CDH6.3.1中的Oozie185
    7.2.3建立定期装载工作流185
    7.2.4建立协调器作业定期自动执行工作流197
    7.2.5在Kettle中执行Oozie作业200
    7.2.6Oozie优化201
    7.3使用start作业项202
    7.4小结203
    第8章维度表技术205
    8.1增加列205
    8.1.1修改数据库模式206
    8.1.2修改Sqoop作业项206
    8.1.3修改定期装载维度表的转换207
    8.1.4修改定期装载事实表的转换210
    8.1.5测试210
    8.2维度子集211
    8.2.1建立包含属性子集的子维度212
    8.2.2建立包含行子集的子维度214
    8.2.3使用视图实现维度子集216
    8.3角色扮演维度217
    8.3.1修改数据库模式217
    8.3.2修改Kettle定期装载作业218
    8.3.3测试220
    8.3.4一种有问题的设计223
    8.4层次维度224
    8.4.1固定深度的层次224
    8.4.2多路径层次228
    8.4.3参差不齐的层次229
    8.4.4递归230
    8.5退化维度238
    8.5.1退化订单维度239
    8.5.2修改定期装载脚本241
    8.5.3测试修改后的定期装载241
    8.6杂项维度242
    8.6.1新增销售订单属性杂项维度245
    8.6.2修改定期装载Kettle作业246
    8.6.3测试修改后的定期装载247
    8.7维度合并248
    8.7.1修改数据仓库模式249
    8.7.2初始装载事实表251
    8.7.3修改定期装载Kettle作业253
    8.7.4测试修改后的定期装载254
    8.8分段维度255
    8.8.1年度销售订单星型模式256
    8.8.2初始装载258
    8.8.3定期装载260
    8.9小结261
    第9章事实表技术262
    9.1事实表概述262
    9.2周期快照263
    9.2.1修改数据仓库模式263
    9.2.2创建快照表数据装载Kettle转换265
    9.3累积快照267
    9.3.1修改数据库模式268
    9.3.2修改增量抽取销售订单表的Kettle转换270
    9.3.3修改定期装载销售订单事实表的Kettle转换270
    9.3.4修改定期装载Kettle作业271
    9.3.5测试274
    9.4无事实的事实表276
    9.4.1建立新产品发布的无事实的事实表277
    9.4.2初始装载无事实的事实表278
    9.4.3修改定期装载Kettle作业280
    9.4.4测试定期装载作业281
    9.5迟到的事实281
    9.5.1修改数据仓库模式282
    9.5.2修改定期装载Kettle转换282
    9.5.3修改装载月销售周期快照事实表的作业283
    9.5.4测试286
    9.6累积度量289
    9.6.1修改模式289
    9.6.2初始装载290
    9.6.3定期装载291
    9.6.4测试定期装载292
    9.6.5查询294
    9.7小结295
    第10章并行、集群与分区296
    10.1数据分发方式与多线程296
    10.1.1数据行分发297
    10.1.2记录行合并298
    10.1.3记录行再分发299
    10.1.4数据流水线301
    10.1.5多线程的问题301
    10.1.6作业中的并行执行302
    10.2Carte子服务器303
    10.2.1创建Carte子服务器303
    10.2.2定义子服务器304
    10.2.3远程执行304
    10.2.4监视子服务器306
    10.2.5Carte安全306
    10.2.6服务307
    10.3集群转换308
    10.3.1定义一个静态集群308
    10.3.2设计集群转换310
    10.3.3执行和监控310
    10.3.4元数据转换312
    10.3.5配置动态集群313
    10.4数据库分区315
    10.4.1在数据库连接中使用集群315
    10.4.2创建数据库分区schemas317
    10.4.3启用数据库分区318
    10.4.4数据库分区示例319
    10.4.5集群转换中的分区321
    10.5小结322

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购