返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • Hadoop数据分析
  • 新华书店正版
    • 作者: (美)本杰明·班福特(Benjamin Bengfort),(美)珍妮·基姆(Jenny Kim) 著;王纯超 译著
    • 出版社: 人民邮电出版社
    • 出版时间:2018-04-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

         https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: (美)本杰明·班福特(Benjamin Bengfort),(美)珍妮·基姆(Jenny Kim) 著;王纯超 译著
    • 出版社:人民邮电出版社
    • 出版时间:2018-04-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2018-04-01
    • 字数:337千字
    • 页数:211
    • 开本:16开
    • 装帧:平装
    • ISBN:9787115479648
    • 国别/地区:中国
    • 版权提供:人民邮电出版社

    Hadoop数据分析

    作  者:(美)本杰明·班福特(Benjamin Bengfort),(美)珍妮·基姆(Jenny Kim) 著;王纯超 译
    定  价:69
    出 版 社:人民邮电出版社
    出版日期:2018年04月01日
    页  数:211
    装  帧:平装
    ISBN:9787115479648
    主编推荐

    内容简介

    通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,第 一部分从很好高的层次介绍分布式计算,讨论如何在集群上运行计算;第二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。

    作者简介

    本杰明·班福特(Benjamin Bengfort),数据科学家,目前正在马里兰大学攻读博士学位,方向为机器学习和分布式计算;熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。
    珍妮·基姆(Jenny Kim),经验丰富的大数据工程师,不仅进行商业软件的开发,在学术界也有所建树,在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前任职于Cloudera的Hue团队。

    精彩内容

    目录
    前言ix
    第一部分  分布式计算入门
    第1章  数据产品时代2
    1.1  什么是数据产品2
    1.2  使用Hadoop构建大规模数据产品4
    1.2.1  利用大型数据集4
    1.2.2  数据产品中的Hadoop5
    1.3  数据科学流水线和Hadoop生态系统6
    1.4  小结8
    第2章  大数据操作系统9
    2.1  基本概念10
    2.2  Hadoop架构11
    2.2.1  Hadoop集群12
    2.2.2  HDFS14
    2.2.3  YARN15
    2.3  使用分布式文件系统16
    2.3.1  基本的文件系统操作16
    2.3.2  HDFS文件权限18
    2.3.3  其他HDFS接口19
    2.4  使用分布式计算20
    2.4.1  MapReduce:函数式编程模型20
    2.4.2  MapReduce:集群上的实现22
    2.4.3  不止一个MapReduce:作业链27
    2.5  向YARN提交MapReduce作业28
    2.6  小结30
    第3章  Python框架和HadoopStreaming31
    3.1  HadoopStreaming32
    3.1.1  使用Streaming在CSV数据上运行计算34
    3.1.2  执行Streaming作业38
    3.2  Python的MapReduce框架39
    3.2.1  短语计数42
    3.2.2  其他框架45
    3.3  MapReduce进阶46
    3.3.1  combiner46
    3.3.2  partitioner47
    3.3.3  作业链47
    3.4  小结50
    第4章  Spark内存计算52
    4.1  Spark基础53
    4.1.1  Spark栈54
    4.1.2  RDD55
    4.1.3  使用RDD编程56
    4.2  基于PySpark的交互性Spark59
    4.3  编写Spark应用程序61
    4.4  小结67
    第5章  分布式分析和模式69
    5.1  键计算70
    5.1.1  复合键71
    5.1.2  键空间模式74
    5.1.3  pair与stripe78
    5.2  设计模式80
    5.2.1  概要81
    5.2.2  索引85
    5.2.3  过滤90
    5.3  迈向第后一英里分析95
    5.3.1  模型拟合96
    5.3.2  模型验证97
    5.4  小结98
    第二部分  大数据科学的工作流和工具
    第6章  数据挖掘和数据仓102
    6.1  Hive结构化数据查询103
    6.1.1  Hive命令行接口(CLI)103
    6.1.2  Hive查询语言104
    6.1.3  Hive数据分析108
    6.2  HBase113
    6.2.1  NoSQL与列式数据库114
    6.2.2  HBase实时分析116
    6.3  小结122
    第7章  数据采集123
    7.1  使用Sqoop导入关系数据124
    7.1.1  从MySQL导入HDFS124
    7.1.2  从MySQL导入Hive126
    7.1.3  从MySQL导入HBase128
    7.2  使用Flume获取流式数据130
    7.2.1  Flume数据流130
    7.2.2  使用Flume获取产品印象数据133
    7.3  小结136
    第8章  使用高级API进行分析137
    8.1  Pig137
    8.1.1  PigLatin138
    8.1.2  数据类型142
    8.1.3  关系运算符142
    8.1.4  用户定义函数143
    8.1.5  Pig小结144
    8.2  Spark高级API144
    8.2.1  SparkSQL146
    8.2.2  DataFrame148
    8.3  小结153
    第9章  机器学习154
    9.1  使用Spark进行可扩展的机器学习154
    9.1.1  协同过滤156
    9.1.2  分类161
    9.1.3  聚类163
    9.2  小结166
    第10章  总结:分布式数据科学实战167
    10.1  数据产品生命周期168
    10.1.1  数据湖泊169
    10.1.2  数据采集171
    10.1.3  计算数据存储172
    10.2  机器学习生命周期173
    10.3  小结175
    附录A  创建Hadoop伪分布式开发环境176
    附录B  安装Hadoop生态系统产品184
    术语表193
    关于作者211
    关于封面211

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购