返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • 正版新书]PySpark大数据分析与应用戴刚,张良均9787115634900
  • 全店均为全新正版书籍,欢迎选购!新疆西藏青海(可包挂刷).港澳台及海外地区bu bao快递
    • 作者: 戴刚,张良均著 | 戴刚,张良均编 | 戴刚,张良均译 | 戴刚,张良均绘
    • 出版社: 人民邮电出版社
    • 出版时间:2024-04-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    君凤文轩图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: 戴刚,张良均著| 戴刚,张良均编| 戴刚,张良均译| 戴刚,张良均绘
    • 出版社:人民邮电出版社
    • 出版时间:2024-04-01
    • 版次:1
    • 印次:1
    • 字数:401000
    • 页数:288
    • 开本:16开
    • ISBN:9787115634900
    • 版权提供:人民邮电出版社
    • 作者:戴刚,张良均
    • 著:戴刚,张良均
    • 装帧:平装
    • 印次:1
    • 定价:69.8
    • ISBN:9787115634900
    • 出版社:人民邮电出版社
    • 开本:16开
    • 印刷时间:暂无
    • 语种:暂无
    • 出版时间:2024-04-01
    • 页数:288
    • 外部编号:党庄B163177
    • 版次:1
    • 成品尺寸:暂无

    第 1章PySpark大数据分析概述 1
    1.1  大数据分析概述  1
    1.1.1  大数据的概念  2
    1.1.2  大数据分析的概念  3
    1.1.3  大数据分析的流程  4
    1.1.4  大数据分析的应用场景  6
    1.1.5  大数据技术体系  6
    1.2  Spark大数据技术框架  10
    1.2.1  Spark 简介  10
    1.2.2  Spark 特点  11
    1.2.3  Spark运行架构与流程  11
    1.2.4  Spark RDD  14
    1.2.5  Spark 生态圈  20
    1.3  PySpark大数据分析  21
    1.3.1  PySpark 简介  21
    1.3.2  PySpark 子模块  22
    小结  25
    课后习题  26

    第  2章 PySpark安装配置  27
    2.1  搭建单机模式的PySpark开发
    环境  28
    2.1.1  安装 JDK  28
    2.1.2  安装 Anaconda  28
    2.1.3  安装 Hadoop  30
    2.1.4  安装 MySQL  36
    2.1.5  安装 Hive  37
    2.1.6  配置 PySpark 模块  43
    2.1.7  运行 Jupyter Notebook  44
    2.2  搭建分布式模式的PySpark开发
    环境  45
    2.2.1  安装配置虚拟机  46
    2.2.2  安装 Java  53
    2.2.3  搭建Hadoop分布式集群  58
    2.2.4  安装MySQL数据库  62
    2.2.5  安装Hive数据仓库工具  63
    2.2.6  搭建Spark接近分布式集群  66
    2.2.7  安装 PyCham  69
    2.2.8  安装Python解释器及PySpark 模块  69
    2.3  Python函数式编程  69
    2.3.1  Python常用数据结构  70
    2.3.2  Python函数式编程基础  75
    小结  76
    课后习题  76

    第  3 章 基于 PySpark 的 DataFrame 操作  78
    3.1  Spark SQL 概述  78
    3.1.1  Spark SQL起源与发展历程  79
    3.1.2  Spark SQL 主要功能  79
    3.1.3  Spark SQL数据核心抽象 DataFrame  80
    3.2  pyspark.sql 模块  82
    3.2.1  pyspark. sql 模块简介  82
    3.2.2  pyspark. sql 模块核心类  83
    3.3  DataFrame 基础操作  85
    3.3.1  创建 DataFrame 对象  86
    332  DataFrame 操作  93
    3.3.3  DataFrame 输出操作  113
    小结  114
    实训  114
    实训1网站搜索热词统计分析  114
    实训2大数据岗位招聘信息统计分析  …115
    课后习题  116

    第4章  基于PySpark的流式数据
    处理  118
    4.1  Spark Streaming 概述  119
    4.1.1  流计算简介  119
    4.1.2  Spark Streaming 基本概念  121
    4.1.3  Spark Streaming 工作原理  121
    4.1.4  Spark Streaming 运行机制  122
    4.2  pyspark.streaming 模块  123
    4.2.1  pyspark. streaming 模块简介  123
    4.2.2  pyspark. streaming 模块核心类  124
    4.2.3  DStream 基础操作  126
    4.3  Structured Streaming 结构化流 处理  146
    4.3.1  Structured Streaming 概述  146
    4.3.2  Structured Streaming 编程模型  147
    4.3.3  Structured Streaming 基础操作  148
    4.3.4  Structured Streaming 编程步骤  152
    小结  155
    实训  155
    实训1使用Spark  Streaming实现菜品价格
    实时计算  155
    实训2使用Spark  Streaming实时判别车辆 所属地  156
    课后习题  156

    第5章  基于PySpark的机器
    学习库  158
    5.1  MLlib 算法  159
    5.1.1  机器学习  159
    5.1.2  MLlib  159
    5.1.3  pyspark.ml 模块  159
    5.2  使用pyspark.ml模块的转换器处理
    和转换数据  162
    5.2.1  数据加载及数据集划分  162
    5.2.2  数据降维  164
    5.2.3  数据标准化  166
    5.2.4  数据类型转换  171
    5.3  pyspark.ml模块的评估器和模型 评估  175
    5.3.1  使用PySpark构建并评估分类 模型  175
    5.3.2  使用PySpark构建并评估回归 模型  182
    5.3.3  使用PySpark构建并评估聚类 模型  186
    5.3.4  使用PySpark构建并评估智能推荐
    模型  189
    小结  195
    实训  195
    实训1使用随机森林模型预测是否批准  用户申请  195
    实训2使用回归模型实现房价预测………196
    课后习题  197

    第6章  案例分析:基于PySpark的网络 招聘信息的职业类型划分 ……199
    6.1  需求与架构分析  200
    6.1.1  业务需求分析与技术选型  200
    6.1.2  系统架构分析  200
    6.2  数据探索  201
    6.2.1  数据说明  202
    6.2.2  数据读取  202
    6.2.3  重复数据与空值探索  204
    6.2.4  异常数据探索  205
    6.3  数据预处理  207
    6.3.1  数据清洗  207
    6.3.2  中文分词与去停用词  208
    6.3.3  词特征向量化  210
    6.4  模型构建与评估  213
    6.4.1  LDA算法简介  214
    6.4.2  LDA模型构建与评估  215
    6.4.3  构建LDA模型  217
    6.5  制作词云图  220
    小结  225

    第7章  案例分析:基于PySpark的
    信用贷款风险分析  226
    7.1  需求与架构分析  227
    7.1.1  业务需求分析  227
    7.1.2  系统架构分析  227
    7.2  数据探索  228
    7.2.1  数据说明  228
    7.2.2  建立数据仓库并导入数据  230
    7.2.3  用户信息完善情况与逾期率的关系
    探索  233
    7.2.4  用户信息修改情况与逾期率的关系
    探索  236
    7.2.5  用户借款月份与逾期率的关系
    探索  240
    7.3  数据预处理  243
    7.3.1  计算用户信息缺失个数及借款月份
    构建新特征  243
    7.3.2  用户更新信息重建  245
    7.3.3  用户登录信息重建  250
    7.3.4  分类数据预处理  255
    7.3.5  字符串字段编码处理  259
    7.3.6  分类数据重编码  263
    7.3.7  缺失值处理  265
    7.4  模型构建与评估  267
    7.4.1  了解 GBTs 算法  267
    7.4.2  构建 GBTs 模型  268
    7.4.3  评估 GBTs 模型  271
    7.5  部署和提交PySpark应用程序…271
    7.5.1  打包PySpark应用程序  271
    7.5.2  提交PySpark应用程序  274
    小结  275
    参考文献  276

    戴刚,重庆大学计算机科学与技术博士,美国匹兹堡大学访问学者,重庆交通大学经济与管理学院副教授,硕士生导师。主持1项教育部产学研合作项目,主研国家自然科学基金2项,国家科技支持计划1项目,中国移动(重庆分公司)科技公关项目1项,省部级科研项目2项,在国际期刊、国际会议及国内权威学术期刊发辫学术论文7篇。熟悉Java、Python、大数据及相关软件架构,具有丰富的软件开发经验。从事教育教学工作十多年,有扎实的专业素养和丰富的教学经验。

    1.理论叙述由浅入深,循序渐进,表达通俗易懂。本书的知识点章节从基本概念入手,介绍相关的基础理论,并结合介绍的知识点进行操作实践,再通过应用实例介绍如何运用具体方法解决实际问题。
    2.强化基础,突出知识的应用性。结合高校教学特点和学生的情况,突出PySpark大数据分析的重点内容,强调PySpark在实际问题中的应用性,充分体现了理论知识与应用的紧密结合。
    3.从实践出发,重点突出可操作性。本书从构建PySpark的开发环境入手,详细介绍了单机模式的PySpark开发环境搭建(基于Windows系统搭建,搭建过程简单,易于操作)和分布式模式的PySpark开发环境搭建(基于Linux系统搭建,贴近实际应用场景,处理高效),帮助读者构建一个可操作的实践环境,实践本书各章节的内容。且本书大部分章节附有实训和课后习题,便于读者进行上机实验,巩固所学知识,真正理解并应用所学知识。
    4.通过典型的案例完整展示PySpark数据分析的过程,强化知识的实际应用。本书最后介绍了两个案例,以应用为导向,从需求分析入手,再设计解决方案,最终运用所需知识实现基于PySpark的数据分析过程。
    5.体现思政育人。本书不仅注重培养学生分析处理数据的能力,运用数据分析理论与方法解决实际问题的实践能力;同时注重课程内容与思政教育的有机融合,潜移默化中引领学生树立和践行社会主义核心价值观,建立正确的三观,培养拥有正确政治方向的四有青年。

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购