返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • 数据采集与预处理 林子雨 著 大中专 文轩网
  • 新华书店正版
    • 作者: 林子雨著
    • 出版社: 人民邮电出版社
    • 出版时间:2022-02-01 00:00:00
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    文轩网图书旗舰店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

         https://product.suning.com/0070067633/11555288247.html

     

    商品参数
    • 作者: 林子雨著
    • 出版社:人民邮电出版社
    • 出版时间:2022-02-01 00:00:00
    • 版次:1
    • 印次:1
    • 印刷时间:2022-02-01
    • 字数:404000
    • 页数:250
    • 开本:16开
    • 装帧:平装
    • ISBN:9787115580634
    • 国别/地区:中国
    • 版权提供:人民邮电出版社

    数据采集与预处理

    作  者:林子雨 著
    定  价:59.8
    出 版 社:人民邮电出版社
    出版日期:2022年02月01日
    页  数:250
    装  帧:平装
    ISBN:9787115580634
    主编推荐

    1.本书作者为大数据领域的知名作者——厦门大学林子雨,作者长期从事大数据教学,在大数据教育领域有较高的知名度和较大的影响力,其编著的《大数据技术原理与应用 ——概念、存储、处理、 分析与应用(第3版)》一书今年销售预计超过5万册; 2.本书内容全面,配套资源丰富:PPT、教学大纲、授课视频、实验指南、课后习题答案等; 3.有服务平台:作者教学团队打造了在线的“高校大数据课程公共服务平台”,为全国高校师生提供相关教学服务并经常更新。目前该平台已经成为国内高校大数据教学品牌,平台累计访问量超过1300万次; 4.有教师服务QQ群:916443807。

    内容简介

    本书详细阐述了大数据领域数据采集与预处理的相关理论和技术。全书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。本书在第3章至第8章中安排了丰富的实践操作,以便读者更好地学习和掌握数据采集与预处理的关键技术。本书可以作为高等院校大数据专业的大数据课程教材,也可供相关技术人员参考。

    作者简介

    林子雨 博士,国内高校知名大数据教师,厦门大学计算机科学系副教授,厦门大学信息学院实验教学中心主任,厦门大学数据库实验室负责人,中国高校少有“数字教师”提出者和建设者。2013年开始在厦门大学开设大数据课程,建设了国内高校少有大数据课程公共服务平台,平台累计网络访问量超过1000万次,成为全国高校大数据教学知名品牌,并荣获“2018年福建省教学成果二等奖”和“2018年厦门大学教学成果特等奖”,主持的课程“大数据技术原理与应用”获评“2018年国家精品在线开放课程”和“2020年重量线上品质本科课程”。

    精彩内容

    目录
    第1章 概述
    1.1 数据
    1.1.1 数据的概念
    1.1.2 数据类型
    1.1.3 数据的组织形式
    1.1.4 数据的价值
    1.1.5 数据爆炸
    1.2 数据分析过程
    1.3 数据采集与预处理的任务
    1.4 数据采集
    1.4.1 数据采集的概念
    1.4.2 数据采集的三大要点
    1.4.3 数据采集的数据源
    1.4.4 数据采集方法
    1.5 数据清洗
    1.5.1 数据清洗的应用领域
    1.5.2 数据清洗的实现方式
    1.5.3 数据清洗的内容
    1.5.4 数据清洗的注意事项
    1.5.5 数据清洗的基本.流.程
    1.5.6 数据清洗的评价标
    1.6 数据集成
    1.7 数据转换
    1.7.1 数据转换策略
    1.7.2 平滑处理
    1.7.3 规范化处理
    1.8 数据脱敏
    1.8.1 数据脱敏原则
    1.8.2 数据脱敏方法
    1.9 本章小结
    1.10 习题
    第2章 大数据实验环境搭建
    2.1 Python的安装和使用
    2.1.1 Python简介
    2.1.2 Python的安装
    2.1.3 Python的基本使用方法
    2.1.4 Python基础语法知识
    2.1.5 Python第三方模块的安装
    2.2 JDK的安装
    2.3 MySQL数据库的安装和使用
    2.3.1 关系数据库
    2.3.2 关系数据库标准语言SQL
    2.3.3 安装MySQL
    2.3.4 MySQL数据库的使用方法
    2.3.5 使用Ppython操作MySQL数据库
    2.4 Hadoop的安装和使用
    2.4.1 Hadoop简介
    2.4.2 分布式系统HDFS
    2.4.3 Hadoop安装
    2.4.4 Hadoop的基本使用方法
    2.5 本章小结
    2.6 习题
    实验1 熟悉MySQL和HDFS操作
    第3章 网络数据采集
    3.1 网络爬虫概述
    3.1.1 什么是网络爬虫
    3.1.2 网络爬虫的类型
    3.1.3 反爬机制
    3.2 网页基础知识
    3.2.1 超文本和HTML
    3.2.2 HTTP
    3.3 用Python实现HTTP请求
    3.3.1 urllib模块
    3.3.2 urllib3模块
    3.3.3 requests模块
    3.4 定制request
    3.4.1 传递URL参数
    3.4.2 定制请求头
    3.4.3 网络超时
    3.5 解析网页
    3.5.1 BeautifulSoup简介
    3.5.2 BeautifulSoup四大对象
    3.5.3 遍历文件树
    3.5.4 搜索文档树
    3.5.5 CSS选择器
    3.6 综合实例
    3.6.1 实例1:采集网页数据保存到文本
    3.6.2 实例2:采集网页数据保存到MYSQL数据库
    3.7 Scrapy框架
    3.7.1 Scrapy框架概述
    3.7.2 XPath语言
    3.7.3 Scrapy框架应用实例
    3.8 本章小结
    3.9 习题
    实验2 网络爬虫初级实践
    第4章 分布式消息系统afu
    4.1 Kafka简介
    4.1.1 Kafk的特性
    4.1.2 Kafka的应用场景
    4.1.3 Kafka的消息传递模式
    4.2 Kafka在大数据生态系统中的作用
    4.3 Kafka与Flume的区别与联
    4.4 Kafka相关概念
    4.5 Kafka的安装和使用
    4.5.1 安装Kafk
    4.5.2 使用Kafka
    4.6 使用Python操作Kafka
    4.7 Kafka与MysQL的组合使用
    4.8 本章小结
    4.9 习题
    实验3 熟悉Kafka的基本使用方法
    第5章 日志采集统Flume
    5.1 Flume简介
    5.2 Flume的安装和使用
    5.2.1 Flume的安装
    5.2.2 Flume的使用
    5.3 Flume和Kafka的组合使用
    5.4 采集日志文件到HDFS
    5.4.1 采集目录到HDFS
    5.4.2 采集文件到HDFS
    5.5 采集MySQL数据到HDFS
    5.5.1 准备工作
    5.5.2 创建MysQL数据库
    5.6 本章小结
    5.7 习题
    实验4 熟悉Flume的基本使用方法
    第6章 数据仓库中的数据集成
    6.1 数据仓库的概念
    6.1.1 传统的数据仓库
    6.1.2 实时主动数据仓库
    6.2 数据集成
    6.2.1 数据集成方式
    6.2.2 数据分发方式
    6.2.3 数据集成技术
    6.3 ETL
    6.3.1 ETL简介
    6.3.2 ETL基本模块
    6.3.3 ETL工具
    6.4 CDC
    6.4.1 CDC的特性
    6.4.2 CDC的组成
    6.4.3 CDC的应用场景
    6.4.4 CDC需要考虑的问题
    6.5 本章小结
    6.6 习题
    第7章 ETL工具的Kettle
    7.1 Kettle的基本概念!
    7.2 Kettle的基本功能
    7.3 安装Kettle
    7.4 数据抽取
    7.4.1 把文本文件导入Excel文件
    7.4.2 把文本文件导入MySQL数据库
    7.4.3 把Excel文件导入MySQL数据库
    7.5 数据清洗与转换
    7.5.1 使用Kettle实现数据排序
    7.5.2 在Kettle中用正则表达式清洗数据
    7.5.3 使用Kettle去除缺失值
    7.5.4 使用Kettle转化MySQL数据库中的数据
    7.6 数据加载
    7.6.1 把本地文件加载到HDFS中
    7.6.2 把HDFS文件加载到MySQL数库
    7.7 本章小结
    7.8 习题
    实验5 熟悉Kettle的基本使用方法
    第8章 使用pandas进行数据清洗
    8.1 NumPy的基本使用方法
    8.1.1 数组创建
    8.1.2 数组索引和切片
    8.1.3 数组运算
    8.2 pandas

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购