《【正版】大数据分析：Python爬虫、数据清洗和数据可视化》黄源，蒋文豪，龙颖著【摘要书评在线阅读】-苏宁易购图书

友一个文化制品专营店

商品参数

作者：黄源，蒋文豪，龙颖著
出版社：清华大学出版社
ISBN：9788930291948
版权提供：清华大学出版社

店铺公告

为保障消费者合理购买需求及公平交易机会，避免因非生活消费目的的购买货囤积商品，抬价转售等违法行为发生，店铺有权对异常订单不发货且不进行赔付。异常订单：包括但不限于相同用户ID批量下单，同一用户（指不同用户ID，存在相同/临近/虚构收货地址，或相同联系号码，收件人，同账户付款人等情形的）批量下单（一次性大于5本），以及其他非消费目的的交易订单。

温馨提示：请务必当着快递员面开箱验货，如发现破损，请立即拍照拒收，如验货有问题请及时联系在线客服处理，（如开箱验货时发现破损，所产生运费由我司承担，一经签收即为货物完好，如果您未开箱验货，一切损失就需要由买家承担，所以请买家一定要仔细验货）。

关于退货运费：对于下单后且物流已发货货品在途的状态下，原则上均不接受退货申请，如顾客原因退货需要承担来回运费，如因产品质量问题（非破损问题）可在签收后，联系在线客服。

书名：	大数据分析：Python爬虫、数据清洗和数据可视化（第2版·微课视频版）
出版社：	清华大学出版社
出版日期	2022
ISBN号：	9787302605232

本书的编写目的是向读者介绍大数据分析的基本概念和相应的技术应用。全书共10章，分别介绍大数据概述、爬虫和大数据相关技术、Scrapy爬虫、Python与MySQL数据库连接与查询、数据可视化基础与应用、大数据存储与清洗、数据格式与编码技术、数据抽取与采集、pandas数据分析与清洗以及综合实训。本书将理论与实践操作相结合，通过大量的案例帮助读者快速了解和应用大数据分析相关技术，并对书中重要的、核心的知识点加大练习的比例，以达到熟练应用的目的。

本书可作为高等院校大数据专业、人工智能专业、软件技术专业、云计算专业、计算机网络专业的专业课教材，也可作为大数据爱好者的参考书。

本书配套资源丰富，包括教学大纲、教学课件、电子教案、程序源码、习题答案，作者还为本书精心录制了600分钟的微课视频。

第1章大数据

1.1大数据概述

1.1.1大数据介绍

1.1.2大数据的特征

1.1.3大数据技术基础

1.1.4大数据应用

1.2大数据的意义

1.2.1大数据的国家战略意义

1.2.2大数据的企业意义

1.2.3我国大数据市场的预测

1.3大数据的产业链分析

1.3.1技术分析

1.3.2运营分析

1.4本章小结

1.5实训

习题

第2章爬虫与大数据

2.1爬虫概述

2.1.1爬虫介绍

2.1.2爬虫的地位与作用

2.2Python介绍

2.2.1Python开发环境的搭建

2.2.2编写Python程序

2.2.3Python数据类型

2.3爬虫相关知识

2.3.1了解网页结构

2.3.2Python与爬虫

2.3.3基础爬虫框架

2.3.4正则表达式

2.4利用爬虫抓取网页内容

2.4.1观察与分析页面

2.4.2抓取过程分析

2.4.3获取页面内容

2.5本章小结

2.6实训

习题

第3章Scrapy爬虫

3.1Scrapy爬虫概述

3.2Scrapy原理

3.2.1Scrapy框架的架构

3.2.2Request对象和Response对象

3.2.3Select对象

3.2.4Spider开发流程

3.3Scrapy的开发与实现

3.3.1Scrapy爬虫的开发流程

3.3.2创建Scrapy项目并查看结构

3.3.3编写代码并运行爬虫

3.4本章小结

3.5实训

习题

第4章数据库连接与查询

4.1数据库

4.1.1数据库概述

4.1.2关系数据库设计

4.2MySQL数据库

4.2.1MySQL数据库概述

4.2.2MySQL数据库的下载、安装与运行

4.2.3MySQL数据库命令行入门

4.3使用Python操作MySQL数据库

4.3.1pymysql的安装与使用

4.3.2使用Python连接MySQL数据库

4.4本章小结

4.5实训

习题

第5章数据可视化基础与应用

5.1数据可视化

5.1.1数据可视化概述

5.1.2数据可视化工具

5.1.3数据可视化图表

5.2matplotlib可视化基础

5.2.1numpy库

5.2.2matplotlib的认识与安装

5.2.3matplotlib测试

5.2.4matplotlib.pyplot库

5.3matplotlib可视化绘图

5.3.1绘制线性图形

5.3.2绘制柱状图

5.3.3绘制直方图

5.3.4绘制散点图

5.3.5绘制极坐标图

5.3.6绘制饼图

5.4pyecharts可视化应用

5.5本章小结

5.6实训

习题

第6章大数据存储与清洗

6.1大数据存储

6.2数据清洗

6.2.1数据清洗概述

6.2.2数据清洗的原理

6.2.3数据清洗的流程

6.2.4数据清洗的工具

6.3数据标准化

6.3.1数据标准化的概念

6.3.2数据标准化的方法

6.3.3数据标准化的实例

6.4本章小结

6.5实训

习题

第7章数据格式与编码技术

7.1文件格式

7.2数据类型与编码

7.2.1数据类型概述

7.2.2字符编码

7.2.3数据转换

7.3Kettle数据清洗与转换工具的使用

7.3.1Kettle概述

7.3.2Kettle的安装与使用

7.4CSV格式的数据转换

7.4.1CSV格式概述

7.4.2CSV与JSON文件的转换

7.5本章小结

7.6实训

习题

第8章数据抽取与采集

8.1数据抽取

8.2文本抽取与实现

8.2.1文本文件的抽取

8.2.2CSV文件的抽取

8.2.3JSON文件的抽取

8.3网页数据抽取与实现

8.3.1网页数据抽取

8.3.2Excel抽取网页数据

8.3.3Kettle抽取网页数据

8.4数据采集与实现

8.5本章小结

8.6实训

习题

第9章pandas数据分析与清洗

9.1认识pandas

9.2pandas的语法与使用

9.3pandas读取与清洗数据

9.3.1数据准备

9.3.2从CSV中读取数据

9.3.3pandas数据清洗

9.4pandas数据可视化

9.4.1pandas绘图概述

9.4.2pandas绘图方法

9.5本章小结

9.6实训

习题

第10章综合实训

10.1数据清洗实训

10.1.1使用Kettle对生成的随机数实现字段选择

10.1.2使用Kettle连接不同的数据表

10.1.3使用Kettle过滤数据表

10.1.4使用Kettle连接MySQL数据库并输出查询结果

10.2数据分析实训

10.3本章小结

习题

参考文献

本书第1版自2020年1月由清华大学出版社出版以来，被国内多所院校选为教材，深受师生好评，教学成果显著。此次改版在第1版的基础上增加了许多新的大数据技术，使得本书能够紧跟大数据的发展潮流。

大数据是现代社会高科技发展的产物，相对于传统的数据分析，大数据是海量数据的集合，它以采集、整理、存储、挖掘、共享、分析、应用、清洗为核心，正广泛地应用在军事、金融、环境保护、通信等各个行业中。

当前，发展大数据已经成为国家战略，大数据在引领经济社会发展中的新引擎作用更加明显。2014年“大数据”首次出现在我国的《政府工作报告》中。报告中说道，要设立新兴产业创业创新平台，在大数据等方面赶超先进，引领未来产业发展。“大数据”概念逐渐在国内成为热议的词汇。2015年国务院正式印发《促进大数据发展行动纲要》，《纲要》明确指出要不断地推动大数据发展和应用，在未来打造精准治理、多方协作的社会治理新模式，建立运行平稳、安全高效的经济运行新机制，构建以人为本、惠及全民的民生服务新体系，开启大众创业、万众创新的创新驱动新格局，培育高端智能、新兴繁荣的产业发展新生态。

本书共10章，主要包括大数据概述、爬虫和大数据相关技术、Scrapy爬虫、Python与MySQL数据库连接与查询、数据可视化基础与应用、大数据存储与清洗、数据格式与编码技术、数据抽取与采集、pandas数据分析与清洗以及综合实训。

本书特色如下:

（1）采用“理实一体化”教学方式，课堂上既有老师的讲述又有学生独立思考、上机操作的内容。

（2）紧跟时代潮流，注重技术变化，书中包含了最新的大数据分析知识及一些开源库的使用。建议读者在阅读本书时使用Python 3.7以上版本，并提前安装好所需要的扩展库（如requests、Scrapy、numpy、pandas、matplotlib等）。此外，读者在阅读本书时还需安装MySQL以及Kettle等相关软件。

（3）编写本书的教师都具有多年的教学经验，书中内容重难点突出，能够激发学生的学习热情。

（4）配套资源丰富，包含教学大纲、教学课件、电子教案、习题答案、程序源码、在线作业、微课视频等多种教学资源。

资源下载提示

件等资源：扫描封底的“课件下载”二维码，在公众号“书圈”下载。

素材（源码）等资源：扫描目录上方的二维码下载。

在线作业：扫描封底的作业系统二维码，登录网站在线做题及查看答案。

视频等资源：扫描封底的文泉云盘防盗码，再扫描书中相应章节中的二维码，可以在线学习。

本书可作为高等院校大数据专业、人工智能专业、软件技术专业、云计算专业、计算机网络专业的专业课教材，也可作为大数据爱好者的参考书。

本书建议学时为80学时，具体分布如下表所示:

章节建议学时

大数据4

爬虫与大数据12

Scrapy爬虫8

数据库连接与查询6

数据可视化基础与应用10

大数据存储与清洗6

数据格式与编码技术6

数据抽取与采集12

pandas数据分析与清洗12

综合实训4

本书由黄源、蒋文豪、龙颖编著。其中，黄源编写了第1章、第3章、第4章、第6~10章；蒋文豪编写了第2章；龙颖编写了第5章。全书由黄源负责统稿工作。

在本书的编写过程中，编者得到了中国电信金融行业信息化应用重庆基地总经理助理杨琛的大力支持，同时清华大学出版社的魏江江分社长和王冰飞编辑为本书的出版做了大量的工作，在此一并表示感谢。

由于编者水平有限，书中难免出现疏漏之处，衷心希望广大读者批评指正。

编者

2022年7月于重庆

商品详情
内容简介

查看全部评论>

服务体验

[正版]大数据分析:Python爬虫、数据清洗和数据可视化(第2版·微课视频版)黄源

加入了数据清洗的内容，具有前瞻性

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

友一个文化制品专营店

售后保障

最近浏览

猜你喜欢

服务体验

[正版]大数据分析:Python爬虫、数据清洗和数据可视化(第2版·微课视频版)黄源

加入了数据清洗的内容，具有前瞻性

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

计算机/网络排行榜

友一个文化制品专营店

售后保障

最近浏览

猜你喜欢