《PYTHON3爬虫实战:数据清洗.数据分析与可视化》姚良著【摘要书评在线阅读】-苏宁易购图书

文轩网图书旗舰店

https://product.suning.com/0070067633/11555288247.html

商品参数

作者：姚良著
出版社：中国铁道出版社
出版时间：2018-02-01 00:00:00
版次：1
印次：1
印刷时间：2019-10-01
字数：451000
页数：268
开本：16开
装帧：平装
ISBN：9787113260590
国别/地区：中国
版权提供：中国铁道出版社

PYTHON3爬虫实战:数据清洗.数据分析与可视化

作者:姚良著

定价:59.8

出版社:中国铁道出版社有限公司

出版日期:2018年02月01日

页数:268

装帧:平装

ISBN:9787113260590

无

作为一个自学爬虫的过来人，曾经走过很多弯路，在自学的道路上也迷茫过。每次面对一个全新的网站，都像是踏进一个未知的世界。你不知道前面有哪些反爬手段在等着你；你不知道你会踩进哪个坑里。我做爬虫的几年时间里，爬过很多的网站、遇到过很多的难题。这本书就是我这几年经验的总结，从开始的工具的学习使用，到实战项目的爬取，难度一步一步的升级，需求也越来越复杂，有各式各样的爬取方式。本书主要内容与数据爬取相关，包括编写爬虫所需要的基础编程知识，如Requests包、Scrapy框架和数据库的使用，到项目实战教程，适合Python基础入门的读者。如果你是其他行业的从业者，想进入IT行业成为一位爬虫工程师，又或者你已经是IT行业的从业者，本书在能够让你在对爬虫工程师的工作内容有所了解的同时，也能让你掌握作为一个爬虫工程师所需要具备的基础技能。

姚良 2016-2019 深圳丝路天地电子商务有限公司爬虫工程师。熟练使用Python语法，面向对象编程，JS破解、分布式爬虫、Scrapy框架、Requests库、Redis、Mongodb、高并发、异步编程。

无

第一篇基础知识第1章Python环境搭建1.1Python的安装21.1.1Windows下Python的安装21.1.2MacOSX下Python的安装31.1.3Linux下Python的安装31.1.4安装pip工具41.2虚拟环境Virtualenv51.2.1Virtualenv的安装51.2.2创建虚拟环境51.2.3激活虚拟环境51.2.4创建指定Python版本的虚拟环境51.3选择合适的编辑器61.3.1Vim61.3.2Atom61.3.3SublimeText61.3.4Notepad++61.3.5Pycharm6第2章常用爬虫库Requests2.1安装Requests72.1.1用pip安装72.1.2用github源码安装72.1.3用curl安装72.2了解Requests的功能82.2.1使用GET和POST发送请求82.2.2通过URL传递参数92.2.3设置超时92.2.4查看返回内容92.2.5设置请求头102.2.6更多复杂的Post请求102.2.7返回对象状态码122.2.8设置代理IP132.3BeautifulSoup的安装和使用142.3.1使用pip安装BeautifulSoup142.3.2使用BeautifulSoup定位元素142.4初识自动化测试工具Selenium152.4.1Selenium安装152.4.2使用Selnium爬取网站152.5Selenium定位元素162.5.1通过属性定位172.5.2通过xpath定位172.6Selenium反爬设置182.6.1设置请求头182.6.2设置代理IP19第3章常用爬虫框架Scrapy3.1认识Scrapy213.1.1Scrapy爬取quotes简单示例213.1.2安装所需依赖包233.1.3使用虚拟环境233.2Scrapyshell的使用243.2.1运行shell243.2.2使用Scrapyshell爬取Scrapy.org243.2.3爬虫调用shell263.3使用Scrapy爬取quotes263.3.1创建Scrapy项目并新建爬虫273.3.2爬取和提取数据273.3.3通过脚本运行Scrapy爬虫293.3.4在同一进程下运行多个爬虫293.3.5简易的分布式爬虫思路303.3.6防止爬虫被ban313.4setting基本配置313.5Pipeline模块323.5.1爬取文字板块323.5.2编写Pipeline模块353.5.3通过Pipeline将数据写入MongoDB数据库363.5.4ImagesPipeline处理图片373.5.5FilePipeline下载文件403.6Middleware中间件413.6.1DownloaderMiddleware413.6.2随机请求头中间件423.6.3更换代理IP中间件453.6.4通过DownloaderMiddleware使用Selenium463.6.5SpiderMiddleware473.7新功能拓展483.7.1信号signals483.7.2自定义拓展51第4章数据存储——数据库的选择4.1MySQL数据库534.1.1MySQL的安装534.1.2几款可视化工具544.1.3数据库连接554.1.4数据库插入操作554.1.5数据库查询564.1.6数据库更新操作564.1.7爬取写入数据库574.2MongoDB数据库584.2.1MongoDB安装584.2.2连接数据库594.2.3查询数据库594.2.4插入和更新数据库594.2.5爬取数据并插入到MongoDB数据库中604.3Redis数据库604.3.1Redis安装604.3.2连接Redis数据库614.3.3Python操作Redis数据库614.3.4爬取并写入Redis做缓存62第5章效率为王——分布式爬虫5.1什么是分布式爬虫645.1.1分布式爬虫的效率645.1.2实现分布式的方法645.2Celery655.2.1Celery入门655.2.2Celery分布式爬虫665.3使用Scrapy-redis的分布式爬虫675.3.1Scrapy-redis安装与入门675.3.2创建Scrapy-redis爬虫项目68第6章抓包的使用与分析6.1利用抓包分析目标网站726.1.1如何抓包726.1.2网页抓包分析726.2手机APP抓包746.2.1使用fiddler抓包756.2.2HTTPS证书安装756.2.3booking手机端抓包76第7章Websocket通信网站爬取7.1什么是Websocket797.1.1Websocket-clinet797.1.2Websocket-clinet简单入门797.2使用Websocket爬取财经网站81第8章验证码破解8.1关于验证码848.1.1一般的验证码848.1.2极验验证848.2极验滑动验证破解858.2.1准备工具858.2.2分析滑动验证码858.2.3开始破解极限滑动验证码878.3图片验证码破解898.3.1准备工具898.3.2文字图像识别898.3.3识别验证码90第9章多线程与多进程并发爬取9.1多线程929.1.1堵塞与非堵塞929.1.2继承threading.Thread创建类969.1.3多线程的锁989.1.4queue队列1009.1.5线程池1019.2多线程爬虫1039.2.1爬虫框架1039.2.2编写爬虫1049.2.3以多线程方式启动1059.3多进程1079.3.1multiprocessing模块1079.3.2通过Pool进程池创建进程1089.3.3multiprocessing.Queue队列1099.3.4multiprocessing.Pipe管道1129.3.5multiprocessing.Lock锁1139.4多进程爬虫1149.4.1多进程爬取音频1149.4.2多进程加多线程进行爬取116第10章爬虫接口优化10.1Gunicorn的安装与使用11910.2Gunicorn配置12110.2.1配置参数12110.2.2通过config文件启动123第11章使用Docker部署爬虫11.1Docker12511.1.1Docker的安装12511.1.2Docker的镜像12511.1.3构建自己的Docker镜像12711.1.4容器使用12711.1.5Dockerfile12911.2爬虫部署13011.2.1爬虫接口13011.2.2部署爬虫接口131第二篇实战案例第12章实战1：建立代理IP池12.1爬取免费代理IP13612.1.1爬取代理IP13612.1.2检验代理IP13812.2建立代理IP池13812.2.1检验代理IP13812.2.2Redis消息队列14012.2.3master爬虫142第13章实战2：磁力链接搜索器13.1爬取磁力搜索平台14513.1.1磁力平台14513.1.2slave爬虫14613.2实现磁力搜索器14813.2.1展示与交互14813.2.2数据查询150第14章实战3：爬虫管家14.1QQ机器人15214.1.1qqbot15214.1.2基本操作15214.1.3实现自己的机器人15314.2爬虫监控机器人153第15章实战4：数据可视化15.1可视化包Pyecharts15615.1.1Pyecharts的安装15615.1.2地图展示数据15715.2爬取大力度优惠价机票数据15815.2.1破解旅游网站价格日历接口15915.2.2爬取旅游网站16015.2.3将数据可视化161第16章实战5：爬取贴吧中的邮箱16.1爬取网站16416.1.1爬取高校名单16416.1.2利用正则表达式匹配号码16516.2分析贴吧搜索页面并提取号码16516.3使用Scrapy开始编码16716.3.1创建贴吧Scrapy项目16716.3.2新建爬虫并编写爬虫逻辑16816.3.3数据处理170第17章实战6：批量爬取企业信息17.1从第三方平台获取企业名17217.2如何爬取企业详细信息174第18章实战7：爬取公众号历史文章18.1分析公众号接口17718.1.1开始抓包17718.1.2分析接口17918.1.3尝试请求数据17918.2爬取公众号18018.2.1爬取思路18018.2.2请求接口获取文章URL18018.2.3解析文章网页源码18118.2.4合并代码183第19章实战8：高效爬取——异步爬虫19.1异步编程18619.1.1asyncio库18619.1.2aiohttp库18719.1.3访问多个URL18819.2爬取图片18919.2.1为函数命名18919.2.2对网页进行解析19019.2.3异步爬取图片190第20章实战9：爬取漫画网站20.1爬取单部漫画19320.1.1单集漫画的爬取19320.1.2全集漫画的爬取19520.2爬取漫画全站196第21章实战10：给kindle推送爬取的小说21.1用Python发送邮件19921.1.1纯文本邮件的发送19921.1.2带附件邮件的发送20021.2爬取小说20121.2.1制作word文档20121.2.2爬取baka-tsuki.org202第22章实战11：爬取游民星空壁纸22.1星空壁纸的爬取准备20522.2爬取壁纸20622.2.1获取图片和下一页地址20622.2.2爬取列表页20822.2.3爬取高清图片资源209第23章综合实战：建立一个小网站23.1Flask框架21023.1.1写一个简单的helloword网页21023.1.2添加html模板21023.2Bootstrap框架21223.2.1使用Bootstrap框架21323.2.2Bootstrap在线模板21323.2.3添加壁纸板块215第24章综合实战：爬取电影网站24.1理清爬虫的思路21824.2分步编码实现爬取21924.2.1爬取详情页21924.2.2爬取列表页22024.2.3爬取首页22124.2.4写入数据库222第25章综合实战：建立电影小站25.1搭建项目22425.1.1sqlite数据库22425.1.2创建项目22525.1.3通过蓝图建立电影板块22625.2建立模板22925.2.1flask-bootstrap22925.2.2电影页面23125.2.3电影分类23325.2.4电影详情页23725.2.5电影搜索页239第26章综合实战：磁力搜索26.1磁力搜索24126.1.1如何高效爬取24126.1.2建立Celery任务24426.2Web部分24826.2.1建立模型24826.2.2视图函数24826.2.3关于产品251

查看全部评论>

服务体验

PYTHON3爬虫实战:数据清洗.数据分析与可视化姚良著专业科技文轩网

新华书店正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

文轩网图书旗舰店

售后保障

最近浏览

猜你喜欢

服务体验

PYTHON3爬虫实战:数据清洗.数据分析与可视化 姚良 著 专业科技 文轩网

新华书店正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

计算机/网络排行榜

文轩网图书旗舰店

售后保障

最近浏览

猜你喜欢

PYTHON3爬虫实战:数据清洗.数据分析与可视化姚良著专业科技文轩网