《Python3网络爬虫实战》胡松涛著【摘要书评在线阅读】-苏宁易购图书

云钻刮券活动规则

活动时间

活动自2017年6月2日上线，敬请关注云钻刮券活动规则更新。

活动形式

会员打开苏宁易购wap端、PC端、苏宁易购APP端方可参与活动。
活动方式为云钻刮券，每次刮券需要扣除200云钻。奖励分为无敌券和店铺云券两种，100%刮出无敌券，最低2元。店铺券由店铺提供，用户可以根据购物需求，在无敌券和店铺云券之间二选一。如因为网络、用户关闭等原因，造成页面关闭，导致用户没有或无法选择，系统将在5分钟内自动按照获得的无敌券面额发放到用户账户。
每人每天参与刮券次数上限为1次。活动每日限量，如用户参与时已达到活动最高上限，则不能再继续参与，次日可以继续参与。
如会员在刮券时选择了店铺云券，券发至账户后则无法再更改为平台的无敌券；如会员在刮券时选择了平台的无敌券，券发至账户后则无法再更改为店铺云券。
云钻刮券获得的不固定面值的券，会随机获得无敌券：2~2.2元、5元、10元、20元、50元的无敌券或不同面额的店铺云券。
券是否成功发放，可在“我的优惠券”中查询。

其他

如活动受政府机关指令需要停止举办的，或活动遭受严重网络攻击需暂停举办的，或者系统故障导致的其它意外问题，苏宁无需为此承担赔偿或者进行补偿。

券使用规则

不同面额的无敌券有不同的使用门槛，2~2.2元、5元、10元、20元、50元无敌券为无门槛使用，具体以实际发放券说明为准。配送方式仅限选择配送使用，不能抵扣运费部分。
用户刮券获得的店铺云券可与店铺内领取的店铺易券叠加使用。
店铺云券使用门槛等具体信息以商家在其店铺内的设置使用说明为准。
无敌券可用于单件商品的付款，也可用于购物车合并下单付款，同时支持在跨店铺订单中使用。店铺云券仅可使用在指定店铺中，注：部分店铺活动商品不支持用券，以订单实际提交为准。
云钻刮券获得的无敌券可以购买大聚惠、抢购、团购、手机专享价，但不可购买闪拍、预售、S码、名品特卖、海外购、秒杀、虚拟产品、法律规定限制产品如一段奶粉（包括但不仅限列出的商品）等、云钻加钱兑及云钻全额兑。
在购物时，点击购买后，页面会提示可使用易购券，只要点击选择易购券即可抵用扣除对应金额。云钻刮券获得无敌券或店铺云券使用时可用于抵扣商品金额，不能抵扣运费、运费险、增值服务等非商品金额。
云钻刮券获得的无敌券或店铺云券可与店铺页面领取的店铺易券叠加使用，付款时默认优先使用力度较大的店铺优惠券，如使用店铺易券后的订单金额仍然满足云钻刮券所获得店铺云券使用条件，可继续叠加使用店铺云券。（举例：店铺在页面设置满199减50元的店铺易券，同时用户在店铺刮券获得一张满20元减20元的店铺云券，如商品订单金额为200元，会员在用已使用领取的50元店铺易券情况下，仍然可以使用云钻刮券获得20元店铺云券）
云钻刮券获得的无敌券或店铺云券不得提现，不得转赠他人，不得为他人付，不得拆分使用。
一个订单最多使用6张易购券。
云钻刮券获得的有效期为：自获得之日起7天内有效（部分活动券可能存在不同有效期，具体详见“我的优惠券”内易购券有效期说明）。
在获取和使用券过程中，如果出现违规行为（如作弊领取、恶意套现、刷取信誉、虚假交易等），苏宁将取消用户的中奖资格，并有权撤销违规交易、收回易购券（含已使用的易购券及未使用的易购券）,必要时追究法律责任。
使用易购券的订单若交易未成功或发生退款及售后，在交易所使用的易购券有效期内订单取消完成的，易购券将退回用户账户，退回后的易购券有效期不变。如在使用的易购券有效期之外发生退款，所使用的券退回当天有效，过期不予退还。如发生售后退款，易购券退回当天有效，过期不予退还。

醉染图书旗舰店

商品参数

作者：胡松涛著| 胡松涛编| 胡松涛译| 胡松涛绘
出版社：清华大学出版社
出版时间：2020-08-01
版次：1
印次：1
字数：640000
页数：400
开本：16开
ISBN：9787302557340
版权提供：清华大学出版社

作者：胡松涛
著：胡松涛
装帧：平装
印次：1
定价：79.00
ISBN：9787302557340

出版社：清华大学出版社
开本：16开
印刷时间：暂无
语种：暂无

出版时间：2020-08-01
页数：400
外部编号：1202107947
版次：1
成品尺寸：暂无

章Python环境配置1

1.1Python简介1

1.1.1Python的历史由来1

1.1.2Python的现状2

1.1.3Python的应用2

1.2Python3.8.0开发环境配置4

1.2.1在Windows下安装Python4

1.2.2在Windows下安装配置pip8

1..在Linux下安装Python9

1.2.4在Linux下安装配置pip11

1.2.5永远的helloworld15

1.3本章小结19

第2章爬虫基础快速入门20

2.1HTTP基本原理20

2.1.1URI和URL20

2.1.2超文本21

2.1.3HTTP和HTTPS21

2.1.4HTTP请求过程22

2.1.5请求24

2.1.6响应26

2.2网页基础27

2.2.1网页的组成27

2.2.2网页的结构28

2..节点树及节点间的关系30

2.2.4选择器36

.爬虫的基本原理37

..1爬虫概述37

..2能抓取什么样的数据37

..JavaScript渲染页面38

2.4会话和Cookies39

2.4.1静态网页和动态网页40

2.4.2无状态HTTP41

2.4.3常见误区42

2.5代理的基本原理42

2.5.1基本原理42

2.5.2代理的作用43

2.5.3代理分类43

2.5.4常见代理设置44

2.6本章小结44

第3章数据存储与解析45

3.1文件存储45

3.1.1TXT文件存储45

3.1.2JSON文件存储49

3.1.3CSV文件存储52

3.2关系型数据库存储57

3.2.1连接数据库59

3.2.2创建表59

3..插入数据60

3.2.4浏览数据61

3.2.5修改数据62

3.2.6删除数据63

3.3非关系型数据库存储64

3.3.1安装数据库64

3.3.2MongoDB概念解析68

3.3.3创建数据库68

3.3.4创建集合69

3.3.5插入文档69

3.3.6查询集合数据71

3.3.7修改记录73

3.3.8数据排序74

3.3.9删除文档75

3.4lxml模块解析数据76

3.4.1安装模块76

3.4.2XPath常用规则76

3.4.3读取文件进行解析79

3.5本章小结81

第4章Python爬虫常用模块82

4.1Python网络爬虫技术核心82

4.1.1Python网络爬虫实现原理82

4.1.2爬行策略83

4.1.3身份识别83

4.2Python3标准库之urllib.request模块84

4.2.1urllib.request请求返回网页84

4.2.2urllib.request使用代理访问网页86

4..urllib.request修改header89

4.3Python3标准库之logging模块93

4.3.1简述logging模块93

4.3.2自定义模块myLog97

4.4re模块（正则表达式）100

4.4.1re模块（正则表达式的操作）100

4.4.2re模块实战102

4.5有用模块103

4.5.1sys模块（系统参数获取）103

4.5.2time模块（获取时间信息）105

4.6本章小结108

第5章Scrapy爬虫框架109

5.1安装Scrapy109

5.1.1在Windows下安装Scrapy环境109

5.1.2在Linux下安装Scrapy110

5.1.3vim编辑器111

5.2Scrapy选择器XPath和CSS112

5.2.1XPath选择器112

5.2.2CSS选择器115

5..选择器116

5.3Scrapy爬虫实战一：今日影视117

5.3.1创建Scrapy项目117

5.3.2Scrapy文件介绍119

5.3.3Scrapy爬虫的编写121

5.4Scrapy爬虫实战二：天气预报128

5.4.1项目准备129

5.4.2创建并编辑Scrapy爬虫130

5.4.3数据存储到JSON137

5.4.4数据存储到MySL39

5.5Scrapy爬虫实战三：获取代理145

5.5.1项目准备145

5.5.2创建编辑Scrapy爬虫146

5.5.3多个Spider152

5.5.4处理Spider数据156

5.6Scrapy爬虫实战四：糗事百科158

5.6.1目标分析158

5.6.2创建编辑Scrapy爬虫159

5.6.3Scrapy项目中间件——添加headers160

5.6.4Scrapy项目中间件——添加Prxy63

5.7Scrapy爬虫实战五：爬虫攻防166

5.7.1创建一般爬虫166

5.7.2封锁间隔时间破解169

5.7.3封锁Cookies破解170

5.7.4封锁User-Agent破解170

5.7.5封锁IP破解176

5.8本章小结179

第6章BeautifulSoup爬虫180

6.1安装BeautifulSoup环境180

6.1.1在Windows下安装BeautifulSup80

6.1.2在Linux下安装BeautifulSup81

6.1.3E——Eclipse181

6.2BeautifulSoup解析器190

6.2.1bs4解析器选择190

6.2.2lxml解析器的安装191

6..使用bs4过滤器192

6.3bs4爬虫实战一：获取百度贴吧内容197

6.3.1目标分析197

6.3.2项目实施199

6.3.3代码分析206

6.3.4Eclipse调试207

6.4bs4爬虫实战二：获取双色球中奖信息208

6.4.1目标分析209

6.4.2项目实施211

6.4.3保存结果到Excel214

6.4.4代码分析219

6.5bs4爬虫实战三：获取起点小说信息220

6.5.1目标分析220

6.5.2项目实施222

6.5.3保存结果到MySL224

6.5.4代码分析228

6.6bs4爬虫实战四：获取电影信息229

6.6.1目标分析229

6.6.2项目实施0

6.6.3bs4反爬虫

6.6.4代码分析5

6.7bs4爬虫实战五：获取音悦台榜单

6.7.1目标分析

6.7.2项目实施

6.7.3代码分析242

6.8本章小结243

第7章Pyery模块244

7.1Pyery模块244

7.1.1什么是Pyery模块244

7.1.2Pyery与工具244

7.1.3Pyery模块的安装245

7.2Pyery模块的用法247

7.2.1使用字符串初始化247

7.2.2使用文件初始化248

7..使用URL初始化249

7.3CSS筛选器的使用250

7.3.1基本CSS选择器250

7.3.2查找节点251

7.3.3遍历结果255

7.3.4获取文本信息256

7.4Pyery爬虫实战一：爬取百度风云榜258

7.5Pyery爬虫实战二：爬取微博热搜259

7.6本章小结260

第8章Selenium模拟浏览器261

8.1安装Selenium模块261

8.1.1在Windows下安装Selenium模块261

8.1.2在Linux下安装Selenium模块262

8.2浏览器选择262

8.2.1Webdriver支持列表262

8.2.2在Windows下安装PhantomJS263

8..在Linux下安装PhantomJS265

8.3Selenium&PhantomJS抓取数据266

8.3.1获取百度搜索结果267

8.3.2获取搜索结果269

8.3.3获取有效数据位置271

8.3.4从位置中获取有效数据273

8.4Selenium&PhantomJS实战一：获取代理274

8.4.1准备环境274

8.4.2爬虫代码276

8.4.3代码解释278

8.5Selenium&PhantomJS实战二：漫画爬虫279

8.5.1准备环境279

8.5.2爬虫代码281

8.5.3代码解释283

8.6本章小结284

第9章PySpider框架的使用285

9.1安装PySpider285

9.1.1安装PySpider285

9.1.2使用Pyery测试291

9.2PySpider实战一：优酷影视排行293

9.2.1创建项目293

9.2.2爬虫编写一：使用PySpider+Pyery实现爬取295

9..爬虫编写二：使用PySpider+BeautifulSoup实现爬取301

9.3PySpider实战二：电影下载304

9.3.1项目分析304

9.3.2爬虫编写306

9.3.3爬虫运行、调试312

9.3.4删除项目317

9.4PySpider实战三：音悦台MusicTop320

9.4.1项目分析320

9.4.2爬虫编写321

9.5本章小结325

0章图形验识别技术326

10.1图像识别开源库：Tesseract326

10.1.1安装Tesseract326

10.1.2设置环境变量329

10.1.3测试一：使用tesseract命令识别图片中的字符330

10.1.4测试二：使用pytesseract模块识别图片中的英文字符331

10.1.5测试三：使用pytesseract模块识别图片中的中文文字332

10.2对网络验码的识别333

10.2.1图形验实战一：读取网络验码并识别333

10.2.2图形验实战二：对验码进行转化334

10.3实战三：破解滑块验码335

10.3.1所需工具335

10.3.2解决思路335

10.3.3编写代码336

10.4本章小结341

1章爬取App342

11.1Charles的使用342

11.1.1下载安装Charles342

11.1.2界面介绍343

11.1.3Proxy菜单345

11.1.4使用Charles行C端抓包350

11.1.5使用Charles进行移动端抓包350

11.2Mitmproxy的使用351

11.2.1安装Mitmproxy351

11.2.2启动Mitmproxy352

11..编写自定义脚本354

11.2.4Mitmproxy事件355

11.2.5实战：演示Mitmproxy358

11.3实战：使用Mitmdump爬取App362

11.3.1事先准备363

11.3.2带脚本抓取364

11.3.3分析结果并保存365

11.4Appium的基本使用366

11.4.1安装Appium—直接下载安装包AppiumDesktop366

11.4.2安装Appium—通过Node.js368

11.4.3Android开发环境配置368

11.4.4iOS开发环境配置368

11.4.5使用Appium369

11.4.6操作App371

11.5本章小结374

2章爬虫与反爬虫375

12.1防止爬虫IP被禁375

12.1.1反爬虫在行动375

12.1.2爬虫的应对378

12.2在爬虫中使用Cookies382

12.2.1通过Cookies反爬虫382

12.2.2带Cookies的爬虫383

12..动态加载反爬虫386

12.2.4使用浏览器获取数据386

1.本章小结386

本书详解网络爬虫的技术基础、Python常用E的使用、Python数据的存储、Python爬虫常用模块、Scrapy爬虫、BeautifulSoup爬虫、Pyery模块、Selenium模拟浏览器、PySpider框架图片验识别爬取App、爬虫与反爬虫等内容。本书内容通俗易懂，方便读者快速掌握Python 3网络爬虫技术。

查看全部评论>

服务体验

醉染图书Python3网络爬虫实战9787302557340

正版全新

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

醉染图书旗舰店

售后保障

最近浏览

猜你喜欢

服务体验

醉染图书Python3网络爬虫实战9787302557340

正版全新

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

计算机/网络排行榜

醉染图书旗舰店

售后保障

最近浏览

猜你喜欢