《Python网络爬虫权威指南第2版 (美)瑞安·米切尔(Ryan Mitchell) 著神烦小宝译程序设计》瑞安·米切尔著【摘要书评在线阅读】-苏宁易购图书

云钻刮券活动规则

活动时间

活动自2017年6月2日上线，敬请关注云钻刮券活动规则更新。

活动形式

会员打开苏宁易购wap端、PC端、苏宁易购APP端方可参与活动。
活动方式为云钻刮券，每次刮券需要扣除200云钻。奖励分为无敌券和店铺云券两种，100%刮出无敌券，最低2元。店铺券由店铺提供，用户可以根据购物需求，在无敌券和店铺云券之间二选一。如因为网络、用户关闭等原因，造成页面关闭，导致用户没有或无法选择，系统将在5分钟内自动按照获得的无敌券面额发放到用户账户。
每人每天参与刮券次数上限为1次。活动每日限量，如用户参与时已达到活动最高上限，则不能再继续参与，次日可以继续参与。
如会员在刮券时选择了店铺云券，券发至账户后则无法再更改为平台的无敌券；如会员在刮券时选择了平台的无敌券，券发至账户后则无法再更改为店铺云券。
云钻刮券获得的不固定面值的券，会随机获得无敌券：2~2.2元、5元、10元、20元、50元的无敌券或不同面额的店铺云券。
券是否成功发放，可在“我的优惠券”中查询。

其他

如活动受政府机关指令需要停止举办的，或活动遭受严重网络攻击需暂停举办的，或者系统故障导致的其它意外问题，苏宁无需为此承担赔偿或者进行补偿。

券使用规则

不同面额的无敌券有不同的使用门槛，2~2.2元、5元、10元、20元、50元无敌券为无门槛使用，具体以实际发放券说明为准。配送方式仅限选择配送使用，不能抵扣运费部分。
用户刮券获得的店铺云券可与店铺内领取的店铺易券叠加使用。
店铺云券使用门槛等具体信息以商家在其店铺内的设置使用说明为准。
无敌券可用于单件商品的付款，也可用于购物车合并下单付款，同时支持在跨店铺订单中使用。店铺云券仅可使用在指定店铺中，注：部分店铺活动商品不支持用券，以订单实际提交为准。
云钻刮券获得的无敌券可以购买大聚惠、抢购、团购、手机专享价，但不可购买闪拍、预售、S码、名品特卖、海外购、秒杀、虚拟产品、法律规定限制产品如一段奶粉（包括但不仅限列出的商品）等、云钻加钱兑及云钻全额兑。
在购物时，点击购买后，页面会提示可使用易购券，只要点击选择易购券即可抵用扣除对应金额。云钻刮券获得无敌券或店铺云券使用时可用于抵扣商品金额，不能抵扣运费、运费险、增值服务等非商品金额。
云钻刮券获得的无敌券或店铺云券可与店铺页面领取的店铺易券叠加使用，付款时默认优先使用力度较大的店铺优惠券，如使用店铺易券后的订单金额仍然满足云钻刮券所获得店铺云券使用条件，可继续叠加使用店铺云券。（举例：店铺在页面设置满199减50元的店铺易券，同时用户在店铺刮券获得一张满20元减20元的店铺云券，如商品订单金额为200元，会员在用已使用领取的50元店铺易券情况下，仍然可以使用云钻刮券获得20元店铺云券）
云钻刮券获得的无敌券或店铺云券不得提现，不得转赠他人，不得为他人付，不得拆分使用。
一个订单最多使用6张易购券。
云钻刮券获得的有效期为：自获得之日起7天内有效（部分活动券可能存在不同有效期，具体详见“我的优惠券”内易购券有效期说明）。
在获取和使用券过程中，如果出现违规行为（如作弊领取、恶意套现、刷取信誉、虚假交易等），苏宁将取消用户的中奖资格，并有权撤销违规交易、收回易购券（含已使用的易购券及未使用的易购券）,必要时追究法律责任。
使用易购券的订单若交易未成功或发生退款及售后，在交易所使用的易购券有效期内订单取消完成的，易购券将退回用户账户，退回后的易购券有效期不变。如在使用的易购券有效期之外发生退款，所使用的券退回当天有效，过期不予退还。如发生售后退款，易购券退回当天有效，过期不予退还。

句字图书专营店

商品参数

作者：瑞安·米切尔著| 神烦小宝译
出版社：人民邮电出版社
出版时间：1
开本：16开
ISBN：9783406183417
版权提供：人民邮电出版社

Python网络爬虫权威指南第2版

作者:(美)瑞安·米切尔(Ryan Mitchell) 著神烦小宝译

定价:79

出版社:人民邮电出版社

出版日期:2019年04月01日

页数:241

装帧:平装

ISBN:9787115509260

作为一种采集和理解网络上海量信息的方式，网页抓取技术变得越来越重要。而编写简单的自动化程序（网络爬虫），一次就可以自动抓取上百万个网页中的信息，实现高效的数据采集和处理，满足大量数据需求应用场景。本书采用简洁强大的Python语言，全面介绍网页抓取技术，解答诸多常见问题，是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识，重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题，以及各种......

●前言xi
第一部分创建爬虫
第1章初见网络爬虫3
1.1网络连接3
1.2BeautifulSoup简介5
1.2.1安装BeautifulSoup6
1.2.2运行BeautifulSoup8
1.2.3可靠的网络连接以及异常的处理9
第2章复杂HTML解析13
2.1不是一直都要用锤子13
2.2再端一碗BeautifulSoup14
2.2.1BeautifulSoup的find()和find_all()16
2.2.2其他BeautifulSoup对象18
2.2.3导航树18
2.3正则表达式22
2.4正则表达式和BeautifulSoup25
2.5获取属性26
2.6Lambda表达式26
第3章编写网络爬虫28
3.1遍历单个域名28
3.2抓取整个网站32
3.3在互联网上抓取36
第4章网络爬虫模型41
4.1规划和定义对象41
4.2处理不同的网站布局45
4.3结构化爬虫49
4.3.1通过搜索抓取网站49
4.3.2通过链接抓取网站52
4.3.3抓取多种类型的页面54
4.4关于网络爬虫模型的思考55
第5章Scrapy57
5.1安装Scrapy57
5.2创建一个简易爬虫59
5.3带规则的抓取60
5.4创建item64
5.5输出item66
5.6item管线组件66
5.7Scrapy日志管理69
5.8更多资源70
第6章存储数据71
6.1媒体文件71
6.2把数据存储到CSV74
6.3MySQL75
6.3.1安装MySQL76
6.3.2基本命令78
6.3.3与Python整合81
6.3.4数据库技术与很好实践84
6.3.5MySQL里的“六度空间游戏”86
6.4Email88
第二部分高级网页抓取
第7章读取文档93
7.1文档编码93
7.2纯文本94
7.3CSV98
7.4PDF100
7.5微软Word和.docx102
第8章数据清洗106
8.1编写代码清洗数据106
8.2数据存储后再清洗111
第9章自然语言处理115
9.1概括数据116
9.2马尔可夫模型119
9.3自然语言工具包124
9.3.1安装与设置125
9.3.2用NLTK做统计分析126
9.3.3用NLTK做词性分析128
9.4其他资源131
第10章穿越网页表单与登录窗口进行抓取132
10.1PythonRequests库132
10.2提交一个基本表单133
10.3单选按钮、复选框和其他输入134
10.4提交文件和图像136
10.5处理登录和cookie136
10.6其他表单问题139
第11章抓取JavaScript140
11.1JavaScript简介140
11.2Ajax和动态HTML143
11.2.1在Python中用Selenium执行JavaScript144
11.2.2Selenium的其他webdriver149
11.3处理重定向150
11.4关于JavaScript的最后提醒151
第12章利用API抓取数据152
12.1API概述152
12.1.1HTTP方法和API154
12.1.2更多关于API响应的介绍155
12.2解析JSON数据156
12.3无文档的API157
12.3.1查找无文档的API159
12.3.2记录未被记录的API160
12.3.3自动查找和记录API160
12.4API与其他数据源结合163
12.5再说一点API165
第13章图像识别与文字处理167
13.1OCR库概述168
13.1.1Pillow168
13.1.2Tesseract168
13.1.3NumPy170
13.2处理格式规范的文字171
13.2.1自动调整图像173
13.2.2从网站图片中抓取文字176
13.3读取验证码与训练Tesseract178
13.4获取验证码并提交答案183
第14章避开抓取陷阱186
14.1道德规范186
14.2让网络机器人看着像人类用户187
14.2.1修改请求头187
14.2.2用JavaScript处理cookie189
14.2.3时间就是一切191
14.3常见表单安全措施191
14.3.1隐含输入字段值192
14.3.2避免蜜罐192
14.4问题检查表194
第15章用爬虫测试网站196
15.1测试简介196
15.2Python单元测试197
15.3Selenium单元测试201
15.4单元测试与Selenium单元测试的选择205
第16章并行网页抓取206
16.1进程与线程206
16.2多线程抓取207
16.2.1竞争条件与队列209
16.2.2threading模块212
16.3多进程抓取214
16.3.1多进程抓取216
16.3.2进程间通信217
16.4多进程抓取的另一种方法219
第17章远程抓取221
17.1为什么要用远程服务器221
17.1.1避免IP地址被封杀221
17.1.2移植性与扩展性222
17.2Tor代理服务器223
17.3远程主机224
17.3.1从网站主机运行225
17.3.2从云主机运行225
17.4其他资源227
第18章网页抓取的法律与道德约束228
18.1商标、版权、专利228
18.2侵害动产230
18.3计算机欺诈与滥用法232
18.4robots.txt和服务协议233
18.53个网络爬虫236
18.5.1eBay起诉Bidder’sEdge侵害其动产236
18.5.2美国政府起诉Auernheimer与《计算机欺诈与滥用法》237
18.5.3Field起诉Google：版权和robots.txt239
18.6勇往直前239
关于作者241
关于封面241

内容简介

本书采用简洁强大的Python 语言，介绍了网页抓取，并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理：如何用Python 从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。

(美)瑞安·米切尔(Ryan Mitchell) 著神烦小宝译

瑞安·米切尔（Ryan Mitchell）数据科学家、软件工程师，有丰富的网络爬虫和数据分析实战经验，目前就职于美国格理集团，经常为网页数据采集项目提供咨询服务，并在美国东北大学和美国欧林工程学院任教。

商品详情
内容简介

查看全部评论>

服务体验

Python网络爬虫权威指南第2版 (美)瑞安·米切尔(Ryan Mitchell) 著神烦小宝译程序设计(新)

新商品上架

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

句字图书专营店

售后保障

最近浏览

猜你喜欢

服务体验

Python网络爬虫权威指南 第2版 (美)瑞安·米切尔(Ryan Mitchell) 著 神烦小宝 译 程序设计(新)

新商品上架

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

计算机/网络排行榜

句字图书专营店

售后保障

最近浏览

猜你喜欢

Python网络爬虫权威指南第2版 (美)瑞安·米切尔(Ryan Mitchell) 著神烦小宝译程序设计(新)