返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • Python网络爬虫权威指南 第2版 (美)瑞安·米切尔(Ryan Mitchell) 著 神烦小宝 译 程序设计(新)
  • 新商品上架
    • 作者: 瑞安·米切尔著 | | 神烦小宝译
    • 出版社: 人民邮电出版社
    • 出版时间:1
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    句字图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: 瑞安·米切尔著| 神烦小宝译
    • 出版社:人民邮电出版社
    • 出版时间:1
    • 开本:16开
    • ISBN:9783406183417
    • 版权提供:人民邮电出版社

    Python网络爬虫权威指南 第2版

    作  者:(美)瑞安·米切尔(Ryan Mitchell) 著 神烦小宝 译
    定  价:79
    出 版 社:人民邮电出版社
    出版日期:2019年04月01日
    页  数:241
    装  帧:平装
    ISBN:9787115509260

    作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要。而编写简单的自动化程序(网络爬虫),一次就可以自动抓取上百万个网页中的信息,实现高效的数据采集和处理,满足大量数据需求应用场景。本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题,以及各种......

    前言xi
    第一部分创建爬虫
    第1章初见网络爬虫3
    1.1网络连接3
    1.2BeautifulSoup简介5
    1.2.1安装BeautifulSoup6
    1.2.2运行BeautifulSoup8
    1.2.3可靠的网络连接以及异常的处理9
    第2章复杂HTML解析13
    2.1不是一直都要用锤子13
    2.2再端一碗BeautifulSoup14
    2.2.1BeautifulSoup的find()和find_all()16
    2.2.2其他BeautifulSoup对象18
    2.2.3导航树18
    2.3正则表达式22
    2.4正则表达式和BeautifulSoup25
    2.5获取属性26
    2.6Lambda表达式26
    第3章编写网络爬虫28
    3.1遍历单个域名28
    3.2抓取整个网站32
    3.3在互联网上抓取36
    第4章网络爬虫模型41
    4.1规划和定义对象41
    4.2处理不同的网站布局45
    4.3结构化爬虫49
    4.3.1通过搜索抓取网站49
    4.3.2通过链接抓取网站52
    4.3.3抓取多种类型的页面54
    4.4关于网络爬虫模型的思考55
    第5章Scrapy57
    5.1安装Scrapy57
    5.2创建一个简易爬虫59
    5.3带规则的抓取60
    5.4创建item64
    5.5输出item66
    5.6item管线组件66
    5.7Scrapy日志管理69
    5.8更多资源70
    第6章存储数据71
    6.1媒体文件71
    6.2把数据存储到CSV74
    6.3MySQL75
    6.3.1安装MySQL76
    6.3.2基本命令78
    6.3.3与Python整合81
    6.3.4数据库技术与很好实践84
    6.3.5MySQL里的“六度空间游戏”86
    6.4Email88
    第二部分高级网页抓取
    第7章读取文档93
    7.1文档编码93
    7.2纯文本94
    7.3CSV98
    7.4PDF100
    7.5微软Word和.docx102
    第8章数据清洗106
    8.1编写代码清洗数据106
    8.2数据存储后再清洗111
    第9章自然语言处理115
    9.1概括数据116
    9.2马尔可夫模型119
    9.3自然语言工具包124
    9.3.1安装与设置125
    9.3.2用NLTK做统计分析126
    9.3.3用NLTK做词性分析128
    9.4其他资源131
    第10章穿越网页表单与登录窗口进行抓取132
    10.1PythonRequests库132
    10.2提交一个基本表单133
    10.3单选按钮、复选框和其他输入134
    10.4提交文件和图像136
    10.5处理登录和cookie136
    10.6其他表单问题139
    第11章抓取JavaScript140
    11.1JavaScript简介140
    11.2Ajax和动态HTML143
    11.2.1在Python中用Selenium执行JavaScript144
    11.2.2Selenium的其他webdriver149
    11.3处理重定向150
    11.4关于JavaScript的最后提醒151
    第12章利用API抓取数据152
    12.1API概述152
    12.1.1HTTP方法和API154
    12.1.2更多关于API响应的介绍155
    12.2解析JSON数据156
    12.3无文档的API157
    12.3.1查找无文档的API159
    12.3.2记录未被记录的API160
    12.3.3自动查找和记录API160
    12.4API与其他数据源结合163
    12.5再说一点API165
    第13章图像识别与文字处理167
    13.1OCR库概述168
    13.1.1Pillow168
    13.1.2Tesseract168
    13.1.3NumPy170
    13.2处理格式规范的文字171
    13.2.1自动调整图像173
    13.2.2从网站图片中抓取文字176
    13.3读取验证码与训练Tesseract178
    13.4获取验证码并提交答案183
    第14章避开抓取陷阱186
    14.1道德规范186
    14.2让网络机器人看着像人类用户187
    14.2.1修改请求头187
    14.2.2用JavaScript处理cookie189
    14.2.3时间就是一切191
    14.3常见表单安全措施191
    14.3.1隐含输入字段值192
    14.3.2避免蜜罐192
    14.4问题检查表194
    第15章用爬虫测试网站196
    15.1测试简介196
    15.2Python单元测试197
    15.3Selenium单元测试201
    15.4单元测试与Selenium单元测试的选择205
    第16章并行网页抓取206
    16.1进程与线程206
    16.2多线程抓取207
    16.2.1竞争条件与队列209
    16.2.2threading模块212
    16.3多进程抓取214
    16.3.1多进程抓取216
    16.3.2进程间通信217
    16.4多进程抓取的另一种方法219
    第17章远程抓取221
    17.1为什么要用远程服务器221
    17.1.1避免IP地址被封杀221
    17.1.2移植性与扩展性222
    17.2Tor代理服务器223
    17.3远程主机224
    17.3.1从网站主机运行225
    17.3.2从云主机运行225
    17.4其他资源227
    第18章网页抓取的法律与道德约束228
    18.1商标、版权、专利228
    18.2侵害动产230
    18.3计算机欺诈与滥用法232
    18.4robots.txt和服务协议233
    18.53个网络爬虫236
    18.5.1eBay起诉Bidder’sEdge侵害其动产236
    18.5.2美国政府起诉Auernheimer与《计算机欺诈与滥用法》237
    18.5.3Field起诉Google:版权和robots.txt239
    18.6勇往直前239
    关于作者241
    关于封面241

    内容简介

    本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

    (美)瑞安·米切尔(Ryan Mitchell) 著 神烦小宝 译

    瑞安·米切尔(Ryan Mitchell) 数据科学家、软件工程师,有丰富的网络爬虫和数据分析实战经验,目前就职于美国格理集团,经常为网页数据采集项目提供咨询服务,并在美国东北大学和美国欧林工程学院任教。

    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购