返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • [正版]Python网络爬虫权威指南 第2二版 Python 3网络爬虫开发实战入门教程 数据采集编程开发入门数据爬取
  • Python3网络爬虫开发入门书籍
    • 作者: 瑞安·米切尔著 | | 神烦小宝译
    • 出版社: 人民邮电出版社
    • 出版时间:1
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    友一个文化制品专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品参数
    • 作者: 瑞安·米切尔著| 神烦小宝译
    • 出版社:人民邮电出版社
    • 出版时间:1
    • 开本:16开
    • ISBN:9780003985481
    • 版权提供:人民邮电出版社

            铺公告

      为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。

    温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货)。

      关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。

     

     


    内容介绍


    本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。

     

    第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。

    第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。


    目录

    前言   xi
    第 一部分 创建爬虫
    第 1 章 初见网络爬虫 3
    1.1 网络连接 3
    1.2 BeautifulSoup 简介 5
    1.2.1 安装BeautifulSoup 6
    1.2.2 运行BeautifulSoup 8
    1.2.3 可靠的网络连接以及异常的处理 9
    第 2 章 复杂HTML 解析 13
    2.1 不是一直都要用锤子 13
    2.2 再端一碗BeautifulSoup 14
    2.2.1 BeautifulSoup 的find() 和find_all() 16
    2.2.2 其他BeautifulSoup 对象 18
    2.2.3 导航树 18
    2.3 正则表达式 22
    2.4 正则表达式和BeautifulSoup 25
    2.5 获取属性 26
    2.6 Lambda 表达式 26
    第3 章 编写网络爬虫 28
    3.1 遍历单个域名 28
    3.2 抓取整个网站 32
    3.3 在互联网上抓取 36
    第4 章 网络爬虫模型 41
    4.1 规划和定义对象 41
    4.2 处理不同的网站布局 45
    4.3 结构化爬虫 49
    4.3.1 通过搜索抓取网站 49
    4.3.2 通过链接抓取网站 52
    4.3.3 抓取多种类型的页面 54
    4.4 关于网络爬虫模型的思考 55
    第5 章 Scrapy 57
    5.1 安装Scrapy 57
    5.2 创建一个简易爬虫 59
    5.3 带规则的抓取 60
    5.4 创建item 64
    5.5 输出item 66
    5.6 item 管线组件 66
    5.7 Scrapy 日志管理 69
    5.8 更多资源 70
    第6 章 存储数据 71
    6.1 媒体文件 71
    6.2 把数据存储到CSV 74
    6.3 MySQL 75
    6.3.1 安装MySQL 76
    6.3.2 基本命令 78
    6.3.3 与Python 整合 81
    6.3.4 数据库技术与*佳实践 84
    6.3.5 MySQL 里的“六度空间游戏” 86
    6.4 Email 88
    *二部分 *级网页抓取
    第7 章 读取文档 93
    7.1 文档编码 93
    7.2 纯文本 94
    7.3 CSV 98
    7.4 PDF 100
    7.5 微软Word 和.docx 102
    第8 章 数据清洗 106
    8.1 编写代码清洗数据 106
    8.2 数据存储后再清洗 111
    第9 章 自然语言处理 115
    9.1 概括数据 116
    9.2 马尔可夫模型 119
    9.3 自然语言工具包 124
    9.3.1 安装与设置 125
    9.3.2 用NLTK 做统计分析 126
    9.3.3 用NLTK 做词性分析 128
    9.4 其他资源 131
    第 10 章 穿越网页表单与登录窗口进行抓取 132
    10.1 Python Requests 库 132
    10.2 提交一个基本表单 133
    10.3 单选按钮、复选框和其他输入 134
    10.4 提交文件和图像 136
    10.5 处理登录和cookie 136
    10.6 其他表单问题 139
    第 11 章 抓取JavaScript 140
    11.1 JavaScript 简介 140
    11.2 Ajax 和动态HTML 143
    11.2.1 在Python 中用Selenium 执行JavaScript 144
    11.2.2 Selenium 的其他webdriver 149
    11.3 处理重定向 150
    11.4 关于JavaScript 的*后提醒 151
    第 12 章 利用API 抓取数据 152
    12.1 API 概述 152
    12.1.1 HTTP 方法和API 154
    12.1.2 更多关于API 响应的介绍 155
    12.2 解析JSON 数据 156
    12.3 无文档的API 157
    12.3.1 查找无文档的API 159
    12.3.2 记录未被记录的API 160
    12.3.3 自动查找和记录API 160
    12.4 API 与其他数据源结合 163
    12.5 再说一点API 165
    第 13 章 图像识别与文字处理 167
    13.1 OCR 库概述 168
    13.1.1 Pillow 168
    13.1.2 Tesseract 168
    13.1.3 NumPy 170
    13.2 处理格式规范的文字 171
    13.2.1 自动调整图像 173
    13.2.2 从网站图片中抓取文字 176
    13.3 读取验证码与训练Tesseract 178
    13.4 获取验证码并提交答案 183
    第 14 章 避开抓取陷阱 186
    14.1 道德规范 186
    14.2 让网络机器人看着像人类用户 187
    14.2.1 修改请求头 187
    14.2.2 用JavaScript 处理cookie 189
    14.2.3 时间就是一切 191
    14.3 常见表单安全措施 191
    14.3.1 隐含输入字段值 192
    14.3.2 避免蜜罐 192
    14.4 问题检查表 194
    第 15 章 用爬虫测试网站 196
    15.1 测试简介 196
    15.2 Python 单元测试 197
    15.3 Selenium 单元测试 201
    15.4 单元测试与Selenium 单元测试的选择 205
    第 16 章 并行网页抓取 206
    16.1 进程与线程 206
    16.2 多线程抓取 207
    16.2.1 竞争条件与队列 209
    16.2.2 threading 模块 212
    16.3 多进程抓取 214
    16.3.1 多进程抓取 216
    16.3.2 进程间通信 217
    16.4 多进程抓取的另一种方法 219
    第 17 章 远程抓取 221
    17.1 为什么要用远程服务器 221
    17.1.1 避免IP 地址被封杀 221
    17.1.2 移植性与扩展性 222
    17.2 Tor 代理服务器 223
    17.3 远程主机 224
    17.3.1 从网站主机运行 225
    17.3.2 从云主机运行 225
    17.4 其他资源 227
    第 18 章 网页抓取的法律与道德约束 228
    18.1 商标、版权、专利 228
    18.2 侵害动产 230
    18.3 计算机欺诈与滥用法 232
    18.4 robots.txt 和服务协议 233
    18.5 3 个网络爬虫 236
    18.5.1 eBay 起诉Bidder’s Edge 侵害其动产 236
    18.5.2 美国政府起诉Auernheimer 与《计算机欺诈与滥用法》 237
    18.5.3 Field 起诉Google:版权和robots.txt 239
    18.6 勇往直前 239
    关于作者 241
    关于封面 241

    作者介绍

    瑞安·米切尔(Ryan Mitchell) 数据科学家、软件工程师,有丰富的网络爬虫和数据分析实战经验,目前就职于美国格理集团,经常为网页数据采集项目提供咨询服务,并在美国东北大学和美国欧林工程学院任教。
    关联推荐

    Python 3网络爬虫开发入门书籍,全面介绍网页抓取技术,解决Web数据采集、转换和使用中的诸多常见问题和痛点
    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购