返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:

  • 正版新书]Python网络爬虫权威指南 第2版(美)瑞安·米切尔(Ryan M
  • 全店均为全新正版书籍,欢迎选购!新疆西藏青海(可包挂刷).港澳台及海外地区bu bao快递
    • 作者: (美)瑞安·米切尔(Ryan Mitchell)著 | (美)瑞安·米切尔(Ryan Mitchell)编 | (美)瑞安·米切尔(Ryan Mitchell)译 | (美)瑞安·米切尔(Ryan Mitchell)绘
    • 出版社: 人民邮电出版社
    • 出版时间:2019-04-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    君凤文轩图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: (美)瑞安·米切尔(Ryan Mitchell)著| (美)瑞安·米切尔(Ryan Mitchell)编| (美)瑞安·米切尔(Ryan Mitchell)译| (美)瑞安·米切尔(Ryan Mitchell)绘
    • 出版社:人民邮电出版社
    • 出版时间:2019-04-01
    • 版次:2
    • 印次:1
    • 印刷时间:2019-04-01
    • 字数:384000.0
    • 页数:241
    • 开本:16开
    • ISBN:9787115509260
    • 版权提供:人民邮电出版社
    • 作者:(美)瑞安·米切尔(Ryan Mitchell)
    • 著:(美)瑞安·米切尔(Ryan Mitchell)
    • 装帧:平装
    • 印次:1
    • 定价:79
    • ISBN:9787115509260
    • 出版社:人民邮电出版社
    • 开本:16开
    • 印刷时间:2019-04-01
    • 语种:中文
    • 出版时间:2019-04-01
    • 页数:241
    • 外部编号:党庄A193262
    • 版次:2
    • 成品尺寸:暂无

    前言xi
    第一部分创建爬虫
    第1章初见网络爬虫3
    1.1网络连接3
    1.2BeautifulSoup简介5
    1.2.1安装BeautifulSoup6
    1.2.2运行BeautifulSoup8
    1.2.3可靠的网络连接以及异常的处理9
    第2章复杂HTML解析13
    2.1不是一直都要用锤子13
    2.2再端一碗BeautifulSoup14
    2.2.1BeautifulSoup的find()和find_all()16
    2.2.2其他BeautifulSoup对象18
    2.2.3导航树18
    2.3正则表达式22
    2.4正则表达式和BeautifulSoup25
    2.5获取属性26
    2.6Lambda表达式26
    第3章编写网络爬虫28
    3.1遍历单个域名28
    3.2抓取整个网站32
    3.3在互联网上抓取36
    第4章网络爬虫模型41
    4.1规划和定义对象41
    4.2处理不同的网站布局45
    4.3结构化爬虫49
    4.3.1通过搜索抓取网站49
    4.3.2通过链接抓取网站52
    4.3.3抓取多种类型的页面54
    4.4关于网络爬虫模型的思考55
    第5章Scrapy57
    5.1安装Scrapy57
    5.2创建一个简易爬虫59
    5.3带规则的抓取60
    5.4创建item64
    5.5输出item66
    5.6item管线组件66
    5.7Scrapy日志管理69
    5.8更多资源70
    第6章存储数据71
    6.1媒体文件71
    6.2把数据存储到CSV74
    6.3MySQL75
    6.3.1安装MySQL76
    6.3.2基本命令78
    6.3.3与Python整合81
    6.3.4数据库技术与很好实践84
    6.3.5MySQL里的“六度空间游戏”86
    6.4Email88
    第二部分高级网页抓取
    第7章读取文档93
    7.1文档编码93
    7.2纯文本94
    7.3CSV98
    7.4PDF100
    7.5微软Word和.docx102
    第8章数据清洗106
    8.1编写代码清洗数据106
    8.2数据存储后再清洗111
    第9章自然语言处理115
    9.1概括数据116
    9.2马尔可夫模型119
    9.3自然语言工具包124
    9.3.1安装与设置125
    9.3.2用NLTK做统计分析126
    9.3.3用NLTK做词性分析128
    9.4其他资源131
    第10章穿越网页表单与登录窗口进行抓取132
    10.1PythonRequests库132
    10.2提交一个基本表单133
    10.3单选按钮、复选框和其他输入134
    10.4提交文件和图像136
    10.5处理登录和cookie136
    10.6其他表单问题139
    第11章抓取JavaScript140
    11.1JavaScript简介140
    11.2Ajax和动态HTML143
    11.2.1在Python中用Selenium执行JavaScript144
    11.2.2Selenium的其他webdriver149
    11.3处理重定向150
    11.4关于JavaScript的最后提醒151
    第12章利用API抓取数据152
    12.1API概述152
    12.1.1HTTP方法和API154
    12.1.2更多关于API响应的介绍155
    12.2解析JSON数据156
    12.3无文档的API157
    12.3.1查找无文档的API159
    12.3.2记录未被记录的API160
    12.3.3自动查找和记录API160
    12.4API与其他数据源结合163
    12.5再说一点API165
    第13章图像识别与文字处理167
    13.1OCR库概述168
    13.1.1Pillow168
    13.1.2Tesseract168
    13.1.3NumPy170
    13.2处理格式规范的文字171
    13.2.1自动调整图像173
    13.2.2从网站图片中抓取文字176
    13.3读取验证码与训练Tesseract178
    13.4获取验证码并提交答案183
    第14章避开抓取陷阱186
    14.1道德规范186
    14.2让网络机器人看着像人类用户187
    14.2.1修改请求头187
    14.2.2用JavaScript处理cookie189
    14.2.3时间就是一切191
    14.3常见表单安全措施191
    14.3.1隐含输入字段值192
    14.3.2避免蜜罐192
    14.4问题检查表194
    第15章用爬虫测试网站196
    15.1测试简介196
    15.2Python单元测试197
    15.3Selenium单元测试201
    15.4单元测试与Selenium单元测试的选择205
    第16章并行网页抓取206
    16.1进程与线程206
    16.2多线程抓取207
    16.2.1竞争条件与队列209
    16.2.2threading模块212
    16.3多进程抓取214
    16.3.1多进程抓取216
    16.3.2进程间通信217
    16.4多进程抓取的另一种方法219
    第17章远程抓取221
    17.1为什么要用远程服务器221
    17.1.1避免IP地址被封杀221
    17.1.2移植性与扩展性222
    17.2Tor代理服务器223
    17.3远程主机224
    17.3.1从网站主机运行225
    17.3.2从云主机运行225
    17.4其他资源227
    第18章网页抓取的法律与道德约束228
    18.1商标、版权、专利228
    18.2侵害动产230
    18.3计算机欺诈与滥用法232
    18.4robots.txt和服务协议233
    18.53个网络爬虫236
    18.5.1eBay起诉Bidder’sEdge侵害其动产236
    18.5.2美国政府起诉Auernheimer与《计算机欺诈与滥用法》237
    18.5.3Field起诉Google:版权和robots.txt239
    18.6勇往直前239
    关于作者241
    关于封面241

    瑞安·米切尔(Ryan Mitchell) 数据科学家、软件工程师,有丰富的网络爬虫和数据分析实战经验,目前就职于美国格理集团,经常为网页数据采集项目提供咨询服务,并在美国东北大学和美国欧林工程学院任教。

     

     

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购