返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • [正版] Python爬虫大数据采集与挖掘 微课视频版 曾剑平 大数据与人工智能技术 软件工具 程序设计
  • 正版图书!品质保证!默认发最新版本!收藏店铺可享优先发货!
    • 作者: 曾剑平著
    • 出版社: 清华大学出版社
    • 出版时间:1
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    友一个文化制品专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: 曾剑平著
    • 出版社:清华大学出版社
    • 出版时间:1
    • 开本:16开
    • ISBN:9789648721943
    • 版权提供:清华大学出版社

            铺公告

      为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。

    温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货)。

      关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。

     

     

     书名:  Python爬虫大数据采集与挖掘-微课视频版(大数据与人工智能技术丛书)
     出版社:  清华大学出版社
     出版日期  2020
     ISBN号:  9787302540540
    基础篇:HTTP协议、WEB服务器原理、网络协议、HTML规范、编码
    技术原理篇:普通爬虫、主题爬虫、微博、礼貌型爬虫、分布式爬虫、协议数据还原、ETL、大数据交易技术:平台、技术支持、难点
    工具与应用篇:从零开始、开源系统/Java、Python
    工具应用:爬虫用于抓取论坛、用于舆情监测

    复旦大学副教授,长期从事大数据教学工作

    本书围绕大数据采集,对采集技术的相关基础、技术原理、Python实现技术、大数据挖掘与应用方法进行了系统介绍。书中全面完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫相关技术和应用相关的Python程序。本书可以作为高等院校大数据、计算机、信息以及经管、金融等人文社科相关专业研究生和高年级本科生的教材,也可以作为大数据、计算机、信息以及经管、金融等人文社科领域研究人员和专业技术人员的参考书。

    第一部分概述

    第1章大数据采集概述

    1.1互联网大数据与采集

    1.1.1互联网大数据来源

    1.1.2互联网大数据的特征

    1.2Python爬虫大数据采集技术的重要性

    1.3爬虫技术研究及应用现状

    1.4爬虫技术的应用场景

    1.5爬虫大数据采集的技术体系

    1.5.1技术体系构成

    1.5.2相关技术

    1.5.3技术评价方法

    1.6爬虫大数据采集与挖掘的合规性

    1.7爬虫大数据采集技术的展望

    思考题


    第二部分基础篇

    第2章Web页面及相关技术

    2.1HTML语言规范

    2.1.1HTML标签

    2.1.2HTML整体结构

    2.1.3CSS简述

    2.1.4常用标签

    2.1.5HTML语言的版本进化

    2.2编码体系与规范

    2.2.1ASCII

    2.2.2gb2312/gbk

    2.2.3unicode

    2.2.4utf8

    2.2.5网页中的编码和Python处理

    2.3Python正则表达式

    思考题



    第3章Web应用架构与协议

    3.1常用的Web服务器软件

    3.1.1流行的Web服务器软件

    3.1.2在Python中配置Web服务器

    3.2Web服务器的应用架构

    3.2.1典型的应用架构

    3.2.2Web页面的类型

    3.2.3页面文件的组织方式

    3.3Robots协议

    3.3.1Robots协议的来历

    3.3.2Robots协议的规范与实现

    3.4HTTP协议

    3.4.1HTTP版本的技术特性

    3.4.2HTTP报文

    3.4.3HTTP头部

    3.4.4HTTP状态码

    3.4.5HTTPS

    3.5状态保持技术

    3.5.1Cookie

    3.5.2Session

    思考题

    第三部分技术与实现篇

    第4章普通爬虫页面采集技术与Python实现

    4.1普通爬虫的体系架构

    4.2Web服务器连接器

    4.2.1整体处理过程

    4.2.2DNS缓存

    4.2.3requests/response的使用方法

    4.2.4错误和异常的处理

    4.3超链接及域名提取与过滤

    4.3.1超链接的类型

    4.3.2提取方法

    4.3.3遵守Robots协议的友好爬虫

    4.4爬行策略与实现

    4.4.1爬行策略及设计方法

    4.4.2宽度优先和深度优先策略

    4.4.3基于PageRank的重要性排序

    4.4.4其他策略

    4.4.5爬行策略设计的综合考虑

    思考题

    第5章动态页面采集技术与Python实现

    5.1动态页面内容的生成与交互

    5.1.1页面内容的生成方式

    5.1.2动态页面交互的实现

    5.2动态页面采集技术

    5.3使用带参数的URL

    5.4利用Cookie和Session

    5.5使用Ajax: 以评论型页面为例

    5.5.1获取URL地址

    5.5.2获取动态请求参数

    5.6模拟浏览器——以自动登录邮箱为例

    思考题

    第6章Web信息提取与Python实现

    6.1Web信息提取任务及要求

    6.2Web页面内容提取的思路

    6.2.1DOM树

    6.2.2提取方法

    6.3基于HTML结构的内容提取方法

    6.3.1html.parser

    6.3.2lxml

    6.3.3html5lib

    6.3.4BeautifulSoup

    6.3.5PyQuery

    6.4基于统计的Web内容抽取方法

    思考题

    第7章主题爬虫页面采集技术与Python实现

    7.1主题爬虫的使用场景

    7.2主题爬虫技术框架

    7.3主题及其表示

    7.4相关度计算

    7.4.1主题相关度的计算

    7.4.2链接相关度估算

    7.4.3页面内容相关度计算

    7.5特定新闻主题采集

    思考题

    第8章Deep Web爬虫与Python实现

    8.1相关概念

    8.2Deep Web的特征和采集要求

    8.3深度网页内容获取技术架构

    8.3.1领域本体知识库

    8.3.2寻找表单

    8.3.3表单处理

    8.3.4结果处理

    8.4图书信息采集

    思考题

    第9章微博信息采集与Python实现

    9.1微博信息采集方法概述

    9.2微博开放平台授权与测试

    9.3在Python中调用微博API采集数据

    9.3.1流程介绍

    9.3.2微博API及使用方法

    9.3.3采集微博用户个人信息

    9.3.4采集微博博文

    9.3.5微博API的限制

    9.4通过爬虫采集微博信息

    思考题

    第10章反爬虫技术与反反爬虫技术

    10.1两种技术的概述

    10.2反爬虫技术

    10.2.1爬虫检测技术

    10.2.2爬虫阻断技术

    10.3反反爬虫技术

    思考题

    第四部分大数据挖掘与应用篇

    第11章文本信息处理与挖掘技术

    11.1文本预处理

    11.1.1词汇切分

    11.1.2停用词过滤

    11.1.3词形规范化

    11.1.4Python开源库jieba的使用

    11.2文本的向量空间模型

    11.2.1特征选择

    11.2.2模型表示

    11.2.3使用Python构建向量空间表示

    11.3文本分类及实现技术

    11.3.1分类技术概要

    11.3.2分类器技术

    11.3.3新闻分类的Python实现

    11.4主题及其实现技术

    11.4.1主题的定义

    11.4.2基于向量空间的主题构建

    11.4.3LDA主题模型

    11.4.4LDA模型的Python实现

    11.5大数据可视化技术

    11.5.1大数据可视化方法概述

    11.5.2Python开源库的使用

    思考题

    第12章互联网大数据获取技术的应用

    12.1常见应用模式

    12.2新闻阅读器采集与分析

    12.2.1目标任务

    12.2.2总体思路

    12.2.3新闻内容采集与提取

    12.2.4新闻分析

    12.3爬虫用于Web网站SQL注入检测

    12.3.1目标任务

    12.3.2总体思路

    12.3.3Python程序设计

    思考题

    附录A代码与数据

    附录B相关包索引

    附录C爬虫框架

    附录D书中视频对应二维码汇总表


    参考文献

    互联网数据具有典型的大数据特征,即数据量巨大、数据类型多样化、数据来源丰富,并且随着“互联网+”国家战略的推进,互联网

    大数据的应用价值变得多样化。因此,互联网大数据成为大数据技术教学和研究应用的重要数据源。
    在这种背景下,互联网大数据采集技术成为许多人迫切需要掌握的技术,本书就是为了适应这种需求而编写的,同时本书也是作者及

    其科研团队十多年来教学和科研实践经验的总结。作者及其科研团队长期从事互联网内容分析挖掘、网络舆情、大数据、信息内容安

    全技术和应用方面的科研工作,在包括国家自然科学基金项目在内的各类科研项目支持下,对互联网信息获取和处理方法开展了大量

    研究,积累了一定的经验和成果,涵盖论文、发明专利和软件著作权等,作者强烈希望把科研工作中的体会和理解整理出来。
    作者从2011年开始先后为复旦大学信息安全专业的本科生、研究生开设了“信息内容安全”“大数据安全”等课程,经过多年的教学

    实践,了解了学生的学习需求,积累了较为充足的关于互联网大数据采集挖掘技术的讲义和素材。作者于2017年出版了《互联网大数

    据处理技术与应用》一书,两年来经过在不同场合下与学生、读者和同行的交流,体会到互联网大数据采集技术在大数据研究和教学

    中的重要性,因此也迫切需要对大数据采集技术进行深入细化,整理相关技术原理和实现技术。

    本书以互联网大数据采集为主题,介绍相关技术基础、大数据采集技术、大数据挖掘及应用技术。在内容安排上,本书充分考虑了知

    识体系的完整性和独立性,涵盖Web应用架构技术、Web页面及相关技术、各种爬虫采集技术、Web信息提取技术、大数据处理与挖掘以

    及应用方式; 在爬虫技术上,涵盖了各种不同类型的爬虫,包括普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博爬虫; 在

    应用方面,以两种典型的Web网站信息采集与处理为例,介绍了爬虫技术的应用模式与Python实现方法。
    本书作为一本产学兼顾的教材,具有如下特色:


    (1) 以互联网大数据采集技术为中心,将Web应用技术、各种页面采集的共性技术与特有技术、大数据处理与挖掘以及爬虫合规性等

    相关技术有机地结合在一起,涉及当前互联网Web空间的典型应用,构成完整的大数据采集技术和应用的知识体系。

    (2) 在互联网大数据的采集技术中,完整系统地涵盖了普通爬虫、动态爬虫、主题爬虫、Deep Web爬虫以及微博数据采集,既强调

    爬虫抓取数据的功能,也凸显爬虫作为Web应用安全监测的主要技术,有利于读者全面理解网络爬虫大数据技术及其应用。
    (3) 秉承“授人以鱼不如授人以渔”的总体思路,本书理论与实践相结合,书中既有相关技术原理的介绍,也包含了大量的Python

    实现技术、开源架构等方面的介绍,提供了27个与爬虫技术和应用相关的Python程序,使得读者既能理解技术问题又能动手实践。
    本书分为四大部分,共12章,涵盖互联网大数据采集的基础、技术和应用,各章的内容安排如下:
    第一部分概述,包括第1章。
    第1章对大数据采集的重要性、技术体系、应用现状、合规性以及技术发展进行了概述。



    第二部分基础篇,包括第2、3章。
    第2章介绍了Web页面信息提取中的主要基础技术和方法,包括HTML语言规范、页面编码体系与规范,以及广泛用于Web页面简单信息提

    取的正则表达式。
    第3章对Web应用架构技术进行了介绍,包括Web服务器应用架构、HTTP协议、状态保持技术、Robots协议等与爬虫密切相关的技术。
    第三部分技术与实现篇,包括第4~10章。
    第4章对普通爬虫页面采集技术进行了介绍,包括Web服务器连接器、爬虫策略、超链接处理以及Python的实现方法等。
    第5章介绍了动态爬虫的相关技术,包括动态页面内容的生成与交互、动态页面采集的若干种典型方法和Python实现技术。
    第6章介绍了从Web页面提取信息所需要的技术,介绍了技术原理和典型的开源技术,给出了一些实例。

    第7章介绍了主题爬虫技术及实现方法,涉及主题爬虫的技术体系、主题表示和建模、主题相似度计算等。
    第8章是关于Deep Web的数据采集技术及实现。
    第9章是关于微博信息的采集方法及实现,主要包括通过API获取微博信息和通过爬虫技术获取微博信息两种方法。
    第10章介绍了反爬虫的常用技术,同时也介绍了针对这些反爬虫技术的一些主要应对措施。
    第四部分大数据挖掘与应用篇,包括第11、12章。
    第11章介绍了大数据采集应用以及主题爬虫中需要使用的部分技术,包括文本的预处理、文本分类、主题建模、大数据可视化技术以

    及一些开源工具等。
    第12章针对两种典型的大数据采集技术应用案例进行了完整的介绍。

    这些章节的知识点之间的依赖关系如下图所示,其中,虚框中的第4~9章是各种典型的爬虫采集技术,
    第1~3章是相关技术基础。读者可以根据自己的基础选择合适的学习路线。



    全书由曾剑平负责内容安排、统稿,由互联网大数据处理技术和应用研究领域的一线人员参与编写。段江娇参与编写了第1、4、5章,

    廖含月编写了第2章的部分内容,孟元编写了本书部分例子的程序及相关文字说明,肖杨实现了SQL注入的爬虫在线检测,其他部分由

    曾剑平编写,曾睿对全书进行了校对。清华大学出版社的编辑们为本书的出版和编辑、校对花费了很多心思; 此外,在本书的编写过

    程中参考和引用了许多作者发表的各种论文、技术报告,均已在参考文献中列出,在此一并表示衷心的感谢。需要特别提到的是,为

    了便于读者理解相关技术,书中选择若干互联网网站页面采集作为实例,特别向这些网站表示感谢。
    注: 本书提供300分钟的视频讲解,扫描书中相关位置的二维码可以在线观看、学习; 本书还提供教学大纲、教学课件、程序源码、

    教学进度表等配套资源,扫描封底的二维码可以下载。
    互联网大数据采集技术仍在不断发展当中,本书在内容选择及编写上从深度和广度做了精心的安排。由于时间仓促以及作者的学识水

    平限制,书中难免存在不足之处和疏忽,恳请读者不吝批评指正,以利于再版修订完善。


    作者2019年10月



    清华大学出版社官方旗舰店

    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购