本书围绕大数据采集,对采集技术的相关基础、技术原理、 Python实现技术、大数据挖掘与应用方法 进行了系统介绍。书中全面、完整地覆盖了各种类型的网络爬虫及相关的信息处理挖掘技术,并提供了27个与爬虫技术和应用相关的Python程序。全书共分为四大部分,即概述、基础篇、技术与实现篇 、大数据挖掘与应用篇。第一部分是概述,首先指出了利用Python采集互联网大数据的重要性,介绍了 相关技术研究、技术体系、 Py t hon爬虫采集技术的合规性及应用现状等; 第二部分是基础篇,包括 Web服务器的应用架构以及HTTP、 Robots、 HTML、页面编码等相关协议和规范; 第三部分是技术与 实现篇,全面介绍了普通网络爬虫技术、动态页面采集方法、主题爬虫技术、 DeepWeb爬虫、微博信息采集 、Web信息提取以及反爬虫技术等,内容涵盖了各种爬虫技术实现方法及Python例子; 第四部分是 大数null