实名认证领苏宁支付券立即领取 >
¥
提前抢
SUPER会员专享
由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
欢迎光临本店铺
点我可查看更多商品哦~
100%刮中券,最高50元无敌券,券有效期7天
亲,今日还有0次刮奖机会
我的云钻:0
您的云钻暂时不足,攒足云钻再来刮
恭喜获得1张券!
今天的机会已经全部用完了,请明天再来
恭喜刮出两张券,请选择一张领取
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
音像自己动手写网络爬虫罗刚 罗刚
¥ ×1
商品
服务
物流
篇自己动手抓取数据章全面剖析网络爬虫31.1抓取网页41.1.1深入理解URL41.1.2通过指定的URL抓取网页内容61.1.3Ja页抓取示例81.1.4处理HTTP状态码101.2宽度优先爬虫和带偏好的爬虫121.2.1图的宽度优先遍历121.2.2宽度优先遍历互联网131..Java宽度优先爬虫示例151.2.4带偏好的爬虫221.2.5Java带偏好的爬虫示例1.3设计爬虫队列241.3.1爬虫队列241.3.2使用BerkeleyDB构建爬虫队列291.3.3使用BerkeleyDB构建爬虫队列示例301.3.4使用布隆过滤器构建Visited表361.3.5详解Heritrix爬虫队列391.4设计爬虫架构461.4.1爬虫架构461.4.2设计并行爬虫架构471.4.3详解Heritrix爬虫架构521.5使用多线程技术提升爬虫能551.5.1详解Java多线程551.5.2爬虫中的多线程591.5.3一个简单的多线程爬虫实现601.5.4详解Heritrix多线程结构61本章小结64第2章分布式爬虫692.1设计分布式爬虫702.1.1分布式与云计算702.1.2分布式与云计算技术在爬虫中的应用--浅析Google的云计算架构722.2分布式存储722.2.1从Ralation_DB到key/value存储722.2.2ConsistentHash算法742..ConsistentHash代码实现79.Google的成功之道--GFS80..1GFS详解80..2开源GFS--HDFS842.4Google网页存储秘诀--BigTable882.4.1详解BigTable882.4.2开源BigTable-HBase932.5Google的成功之道--MapReduce算法982.5.1详解MapReduce算法1002.5.2MapReduce容错处理1012.5.3MapReduce实现架构1022.5.4Hadoop中的MapReduce简介1042.5.5wordCount例子的实现1052.6Nutch中的分布式1092.6.1Nutch爬虫详解1092.6.2Nutch中的分布式116本章小结118第3章爬虫的"方方面面"1213.1爬虫中的"黑洞"1223.2主题爬虫和限定爬虫1223.2.1理解主题爬虫1223.2.2Java主题爬虫1283..理解限定爬虫1303.2.4Java限定爬虫示例1363.3有"道德"的爬虫152本章小结156第2篇自己动手抽取Web内容第4章"处理"HTML页面1594.1征服正则表达式1604.1.1学习正则表达式1604.1.2Java正则表达式1634.2抽取HTML正文1694.2.1了解Jsup694.2.2使用正则表达式抽取示例1734.3抽取正文1774.4从JavaScript中抽取信息1934.4.1JavaScript抽取方法1934.4.2JavaScript抽取示例195本章小结197第5章非HTML正文抽取1995.1抽取文件2005.1.1学习Box2005.1.2使用Box抽取示例2045.1.3提取文件标题2055.1.4处理格式的公文2065.2抽取Office文档2115.2.1学习POI2115.2.2使用POI抽取Word示例2115..使用POI抽取PPT示例2135.2.4使用POI抽取Excel示例2145.3抽取RTF2175.3.1开源RTF文件解析器2175.3.2实现一个RTF文件解析器2175.3.3解析RTF示例222本章小结227第6章多媒体抽取2296.1视频抽取06.1.1抽取视频关键帧06.1.2Ja处理框架16.1.3Ja抽取示例56.2音频抽取2476.2.1抽取音频2486.2.2Java音频抽取技术252本章小结254第7章去掉网页中的"噪声"2557.1"噪声"对网页的影响2567.2利用"统计学"消除"噪声"2577.2.1风格树2607.2.2"统计学去噪"的Java实现2687.3利用"视觉"消除"噪声"2727.3.1"视觉"与"噪声"2727.3.2"视觉去噪"的Java实现273本章小结277第3篇自己动手挖掘Web数据第8章分析Web图2818.1存储Web"图"2828.2利用Web"图"分析链接2918.3Google的秘密--PageRank2918.3.1深入理解PageRank算法2918.3.2PageRank算法的Java实现2958.3.3应用PageRank进行链接分析2988.4PageRank的兄弟HITS2998.4.1深入理解HITS算法2998.4.2HITS算法的Java实现3008.4.3应用HITS进行链接分析3118.5PageRank与HITS比较312本章小结313第9章去掉"重复"的文档3159.1何为"重复"的文档3169.2利用"语义指纹"排重3169.2.1理解"语义指纹"3189.2.2"语义指纹"排重的Java实现3199.3SimHash排重3199.3.1理解SimHash3209.3.2SimHash排重的Java实现3219.4分布式文档排重328本章小结3290章分类与聚类的应用33110.1网页分类33210.1.1收集语料库33210.1.2选取网页的"特征"33310.1.3使用支持向量机进行网页分类33610.1.4利用URL地址进行网页分类33810.1.5使用AdaBoost进行网页分类33810.2网页聚类34110.2.1深入理解DBScan算法34110.2.2使用DBScan算法聚类实例342本章小结344
罗刚,计算机软件硕士,于吉林工业大学。2005年创立北京盈智星科技发展有限公司,2008年联合创立上海数聚软件公司。猎兔搜索创始人,当前猎兔搜索在北京、上海以及石家庄均设有研发部。他带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔文本挖掘系统,智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测,其开发的搜索软件日用户访问量万次以上。
抢购价:¥ 38.00
易购价:¥ 38.00
注:参加抢购将不再享受其他优惠活动
亲,很抱歉,您购买的宝贝销售异常火爆,让小苏措手不及,请稍后再试~
验证码错误
看不清楚?换一张
确定关闭
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
查看我的收藏夹
非常抱歉,您前期未参加预订活动,无法支付尾款哦!
关闭
抱歉,您暂无任性付资格
继续等待
0小时0分
立即开通
SUPER会员