君凤文轩图书专营店
  • 扫码下单

  • 正版新书]精通Spark数据科学(美)安德鲁·摩根(Andrew Morgan)[等
  • 全店均为全新正版书籍,欢迎选购!新疆西藏青海(可包挂刷).港澳台及海外地区bu bao快递
    • 作者: (美)安德鲁·摩根(Andrew Morgan)[等]著著 | (美)安德鲁·摩根(Andrew Morgan)[等]著编 | (美)安德鲁·摩根(Andrew Morgan)[等]著译 | (美)安德鲁·摩根(Andrew Morgan)[等]著绘
    • 出版社: 人民邮电出版社
    • 出版时间:2020-09-01
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    店铺装修中

    商家:
    君凤文轩图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    君凤文轩图书专营店

  • 商品参数
    • 作者: (美)安德鲁·摩根(Andrew Morgan)[等]著著| (美)安德鲁·摩根(Andrew Morgan)[等]著编| (美)安德鲁·摩根(Andrew Morgan)[等]著译| (美)安德鲁·摩根(Andrew Morgan)[等]著绘
    • 出版社:人民邮电出版社
    • 出版时间:2020-09-01
    • 版次:1
    • 印次:1
    • 字数:560000
    • 页数:430
    • 开本:16开
    • ISBN:9787115541567
    • 版权提供:人民邮电出版社
    • 作者:(美)安德鲁·摩根(Andrew Morgan)[等]著
    • 著:(美)安德鲁·摩根(Andrew Morgan)[等]著
    • 装帧:平装
    • 印次:1
    • 定价:109
    • ISBN:9787115541567
    • 出版社:人民邮电出版社
    • 开本:16开
    • 印刷时间:暂无
    • 语种:暂无
    • 出版时间:2020-09-01
    • 页数:430
    • 外部编号:党庄201210
    • 版次:1
    • 成品尺寸:暂无

    章数据科学生态系统1

    1.1大数据生态系统简介1

    1.1.1数据管理2

    1.1.2数据管理职责2

    1.1.3合适的工具4

    1.2数据架构4

    1.2.1数据采集5

    1.2.2数据湖6

    1.2.3数据科学平台7

    1.2.4数据访问8

    1.3数据处理技术8

    1.4配套工具10

    1.4.1ApacheHDFS10

    1.4.2亚马逊S312

    1.4.3ApacheKafka13

    1.4.4ApacheParquet14

    1.4.5ApacheAvro15

    1.4.6ApacheNiFi16

    1.4.7ApacheYARN17

    1.4.8ApacheLucene18

    1.4.9Kibana19

    1.4.10Elasticsearch20

    1.4.11Accumulo21

    1.5小结22

    第2章数据获取23

    2.1数据管道23

    2.1.1通用采集框架24

    2.1.2GDELT数据集简介25

    2.2内容登记32

    2.2.1选择和更多选择32

    2.2.2随流而行32

    2.2.3元数据模型33

    2.2.4Kibana仪表盘35

    2.3质量保证36

    2.3.1案例1——基本质量检查,无争用用户36

    2.3.2案例2——进阶质量检查,无争用用户36

    2.3.3案例3——基本质量检查,50%使用率争用用户37

    2.4小结37

    第3章输入格式与模式39

    3.1结构化的生活是美好的生活40

    3.2GDELT维度建模40

    3.3加载数据48

    3.3.1模式敏捷性49

    3.3.2GKGELT51

    3.4Avro54

    3.4.1Spark-Avro方法55

    3.4.2教学方法57

    3.4.3何时执行Avro转换61

    3.5ApacheParquet62

    3.6小结63

    第4章探索性数据分析64

    4.1问题、原则与规划65

    4.1.1理解EDA问题65

    4.1.2设计原则65

    4.1.3探索的总计划66

    4.2准备工作67

    4.2.1基于掩码的数据剖析简介67

    4.2.2字符类掩码简介71

    4.2.3构建基于掩码的剖析器73

    4.3探索GDELT86

    4.4小结107

    第5章利用Spark进行地理分析108

    5.1GDELT和石油108

    5.1.1GDELT事件109

    5.1.2GDELTGKG110

    5.2制订行动计划110

    5.3GeoMesa111

    5.3.1安装112

    5.3.2GDELT采集112

    5.3.3GeoMesa采集113

    5.3.4GeoHash117

    5.3.5GeoServer120

    5.4计量油价123

    5.4.1使用GeoMesa查询API123

    5.4.2数据准备125

    5.4.3机器学习130

    5.4.4朴素贝叶斯131

    5.4.5结果132

    5.4.6分析133

    5.5小结134

    第6章采集基于链接的外部数据135

    6.1构建一个大规模的新闻扫描器135

    6.1.1访问Web内容136

    6.1.2与Spark集成138

    6.1.3创建可扩展的生产准备库139

    6.2命名实体识别142

    6.2.1Scala库143

    6.2.2NLP攻略143

    6.2.3构建可扩展代码146

    6.3GIS查询148

    6.3.1GeoNames数据集148

    6.3.2构建高效的连接149

    6.3.3内容除重153

    6.4名字除重154

    6.4.1用Scalaz进行函数式编程155

    6.4.2简单清洗158

    6.4.3DoubleMetaphone算法158

    6.5新闻索引仪表板160

    6.6小结162

    第7章构建社区163

    7.1构建一个人物图谱163

    7.1.1联系链164

    7.1.2从Elasticsearch中提取数据166

    7.2使用Accumulo数据库168

    7.2.1设置Accumulo168

    7.2.2单元级安全169

    7.2.3迭代器170

    7.2.4从Elasticsearch到Accumulo170

    7.2.5从Accumulo读取173

    7.2.6AccumuloGraphxInputFormat和EdgeWritable175

    7.2.7构建图175

    7.3社区发现算法177

    7.3.1Louvain算法177

    7.3.2加权社区聚类178

    7.4GDELT数据集193

    7.4.1Bowie效应194

    7.4.2较小的社区195

    7.4.3使用Accumulo单元级的安全性196

    7.5小结197

    第8章构建推荐系统198

    8.1不同的方法198

    8.1.1协同过滤199

    8.1.2基于内容的过滤199

    8.1.3自定义的方法199

    8.2信息不完整的数据200

    8.2.1处理字节200

    8.2.2创建可扩展的代码203

    8.2.3从时域到频域204

    8.3构建歌曲分析器209

    8.4构建一个推荐系统214

    8.4.1PageRank算法214

    8.4.2构建个性化的播放列表217

    8.5扩大“蛋糕厂”规模217

    8.5.1构建播放列表服务217

    8.5.2应用Spark任务服务器219

    8.5.3用户界面223

    8.6小结224

    第9章新闻词典和实时标记系统226

    9.1土耳其机器人226

    9.1.1人类智能任务227

    9.1.2引导分类模型227

    9.1.3懒惰、急躁、傲慢233

    9.2设计SparkStreaming应用234

    9.2.1两个架构的故事234

    9.2.2Lambda架构的价值237

    9.2.3Kappa架构的价值239

    9.3消费数据流240

    9.3.1创建GDELT数据流240

    9.3.2创建Twitter数据流242

    9.4处理Twitter数据243

    9.4.1提取URL和主题标签244

    9.4.2保存流行的主题标签245

    9.4.3扩展缩短的URL246

    9.5获取HTML内容248

    9.6使用Elasticsearch作为缓存层249

    9.7分类数据252

    9.7.1训练朴素贝叶斯模型253

    9.7.2确保线程安全254

    9.7.3预测GDELT数据255

    9.8Twitter土耳其机器人256

    9.9小结258

    0章故事除重和变迁260

    10.1检测近似重复260

    10.1.1从散列开始步262

    10.1.2站在“互联网巨人”的肩膀上263

    10.1.3检测GDELT中的近似重复266

    10.1.4索引GDELT数据库271

    10.2构建故事275

    10.2.1构建词频向量275

    10.2.2维度灾难,数据科学之痛277

    10.2.3优化KMeans278

    10.3故事变迁281

    10.3.1平衡态281

    10.3.2随时间追踪故事283

    10.3.3构建故事的关联290

    10.4小结294

    1章情感分析中的异常检测295

    11.1在Twitter上追踪美国大选296

    11.1.1流式获取数据296

    11.1.2成批获取数据297

    11.2情感分析300

    11.2.1格式化处理Twitter数据300

    11.2.2使用斯坦福NLP302

    11.2.3建立管道304

    11.3使用Timely作为时间序列数据库306

    11.3.1存储数据306

    11.3.2使用Grafana可视化情感309

    11.4Twitter与戈德温(Godwin)点311

    11.4.1学习环境311

    11.4.2对模型进行可视化314

    11.4.3Word2Graph和戈德温点315

    11.5进入检测讽刺的一小步320

    11.5.1构建特征320

    11.5.2检测异常324

    11.6小结325

    2章趋势演算326

    12.1研究趋势327

    12.2趋势演算算法328

    12.2.1趋势窗口328

    12.2.2简单趋势331

    12.2.3用户定义聚合函数332

    12.2.4简单趋势计算337

    12.2.5反转规则339

    12.2.6FHLS条状图介绍341

    12.2.7可视化数据343

    12.3实际应用351

    12.3.1算法特性352

    12.3.2潜在的用例352

    12.4小结353

    3章数据保护354

    13.1数据安全性354

    13.1.1存在的问题355

    13.1.2基本操作355

    13.2认证和授权356

    13.3访问358

    13.4加密359

    13.4.1数据处于静态时359

    13.4.2数据处于传输时368

    13.4.3混淆/匿名369

    13.4.4遮罩372

    13.4.5令牌化375

    13.5数据处置377

    13.6Kerberos认证378

    13.6.1用例1:ApacheSpark在受保护的HDFS中访问数据379

    13.6.2用例2:扩展到自动身份验证381

    13.6.3用例3:从Spark连接到安全数据库381

    13.7安全生态383

    13.7.1ApacheSentry383

    13.7.2RecordService384

    13.8安全责任385

    13.9小结386

    4章可扩展算法387

    14.1基本原则387

    14.2Spark架构390

    14.2.1Spark的历史390

    14.2.2动态组件391

    14.3挑战395

    14.3.1算法复杂性395

    14.3.2数值异常395

    14.3.3洗牌398

    14.3.4数据模式398

    14.4规划你的路线399

    14.5设计模式和技术409

    14.5.1SparkAPI410

    14.5.2摘要模式411

    14.5.3扩展并解决模式411

    14.5.4轻量级洗牌412

    14.5.5宽表模式414

    14.5.6广播变量模式415

    14.5.7组合器模式416

    14.5.8集群优化420

    14.5.9再分配模式422

    14.5.10加盐键模式423

    14.5.11二次排序模式424

    14.5.12过滤过度模式426

    14.5.13概率算法426

    14.5.14选择性缓存427

    14.5.15垃圾回收428

    14.5.16图遍历429

    14.6小结430


    安德鲁·摩根(Andrew Morgan)是数据战略及其执行方面的专家,在支持技术、系统架构和实现数据科学方面拥有丰富的经验。他在数据行业拥有20多年的经验,曾为一些久负盛名的公司及其客户设计系统——通常是、复杂和国际性的项目。2013年,他创办了数据科学和大数据工程咨询公司ByteSumo,目前在与欧洲和美国的客户进行合作。Andrew是一位活跃的数据科学家,也是趋势演算(TrendCalculus)算法的发明者。该算法是他为自己的研究项目而开发的,该项目旨在研究基于机器学习的长期预测,这些预测可以在不断变化的文化、地缘政治和经济趋势中发现规律。他还是Hadoop Summit EU数据科学委员会的成员,并在许多会议上就各种数据主题发表过演讲。他也活跃于他的居住地伦敦的数据科学和大数据社区。 安托万·阿门德(Antoine Amend)是一位对大数据工程和可扩展计算充满热情的数据科学家。这本书的主题是“折腾”天文数字量级的非结构化数据以获得新的见解,这主要源于Antoine的理论物理学背景。他于2008年并获得天体物理学硕士。在Hadoop的早期阶段,在大数据的概念普及之前,他曾在瑞士的一家咨询公司工作。从那时起,他就开始接触大数据技术。现在他在巴克莱银行担任网络安全数据科学部门的主管。通过将科学方法与核心IT技能相结合,Antoine连续两年获得了在得克萨斯州奥斯汀举行的大数据世界锦标赛决赛资格。他在2014年和2015年都名列前12位(超过2 000多名竞争对手),这两次比赛中他还使用了本书介绍的方法和技术赢得了创新奖。 大卫·乔治(David George)是一位杰出的分布式计算专家,拥有超过15年的数据系统从业经验,主要服务于闻名的IT咨询机构和品牌。他很早以前就开始使用Hadoop核心技术,并做过大规模的实施。David总是采用务实的方法进行软件设计,并重视简约中的优雅。 如今,他继续作为首席为金融行业客户设计可扩展的应用,并满足一些较为严苛的需求。他的新项目侧重于采用的人工智能技术来提高知识产业的自动化水平。 马修·哈利特(Matthew Hallett)是一名软件和计算机科学家,拥有超过15年的从业经验。他是一名面向对象的“专家级程序员”和系统,拥有丰富的底层编程范式知识。在过去的几年里,他在Hadoop和关键业务环境中的分布式编程方面积累了丰富的专业知识,这些环境由数千节点的数据中心组成。Matthew在分布式算法和分布式计算体系结构的实施方面拥有多种语言的咨询经验,目前是“审计公司”数据科学与工程团队的数据顾问。

    1.本书采用 Spark 2.0,并结合 Scala 2.11、Maven 和 Hadoop;
    2.案例丰富:读者将基于一系列典型的案例,学习Spark在构建商业级数据科学解决方案中的应用;
    3.作者是数据战略及其执行方面的专家,拥有多年的商业经验,为读者呈现了一个真实的、令人兴奋的数据科学世界;
    3.提供配套代码。

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购