由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
醉染图书大规模数据分析和建模 基于Spark与R9787111661016
¥ ×1
序言1
前言3
章 引言9
1.1 概述10
1.2 Hadop0
1.3 Spark12
1.4 R16
1.5 sparklyr19
1.6 小结20
第2章 开始21
2.1 概述21
2.2 预备操作22
2.2.1 安装sparklyr
2.2.2 安装Spark
. 连接24
2.4 使用Spark25
2.4.1 网络接口25
2.4.2 分析28
2.4.3 建模28
2.4.4 数据30
2.4.5 扩展30
2.4.6 分布式R31
2.4.7 流式数据31
2.4.8 日志32
2.5 断开连接33
2.6 使用RStudio33
2.7 资源35
2.8 小结36
第3章 分析37
3.1 概述37
3.2 数据导入40
3.3 数据整理41
3.3.1 内置函数42
3.3.2 相关43
3.4 可视化45
3.4.1 使用ggplot246
3.4.2 使用dbplot47
3.5 建模49
3.6 沟通51
3.7 小结54
第4章 建模56
4.1 概述56
4.2 探索数据分析58
4.3 特征工程65
4.4 监督式学习68
4.4.1 广义线回归72
4.4.2 模型73
4.5 非监督式学习73
4.5.1 数据准备74
4.5.2 主题建模75
4.6 小结77
第5章 管道操作78
5.1 概述78
5.2 创建工作80
5.3 用例81
5.4 操作模式83
5.5 交互4
5.6 部署86
5.6.1 批打分87
5.6.2 实时打分88
5.7 小结90
第6章 集群92
6.1 概述92
6.2 本地化94
6.2.1 管理器94
6.2.2 发行版98
6.3 云端100
6.3.1 101
6.3.2 Databricks102
6.3.3 谷歌103
6.3.4 IBM105
6.3.5 微软106
6.3.6 ble07
6.4 Kubernetes107
6.5 工具108
6.5.1 RStudi08
6.5.2 Jupyter109
6.5.3 Livy110
6.6 小结111
第7章 连接112
7.1 概述112
7.1.1 边缘节点114
7.1.2 Spark主目录114
7.2 本地模式115
7.3 单机模式116
7.4 YARN116
7.4.1 YARN客户端117
7.4.2 YARN集群117
7.5 Livy118
7.6 Mess20
7.7 Kubernetes121
7.8 云模式121
7.9 批量模式122
7.10 工具1
7.11 多次连接1
7.12 故障排除124
7.12.1 记录日志124
7.12.2 Spark Submit124
7.1. Windws26
7.13 小结126
第8章 数据127
8.1 概述127
8.2 读取数据129
8.2.1 路径129
8.2.2 模式130
8.. 内存131
8.2.4 列132
8.3 写入数据133
8.4 复制数据134
8.5 文件格式135
8.5.1 CSV136
8.5.2 JSON137
8.5.3 Parquet138
8.5.4 139
8.6 文件系统140
8.7 存储系统140
8.7.1 Hive141
8.7.2 Cassandra142
8.7.3 JDBC142
8.8 小结143
第9章 调试144
9.1 概述144
9.1.1 计算图146
9.1.2 时间线148
9.2 配置148
9.2.1 连接设置150
9.2.2 提交设置151
9.. 运行时设置152
9.2.4 sparklyr设置153
9.3 分区156
9.3.1 隐式分区156
9.3.2 显式分区157
9.4 缓存158
9.4.1 检查点159
9.4.2 内存159
9.5 重洗160
9.6 序列化161
9.7 配置文件161
9.8 小结162
0章 扩展163
10.1 概述163
10.2 H2O165
10.3 图模型169
10.4 XGBost73
10.5 深度学习176
10.6 基因组学179
10.7 空间数据181
10.8 故障排除183
10.9 小结183
1章 分布式R185
11.1 概述185
11.2 用例187
11.2.1 定制解析器188
11.2.2 分区建模189
11.. 网格搜索191
11.2.4 Web API192
11.2.5 模拟193
11.3 分区194
11.4 分组195
11.5 列196
11.6 context参数197
11.7 函数198
11.8 程序包199
11.9 集群需求200
11.9.1 安装R200
11.9.2 Apache Arrow201
11.10 故障排除203
11.10.1 工作节点日志204
11.10.2 解决超时205
11.10.3 检查分区206
11.10.4 调试工作节点206
11.11 小结207
2章 数据流208
12.1 概述208
12.2 转换211
12.2.1 分析212
12.2.2 建模213
12.. 管道214
12.2.4 分布式R215
1. Kafka216
12.4 Shiny218
12.5 小结220
3章 社区贡献221
13.1 概述221
13.2 Spark API2
13.3 Spark扩展224
13.4 使用Scala代码226
13.5 小结228
附录A 补充参考代码229
如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深入理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。
作者会展示如何将Spark和R结合起来进行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及不错用户会感兴趣的问题。
?在Apache Spark环境下,使用R来分析、探索、转换、可视化数据。
?构建统计模型来提取信息并预测输出,自动化生产级的工作流程。
?使用分布式计算技术在多台机器上进行分析和建模。
?轻松使用Spark处理多个数据源和格式的大规模数据。
?学习用于大规模图处理、地理空间分析和基因组学分析的建模框架。
?深入不错话题,包括定制转换、实时数据处理和创建定制化Spark扩展。
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格