《SPARK机器学习(第2版)》[印]拉结帝普·杜瓦（Rajdeep Dua），[印]曼普利特?辛格·古特拉（Manpreet Singh Ghotra），[南非]尼克·彭特里思（Nick Pentreath）著【摘要书评在线阅读】-苏宁易购图书

云钻刮券活动规则

活动时间

活动自2017年6月2日上线，敬请关注云钻刮券活动规则更新。

活动形式

会员打开苏宁易购wap端、PC端、苏宁易购APP端方可参与活动。
活动方式为云钻刮券，每次刮券需要扣除200云钻。奖励分为无敌券和店铺云券两种，100%刮出无敌券，最低2元。店铺券由店铺提供，用户可以根据购物需求，在无敌券和店铺云券之间二选一。如因为网络、用户关闭等原因，造成页面关闭，导致用户没有或无法选择，系统将在5分钟内自动按照获得的无敌券面额发放到用户账户。
每人每天参与刮券次数上限为1次。活动每日限量，如用户参与时已达到活动最高上限，则不能再继续参与，次日可以继续参与。
如会员在刮券时选择了店铺云券，券发至账户后则无法再更改为平台的无敌券；如会员在刮券时选择了平台的无敌券，券发至账户后则无法再更改为店铺云券。
云钻刮券获得的不固定面值的券，会随机获得无敌券：2~2.2元、5元、10元、20元、50元的无敌券或不同面额的店铺云券。
券是否成功发放，可在“我的优惠券”中查询。

其他

如活动受政府机关指令需要停止举办的，或活动遭受严重网络攻击需暂停举办的，或者系统故障导致的其它意外问题，苏宁无需为此承担赔偿或者进行补偿。

券使用规则

不同面额的无敌券有不同的使用门槛，2~2.2元、5元、10元、20元、50元无敌券为无门槛使用，具体以实际发放券说明为准。配送方式仅限选择配送使用，不能抵扣运费部分。
用户刮券获得的店铺云券可与店铺内领取的店铺易券叠加使用。
店铺云券使用门槛等具体信息以商家在其店铺内的设置使用说明为准。
无敌券可用于单件商品的付款，也可用于购物车合并下单付款，同时支持在跨店铺订单中使用。店铺云券仅可使用在指定店铺中，注：部分店铺活动商品不支持用券，以订单实际提交为准。
云钻刮券获得的无敌券可以购买大聚惠、抢购、团购、手机专享价，但不可购买闪拍、预售、S码、名品特卖、海外购、秒杀、虚拟产品、法律规定限制产品如一段奶粉（包括但不仅限列出的商品）等、云钻加钱兑及云钻全额兑。
在购物时，点击购买后，页面会提示可使用易购券，只要点击选择易购券即可抵用扣除对应金额。云钻刮券获得无敌券或店铺云券使用时可用于抵扣商品金额，不能抵扣运费、运费险、增值服务等非商品金额。
云钻刮券获得的无敌券或店铺云券可与店铺页面领取的店铺易券叠加使用，付款时默认优先使用力度较大的店铺优惠券，如使用店铺易券后的订单金额仍然满足云钻刮券所获得店铺云券使用条件，可继续叠加使用店铺云券。（举例：店铺在页面设置满199减50元的店铺易券，同时用户在店铺刮券获得一张满20元减20元的店铺云券，如商品订单金额为200元，会员在用已使用领取的50元店铺易券情况下，仍然可以使用云钻刮券获得20元店铺云券）
云钻刮券获得的无敌券或店铺云券不得提现，不得转赠他人，不得为他人付，不得拆分使用。
一个订单最多使用6张易购券。
云钻刮券获得的有效期为：自获得之日起7天内有效（部分活动券可能存在不同有效期，具体详见“我的优惠券”内易购券有效期说明）。
在获取和使用券过程中，如果出现违规行为（如作弊领取、恶意套现、刷取信誉、虚假交易等），苏宁将取消用户的中奖资格，并有权撤销违规交易、收回易购券（含已使用的易购券及未使用的易购券）,必要时追究法律责任。
使用易购券的订单若交易未成功或发生退款及售后，在交易所使用的易购券有效期内订单取消完成的，易购券将退回用户账户，退回后的易购券有效期不变。如在使用的易购券有效期之外发生退款，所使用的券退回当天有效，过期不予退还。如发生售后退款，易购券退回当天有效，过期不予退还。

文轩网图书旗舰店

https://product.suning.com/0070067633/11555288247.html

商品参数

作者： [印]拉结帝普·杜瓦（Rajdeep Dua），[印]曼普利特?辛格·古特拉（Manpreet Singh Ghotra），[南非]尼克·彭特里思（Nick Pentreath）著| 蔡立宇黄章帅周济民译
出版社：人民邮电出版社
出版时间：2018-01-01 00:00:00
版次：1
印刷时间：2018-11-01
字数：573000.000
页数：375
开本：其他
装帧：平装
ISBN：9787115497833
国别/地区：中国
版权提供：人民邮电出版社

Spark机器学习(第2版)

作者:(印)拉结帝普·杜瓦(Rajdeep Dua),(印)曼普利特·辛格·古特拉(Manpreet Singh Ghotra),(南非)尼克·彭特里思(Nick Pentreath) 著蔡立宇,黄章帅,周济民译

定价:99

出版社:人民邮电出版社

出版日期:2018年11月01日

页数:375

装帧:平装

ISBN:9787115497833

本书结合案例研究讲解Spark 在机器学习中的应用，并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、降维等经典机器学习算法及其实际应用。第2版新增了有关机器学习数学基础以及Spark ML Pipeline API 的章节，内容更加系统、全面、与时俱进。

拉结帝普·杜瓦（Rajdeep Dua）：Salesforce公司工程主管，致力于打造云计算和人工智能团队。曾参与Google的大数据分析工具BigQuery的宣传团队。在云计算、大数据分析和机器学习领域有近20年的经验。
曼普利特·辛格·古特拉（Manpreet Singh Ghotra）：Salesforce公司软件工程主管，拥有十余年软件开发经验，目前致力于开发基于Apache Spark的机器学习平台。
尼克·彭特里思（Nick Pentreath）：IBM开源数据及人工智能技术中心首席工程师，大数据及机器学习公司Graphflow联合创始人，Spark项目管理委员会成员。
蔡立宇：曾从事自然语言处理和图数据分析相关工作，现提供数据分析相关的独立咨询和开发服务。坐标深圳。

无

章 Spark的环境搭建与运行 1
1.1Spark的本地安装与配置2
1.2Spark集群3
1.3Spark编程模型4
1.3.1SparkContext类与SparkConf类4
1.3.2SparkSession5
1.3.3Spark shell6
1.3.4弹性分布式数据集8
1.3.5广播变量和累加器12
1.4SchemaRDD13
1.5Spark data frame13
1.6Spark Scala编程入门14
1.7Spark Java编程入门17
1.8Spark Python编程入门19
1.9Spark R编程入门21
1.10在Amazon EC2上运行Spark23
1.11在Amazon Elastic Map Reduce上配置并运行Spark28
1.12Spark用户界面31
1.13Spark所支持的机器学习算法32
1.14Spark ML的优势36
1.15在Google Compute Engine上用Dataproc构建Spark集群38
1.15.1Hadoop和Spark版本38
1.15.2创建集群38
1.15.3提交任务41
1.16小结43
第2章机器学习的数学基础44
2.1线性代数45
2.1.1配置IntelliJ Scala环境45
2.1.2配置命令行Scala环境47
2.1.3域48
2.1.4矩阵54
2.1.5函数64
2.2梯度下降68
2.3先验概率、似然和后验概率69
2.4微积分69
2.4.1可微微分69
2.4.2积分70
2.4.3拉格朗日乘子70
2.5可视化71
2.6小结72
第3章机器学习系统设计73
3.1机器学习是什么73
3.2MovieStream介绍74
3.3机器学习系统商业用例75
3.3.1个性化75
3.3.2目标营销和客户细分76
3.3.3预测建模与分析76
3.4机器学习模型的种类76
3.5数据驱动的机器学习系统的组成77
3.5.1数据获取与存储77
3.5.2数据清理与转换78
3.5.3模型训练与测试循环79
3.5.4模型部署与整合79
3.5.5模型监控与反馈80
3.5.6批处理或实时方案的选择80
3.5.7Spark数据管道81
3.6机器学习系统架构82
3.7Spark MLlib83
3.8Spark ML的性能提升83
3.9MLlib支持算法的比较85
3.9.1分类85
3.9.2聚类85
3.9.3回归85
3.10MLlib支持的函数和开发者API86
3.11MLlib愿景87
3.12MLlib版本的变迁87
3.13小结88
第4章Spark上数据的获取、处理与准备89
4.1获取公开数据集90
4.2探索与可视化数据92
4.2.1探索用户数据94
4.2.2探索电影数据102
4.2.3探索评级数据104
4.3数据的处理与转换109
4.4从数据中提取有用特征112
4.4.1数值特征112
4.4.2类别特征113
4.4.3派生特征114
4.4.4文本特征116
4.4.5正则化特征121
4.4.6用软件包提取特征123
4.5小结126
第5章Spark 构建推荐引擎127
5.1推荐模型的分类128
5.1.1基于内容的过滤128
5.1.2协同过滤128
5.1.3矩阵分解130
5.2提取有效特征139
5.3训练推荐模型140
5.3.1使用MovieLens 100k数据集训练模型141
5.3.2使用隐式反馈数据训练模型143
5.4使用推荐模型143
5.4.1ALS模型推荐144
5.4.2用户推荐145
5.4.3物品推荐148
5.5推荐模型效果的评估152
5.5.1ALS模型评估152
5.5.2均方差154
5.5.3K值平均准确率156
5.5.4使用MLlib内置的评估函数159
5.6FP-Growth算法161
5.6.1FP-Growth的基本例子161
5.6.2FP-Growth在MovieLens数据集上的实践163
5.7小结164
第6章Spark构建分类模型165
6.1分类模型的种类167
6.1.1线性模型167
6.1.2朴素贝叶斯模型177
6.1.3决策树180
6.1.4树集成模型183
6.2从数据中抽取合适的特征188
6.3训练分类模型189
6.4使用分类模型190
6.4.1在Kaggle/StumbleUpon evergreen数据集上进行预测191
6.4.2评估分类模型的性能191
6.4.3预测的正确率和错误率191
6.4.4准确率和召回率193
6.4.5ROC曲线和AUC194
6.5改进模型性能以及参数调优196
6.5.1特征标准化197
6.5.2其他特征199
6.5.3使用正确的数据格式202
6.5.4模型参数调优203
6.6小结211
第7章Spark构建回归模型212
7.1回归模型的种类212
7.1.1最小二乘回归213
7.1.2决策树回归214
7.2评估回归模型的性能215
7.2.1均方误差和均方根误差215
7.2.2平均保证误差215
7.2.3均方根对数误差216
7.2.4R-平方系数216
7.3从数据中抽取合适的特征216
7.4回归模型的训练和应用220
7.4.1BikeSharingExecutor220
7.4.2在bike sharing数据集上训练回归模型221
7.4.3决策树集成229
7.5改进模型性能和参数调优235
7.5.1变换目标变量235
7.5.2模型参数调优242
7.6小结256
第8章Spark构建聚类模型257
8.1聚类模型的类型258
8.1.1K-均值聚类258
8.1.2混合模型262
8.1.3层次聚类262
8.2从数据中提取正确的特征262
8.3K-均值训练聚类模型265
8.3.1训练K-均值聚类模型266
8.3.2用聚类模型来预测267
8.3.3解读预测结果267
8.4评估聚类模型的性能271
8.4.1内部评估指标271
8.4.2外部评估指标272
8.4.3在MovieLens数据集上计算性能指标272
8.4.4迭代次数对WSSSE的影响272
8.5二分K-均值275
8.5.1二分K-均值——训练一个聚类模型276
8.5.2WSSSE和迭代次数280
8.6高斯混合模型283
8.6.1GMM聚类分析283
8.6.2可视化GMM类簇分布285
8.6.3迭代次数对类簇边界的影响286
8.7小结287
第9章Spark应用于数据降维288
9.1降维方法的种类289
9.1.1主成分分析289
9.1.2奇异值分解289
9.1.3和矩阵分解的关系290
9.1.4聚类作为降维的方法290
9.2从数据中抽取合适的特征291
9.3训练降维模型299
9.4使用降维模型302
9.4.1在LFW数据集上使用PCA投影数据302
9.4.2PCA和SVD模型的关系303
9.5评价降维模型304
9.6小结307
0章 Spark不错文本处理技术308
10.1文本数据处理的特别之处308
10.2从数据中抽取合适的特征309
10.2.1词加权表示309
10.2.2特征散列310
10.2.3从20 Newsgroups数据集中提取TF-IDF特征311
10.3使用TF-IDF 模型324
10.3.120 Newsgroups数据集的文本相似度和TF-IDF特征324
10.3.2基于20 Newsgroups数据集使用TF-IDF训练文本分类器326
10.4评估文本处理技术的作用328
10.5Spark 2.0上的文本分类329
10.6Word2Vec模型331
10.6.1借助Spark MLlib训练Word2Vec模型331
10.6.2借助Spark ML训练Word2Vec模型332
10.7小结334
1章 Spark Streaming实时机器学习335
11.1在线学习335
11.2流处理336
11.2.1Spark Streaming介绍337
11.2.2Spark Streaming缓存和容错机制339
11.3创建Spark Streaming应用340
11.3.1消息生成器341
11.3.2创建简单的流处理程序343
11.3.3流式分析346
11.3.4有状态的流计算348
11.4使用Spark Streaming进行在线学习349
11.4.1流回归350
11.4.2一个简单的流回归程序350
11.4.3流式K-均值354
11.5在线模型评估355
11.6结构化流358
11.7小结359
2章 Spark ML Pipeline API360
12.1Pipeline简介360
12.1.1DataFrame360
12.1.2Pipeline组件360
12.1.3转换器361
12.1.4评估器361
12.2Pipeline工作原理363
12.3Pipeline机器学习示例367
12.4小结375

查看全部评论>

服务体验

Spark机器学习(第2版)

新华书店正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

文轩网图书旗舰店

售后保障

最近浏览

猜你喜欢

服务体验

Spark机器学习(第2版)

新华书店正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

商品分类

计算机/网络排行榜

文轩网图书旗舰店

售后保障

最近浏览

猜你喜欢