IBM SPSS Modeler 18.0数据挖掘权威指南
作 者:张浩彬,周伟珠 著
定 价:108
出 版 社:人民邮电出版社
出版日期:2019年04月01日
页 数:456
装 帧:平装
ISBN:9787115507594
联袂推荐
暨南大学教授、博士生导师刘建平,暨南大学研究生院副院长、经济学院统计学系副主任、教授、博士生导师陈光慧,天善智能创始人梁勇,IBM技术专家刘咏梅,IBM数据科学家钟云飞,广东省环保厅环境咨询专家委员会专家、广东柯内特环境科技有限公司总经理朱斌
本书特色
内容全面:涉及数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署、性能优化、数据挖掘方法论等诸多内容;
讲解透彻:既有理论的讲解,又涵盖应用的实践,而且在工具的介绍上,尽可能包括每一个选项的内容和应用形式,力求让读者“吃透”每一章节的内容;
突出实战:集行业经验、项目实践、算法剖析、应用技巧于一身,配套提供数据文件以及数据模型文件,方便读者动手实践。
本书是一本以数据挖掘应用为,以SPSS Modeler为实践框架的应用指南,内容涵盖数据挖掘方法论、数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署以及性能优化等,力求帮助读者全面掌握数据挖掘项目的主要内容以及实践细节。
除了操作层面,本书也尽可能地把专业晦涩的数据挖掘知识及商业应用内容以通俗易懂的方式传递给读者,同时所有场景会结合IBM SPSS工具进行实现并提供样例学习,方便读者在学习的同时加深巩固和理解。
如果你是在校学生、刚刚从事数据分析的大学毕业生、数据分析爱好者、市场营销人员、产品运营人员或者数据分析师,如果你希望提升自己的数据挖掘技术,那么就适合阅读本书。
张浩彬,
人称“浩彬老撕”,历任IBM华南区SPSS分析工程师,IBM大中华区认知解决方案专家,现任广东柯内特环境科技有限公司数据科学家。多年来一直从事数据分析、数据挖掘的商业应用项目,专注于人工智能的商业化技术应用,曾与人合著《数据实践之美》,独自创作《小白学数据挖掘与机器学习:SPSS Modeler案例篇》。个人微信公众号:探数寻理(wetalkdata),致力于机器学习及应用技术分享。
周伟珠,
曾在IBM华南区大数据分析部门担任售前咨询顾问,专门负责SPSS产品的推广、培训及方案咨询,熟悉SPSS Modeler、SPSS Statistics和SPSS Cooperations and deployment services产品的使用及应用场景,现任汇丰银行数据分析师。热爱写作,曾为IBM大数据技术团队微信公众号原创30多篇文章,与广大客户朋友分享SPSS数据挖掘技术及应用,null
无
章 IBM SPSS Modeler基本介绍 1
1.1 SPSS简介 1
1.2 SPSS Modeler的特点 1
1.3 CRISP-DM方法论 4
1.4 SPSS Modeler 下载与安装 6
1.5 SPSS Modeler的主界面及基本操作 9
1.5.1 主界面介绍 9
1.5.2 鼠标基本操作 15
1.6 SPSS Modeler连接服务器端 15
1.7 从SPSS Modeler中获取帮助 17
1.8 实战技巧 20
第2章 数据读取——源节点 24
2.1 数据的身份(存储类型、测量级别和角色) 24
2.1.1 变量的存储类型 24
2.1.2 变量的测量级别 25
2.1.3 变量的角色 26
2.2 数据读取 26
2.2.1 读取Excel文件数据 27
2.2.2 读取变量文件数据 30
2.2.3 读取SPSS(.sav)文件数据 32
2.2.4 读取数据库数据 36
2.3 实战技巧 40
第3章 数据整理——关于数据的基本设定与集成 43
3.1 字段的“类型”功能 43
3.2 字段的“过滤器”功能 44
3.3 数据集成 46
3.3.1 数据的记录集成:追加节点 46
3.3.2 数据的字段集成:合并节点 49
3.4 实战技巧 51
第4章 数据整理——关于行的处理 53
4.1 数据“选择”功能 53
4.1.1 功能介绍 53
4.1.2 实战技巧 55
4.2 使用参数及全局变量实现数据选择功能 56
4.2.1 参数功能 56
4.2.2 使用参数实例介绍 57
4.2.3 使用全局变量功能介绍 59
4.2.4 使用全局变量实例介绍 59
4.3 数据排序 62
4.4 数据区分 63
4.5 数据汇总 68
4.5.1 功能介绍 68
4.5.2 实战技巧 72
第5章 数据整理——关于列的处理 73
5.1 导出 73
5.1.1 功能介绍 73
5.1.2 实例介绍 81
5.2 填充 84
5.3 重新分类 86
5.4 匿名化 89
5.5 分级化 92
5.6 设为标志 100
5.6.1 功能介绍 100
5.6.2 实例介绍 100
5.7 重建 103
5.7.1 功能介绍 103
5.7.2 实例介绍 104
5.8 转置 107
5.8.1 功能介绍 107
5.8.2 实例介绍 107
5.9 历史记录 109
5.9.1 功能介绍 109
5.9.2 实例介绍 109
5.10 字段重排 113
5.11 时间间隔 116
5.11.1 功能介绍 116
5.11.2 实例介绍 116
5.12 自动数据准备 121
第6章 图形可视化——图形节点 128
6.1 “散点图”节点 128
6.1.1 散点图 128
6.1.2 线图 139
6.1.3 多重散点图 142
6.1.4 时间散点图 143
6.2 “条形图”节点 145
6.2.1 简单条形图 145
6.2.2 堆积条形图 147
6.3 “直方图”节点 148
6.3.1 直方图 148
6.3.2 堆积直方图 149
6.4 “网络”节点 151
6.5 “图形板”节点 154
6.5.1 气泡图 155
6.5.2 散点图矩阵 156
6.5.3 箱图 157
6.5.4 聚类箱图 159
6.5.5 热图 161
6.6 实战技巧:图形的编辑模式 162
第7章 描述性统计分析 164
7.1 描述性统计分析概述 164
7.2 数据审核,一键输出描述性统计分析结果169
7.3 缺失值的定义、检查和处理 173
7.3.1 缺失值的定义和检查 173
7.3.2 缺失值的自动化处理 177
7.4 实战技巧 182
第8章 常用的统计检验分析 184
8.1 两个连续型变量的关系分析——相关分析 184
8.1.1 相关分析 184
8.1.2 相关分析实践——“Statistics”节点 185
8.2 两个分类型变量的关系分析——卡方检验 187
8.2.1 列联表与卡方检验 188
8.2.2 卡方检验实践——“矩阵”节点 190
8.3 连续型变量与分类型变量间的关系分析——t检验及卡方分析 193
8.3.1 两组独立样本均值比较 193
8.3.2 两组配对样本均值比较 194
8.3.3 方差分析 194
8.3.4 均值比较实践——“平均值”节点 195
8.4 实战技巧:相关分析的注意事项 199
第9章 回归分析 200
9.1 一元线性回归分析 200
9.2 一元线性回归实践 203
9.3 多元线性回归分析 206
9.4 多元线性回归实践 210
9.5 逐步回归分析 216
9.6 逐步回归实践 218
9.7 实战技巧 220
0章 Logistic回归分析 222
10.1 Logistic回归理论概要 222
10.2 Logistic回归中的检验 225
10.2.1 方程的显著性检验 225
10.2.2 系数显著性检验 225
10.2.3 拟合优度检验 227
10.3 Logistic回归实践案例 228
10.4 实战技巧 237
1章 建模前的优化及准备工作 241
11.1 样本管理与分区 241
11.1.1 数据抽样 241
11.1.2 数据分区 244
11.1.3 数据平衡 245
11.2 特征选择 247
11.3 数据变换 253
11.4 实战技巧:分区与平衡的顺序 255
2章 RFM分析 257
3章 决策树 264
13.1 决策树概述 264
13.1.1 决策树的直观理解 264
13.1.2 决策树的生长 265
13.1.3 决策树的剪枝 266
13.2 C5.0算法 267
13.2.1 C5.0算法的决策树生长 267
13.2.2 C5.0算法的决策树剪枝 270
13.2.3 代价敏感学习 270
13.2.4 C5.0算法实践案例 271
13.3 CART算法 277
13.3.1 CART算法的决策树生长 277
13.3.2 CART算法的决策树剪枝 279
13.3.3 先验概率 280
13.3.4 CART算法实践案例 281
13.4 实战技巧 287
13.4.1 生成规则集 287
13.4.2 跟踪规则 289
4章 神经网络 291
14.1 感知机 292
14.2 多层感知机与误差反向传播算法 295
14.2.1 隐藏层 295
14.2.2 反向传播算法 296
14.3 神经网络实践 299
14.4 实战技巧:生成“报告” 305
5章 集成学习算法 311
15.1 Bagging 311
15.2 Boosting 312
15.3 随机森林 314
15.4 集成学习算法实践 314
15.4.1 Bagging和Boosting实践 315
15.4.2 随机森林实践 320
15.4.3 各个集成学习算法的结果比较 324
15.5 异质集成——“整体”节点 325
6章 聚类分析 330
16.1 聚类方法概述 330
16.2 聚类方法的关键:距离 330
16.3 K-means算法 331
16.3.1 K-means算法原理 331
16.3.2 K-means的其他注意事项 332
16.4 K-means聚类实践 335
16.5 实践技巧:使用平行图进行比较分析 341
7章 KNN分类器 343
17.1 KNN学习方法原理 343
17.2 KNN分类实践 345
17.2.1 分类预测 346
17.2.2 最近邻识别 353
8章 关联分析 356
18.1 关联分析的基本概念 356
18.2 关联规则的有效性指标 357
18.2.1 关联规则的基础评价性指标 358
18.2.2 关联规则的实用性指标 359
18.2.3 其他的关联规则评估指标 360
18.3 Apriori算法 361
18.3.1 生成频繁项集 361
18.3.2 生成关联规则 362
18.4 Apriori关联分析实践 363
18.5 实战技巧:导出生成的关联规则 367
9章 自动建模 368
19.1 自动分类 368
19.1.1 功能介绍 368
19.1.2 实例介绍 368
19.2 自动聚类 375
19.2.1 功能介绍 375
19.2.2 实例介绍 376
19.3 自动数值 381
19.3.1 功能介绍 381
19.3.2 实例介绍 381
第20章 蒙特卡罗模拟法 386
20.1 模拟生成 386
20.1.1 功能介绍 386
20.1.2 实例介绍 389
20.2 模拟拟合 393
20.2.1 功能介绍 393
20.2.2 实例介绍 394
20.3 模拟求值 396
20.3.1 功能介绍 396
20.3.2 实例介绍 396
第21章 SPSS Modeler的集成与扩展 404
21.1 SPSS Modeler与R、Python集成 404
21.1.1 概述 404
21.1.2 SPSS Modeler与R的集成环境准备 404
21.1.3 与R的集成功能介绍 407
21.1.4 实例介绍 408
21.2 定制对话框实现与R、Python的集成 416
21.2.1 定制对话框简介 416
21.2.2 安装配置自定义节点 422
21.3 SPSS Modeler扩展功能 422
21.3.1 功能介绍 422
21.3.2 获取天气数据的应用分析案例 425
第22章 SPSS Modeler模型部署 434
22.1 产品架构 434
22.2 通过批处理任务定时运行模型 435
22.2.1 功能介绍 435
22.2.2 实例介绍 436
22.3 SPSS Modeler服务器安装及管理(For Linux) 438
22.3.1 正常维护SPSS Modeler服务器 438
22.3.2 SPSS Modeler 服务器如何在Linux上安装及配置 439
22.3.3 配置ODBC连接数据库 440
22.4 SPSS Modeler官方支持的数据库和Hadoop平台 443
第23章 性能优化 448
23.1 功能介绍 448
23.2 客户端SQL性能优化 451
23.3 数据库内建模 453
23.3.1 功能介绍 453
23.3.2 实例介绍 453
23.4 使用外部程序批量加载 456