由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
醉染图书数据挖掘导(英版·原书第2版)9787111637882
¥ ×1
章绪论1
1.1什么是数据挖掘4
1.2数据挖掘要解决的问题5
1.3数据挖掘的起源7
1.4数据挖掘任务9
1.5本书组织结构13
1.6文献注释15
1.7习题21
第2章数据
2.1数据类型26
2.1.1属与度量27
2.1.2数据集的类型34
2.2数据质量42
2.2.1测量和数据收集问题42
2.2.2关于应用的问题49
.数据预处理50
..1聚集51
..2抽样52
..维归约56
..4特征子集选择58
..5特征创建61
..离散化和二元化63
..变量变换69
2.4相似和异的度量71
2.4.1基础72
2.4.2简单属间的相似度和相异度74
2.4.3数据对象之间的相异度76
2.4.4数据对象之间的相似度78
2.4.5邻近度度量的例子79
2.4.6互信息88
2.4.7核函数90
2.4.8Bregman散度94
2.4.9邻近度计算问题96
2.4.10选择正确的邻近度度量98
2.5文献注释100
2.6习题105
第3章分类:基本概念和技术113
3.1基本概念114
3.2一般的分类框架117
3.3决策树分类器119
3.3.1构建决策树的基本算法121
3.3.2表示属测试条件的方法124
3.3.3选择属测试条件的方法127
3.3.4决策树归纳算法136
3.3.5示例:Web机器人检测138
3.3.6决策树分类器的特征140
3.4模型的过拟147
3.5模型选择156
3.5.1验集应用156
3.5.2模型复杂度合并157
3.5.3统计范围估计162
3.5.4决策树的模型选择162
3.6模型评估164
3.6.1保持方法165
3.6.2交叉验165
3.7超参数的使用168
3.7.1超参数选择168
3.7.2嵌套交叉验170
3.8模型选择和评估中的陷阱172
3.8.1训练集和测试集之间的重叠172
3.8.2使用验错误率作为泛化错误率
3.9模型比较173
3.9.1估计准确率的置信区间174
3.9.2比较两个模型的能175
3.10文献注释176
3.11习题185
第4章分类:技术193
4.1分类器的种类193
4.2基于规则的分类器195
4.2.1基于规则的分类器原理197
4.2.2规则集的属19
4..规则提取的直接方法199
4.2.4规则提取的间接方法204
4.2.5基于规则的分类器的特点206
4.3近邻分类器208
4.3.1算法209
4.3.2近邻分类器的特点210
4.4朴素贝叶斯分类器212
4.4.1概率论基础213
4.4.2朴素贝叶斯设28
4.5贝叶斯网络227
4.5.1图表示227
4.5.2推理与学习
4.5.3贝叶斯网络的特点242
4.6logistic回归243
4.6.1logistic回归用作广义线模型244
4.6.2学习模型参数245
4.6.3logistic回归模型的特点248
4.7人工神经网络249
4.7.1感知机250
4.7.2多层神经网络254
4.7.3人工神经网络的特点261
4.8深度学习262
4.8.1使用协同损失函数263
4.8.2使用响应激活函数266
4.8.3正则化268
4.8.4模型参数的初始化271
4.8.5深度学习的特点275
4.9支持向量机276
4.9.1分离超平面的边缘276
4.9.2线SVM278
4.9.3软边缘SVM284
4.9.4非线SVM290
4.9.5SVM的特点294
4.10组合方法296
4.10.1组合方法的基本原理297
4.10.2构建组合分类器的方法297
4.10.3偏置–方差分解300
4.10.4装袋302
4.10.5提升305
4.10.6随机森林310
4.10.7组合方法的实验比较312
4.11类不平衡问题313
4.11.1类不平衡的分类器构建314
4.11.2带类不平衡的能评估318
4.11.3寻找的评分阈值322
4.11.4综合评估能3
4.12多类问题330
4.13文献注释333
4.14习题345
第5章关联分析:基本概念和算法357
5.1预备知识358
5.2频繁项集的产生362
5.2.1先验原理363
5.2.2Apriori算法的频繁项集产生364
5..候选项集的产生与剪枝368
5.2.4支持度373
5.2.5计算复杂度377
5.3规则的产生380
5.3.1基于置信度的剪枝380
5.3.2Apriori算法中规则的产生381
5.3.3示例:美国国会投票记录382
5.4频繁项集的紧凑表示384
5.4.1极大频繁项集384
5.4.2闭项集386
5.5产生频繁项集的方法389
5.6FP增长算法393
5.6.1FP树表示法394
5.6.2FP增长算法的频繁项集产生397
5.7关联模式的评估401
5.7.1兴趣度的客观度量402
5.7.2多个二元变量的度量414
5.7.3辛普森悖论416
5.8倾斜支持度分布的影响418
5.9文献注释424
5.10习题438
第6章关联分析:不错概念451
6.1处理分类属451
6.2处理连续属454
6.2.1基于离散化的方法454
6.2.2基于统计学的方法458
6..非离散化方法460
6.3处理概念分层462
6.4序列模式464
6.4.1预备知识465
6.4.2序列模式发现468
6.4.3时限约束473
6.4.4可选方案477
6.5子图模式479
6.5.1预备知识480
6.5.2频繁子图挖掘483
6.5.3候选生成487
6.5.4候选剪枝493
6.5.5支持度493
6.6非频繁模式493
6.6.1负模式494
6.6.2负相关模式495
6.6.3非频繁模式、负模式和负相关模式比较496
6.6.4挖掘有趣的非频繁模式的技术498
6.6.5基于挖掘负模式的技术499
6.6.6基于支持度期望的技术501
6.7文献注释505
6.8习题510
第7章聚类分析:基本概念和算法525
7.1概述528
7.1.1什么是聚类分析528
7.1.2聚类的不同类型529
7.1.3簇的不同类型531
7.2K均值534
7.2.1K均值算法535
7.2.2K均值:附加的问题544
7..二分K均值547
7.2.4K均值和不同的簇类型548
7.2.5优点与缺点549
7.2.6K均值作为优化问题549
7.3凝聚层次聚类554
7.3.1基本凝聚层次聚类算法555
7.3.2特殊技术557
7.3.3簇邻近度的Lance-Williams公式562
7.3.4层次聚类的主要问题563
7.3.5离群点564
7.3.6优点与缺点565
7.4DBSCAN565
7.4.1传统的密度:基于中心的方法565
7.4.2DBSCAN算法567
7.4.3优点与缺点569
7.5簇评估571
7.5.1概述571
7.5.2无监督簇评估:使用凝聚度和分离度574
7.5.3无监督簇评估:使用邻近度矩阵582
7.5.4层次聚类的无监督评估585
7.5.5确定正确的簇个数587
7.5.6聚类趋势588
7.5.7簇有效的监督度量589
7.5.8评估簇有效度量的显著594
7.5.9簇有效度量的选择596
7.6文献注释597
7.7习题603
第8章聚类分析:问题与算法613
8.1数据、簇和聚类算法的特614
8.1.1示例:比较K均值和DBSCAN614
8.1.2数据特615
8.1.3簇特617
8.1.4聚类算法的一般特619
8.2基于原型的聚类621
8.2.1模糊聚类621
8.2.2使用混合模型的聚类627
8..自组织映637
8.3基于密度的聚类644
8.3.1基于网格的聚类644
8.3.2子空间聚类648
8.3.3DENCLUE:基于密度聚类的一种基于核的方案652
8.4基于图的聚类656
8.4.1稀疏化657
8.4.2生成树聚类658
8.4.3OPOSSUM:使用METIS的稀疏相似度划分659
8.4.4Chameleon:使用动态建模的层次聚类660
8.4.5谱聚类666
8.4.6共享近邻相似度673
8.4.7Jarvis-Patrick聚类算法676
8.4.8SNN密度678
8.4.9基于SNN密度的聚类679
8.5可伸缩的聚类算法681
8.5.1可伸缩:一般问题和方法681
8.5.2BIRCH684
8.5.3CURE686
8.6使用哪种聚类算法690
8.7文献注释693
8.8习题699
第9章异常检测703
9.1异常检测问题的特705
9.1.1异常的定义705
9.1.2数据的质706
9.1.3如何使用异常检测707
9.2异常检测方法的特70
9.3统计方法710
9.3.1使用参数模型710
9.3.2使用非参数模型714
9.3.3对正常类和异常类建模715
9.3.4评估统计意义717
9.3.5优点与缺点718
9.4基于邻近度的方法719
9.4.1基于距离的异常分数719
9.4.2基于密度的异常分数720
9.4.3基于相对密度的异常分数722
9.4.4优点与缺点7
9.5基于聚类的方法724
9.5.1发现异常簇724
9.5.2发现异常实例725
9.5.3优点与缺点728
9.6基于重构的方法728
9.7单类分类732
9.7.1核函数的使用733
9.7.2原点技巧734
9.7.3优点与缺点738
9.8信息论方法738
9.9异常检测评估740
9.10文献注释742
9.11习题749
0章避免错误发现755
10.1预备知识:统计检验756
10.1.1显著检验756
10.1.2设检验761
10.1.3多重设检验767
10.1.4统计检验中的陷阱776
10.2对零分布和替代分布建模778
10.2.1生成合成数据集781
10.2.2随机化类标782
10..实例重采样782
10.2.4对检验统计量的分布建模783
10.3分类问题的统计检验783
10.3.1评估分类能73
10.3.2以多重设检验处理二分类问题785
10.3.3模型选择中的多重设检验786
10.4关联分析的统计检验787
10.4.1使用统计模型788
10.4.2使用随机化方法794
10.5聚类分析的统计检验795
10.5.1为内部指标生成零分布796
10.5.2为外部指标生成零分布798
10.5.3富集798
10.6异常检测的统计检验800
10.7文献注释803
10.8习题808
陈封能,密歇根州立大学计算机科学与工程系教授,主要研究方向是数据挖掘、数据库系统、网络空间安、络分析等。
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格