由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
全新正版大数据分析与计算9787302485865清华大学出版社
¥ ×1
?目录
?
章绪论
?
1.1数据与数据科学
?
1.2大数据概念
?
1.3大数据技术特征
?
参考文献
?
习题
?
第2章大数据计算体系
?
2.1大数据计算架构
?
2.2数据存储系统
?
2.2.1数据清洗与建模
?
2.2.2分布式文件系统
?
2..NoSL数据库
?
2.2.4统一数据访问接口
?
.数据处理平台
?
..1数据分析算法
?
..2计算处理模型
?
..计算平台与引擎
?
2.4数据应用系统
?
2.4.1大数据应用领域
?
2.4.2大数据解决方案
?
参考文献
?
习题
?
第3章大数据标准与模式
?
3.1大数据标准体系
?
3.2大数据计算模式
?
参考文献
?
习题
?
第4章数据采集方法
?
4.1系统日志采集
?
4.1.1日志采集的目的
?
4.1.2日志采集过程
?
4.2网络数据采集
?
4.2.1网络爬虫工作原理
?
4.2.2网页搜索策略
?
4..网页分析算法
?
4.2.4网络爬虫框架
?
4.3数据采集接口
?
参考文献
?
习题
?
?
?
?
?
?
?
?
第5章数据清洗与规约方法
?
5.1数据预处理研究现状
?
5.1.1数据清洗的研究现状
?
5.1.2数据规约的研究现状
?
5.2数据质量问题分类
?
5.2.1单数据源的问题
?
5.2.2多数据源的问题
?
5.3数据清洗技术
?
5.3.1重复记录清洗
?
5.3.2消除噪声数据
?
5.3.3缺失值清洗
?
5.4数据归约
?
5.4.1维归约
?
5.4.2属选择
?
5.4.3离散化方法
?
5.5数据清洗工具
?
参考文献
?
习题
?
第6章数据分析算法
?
6.1C4.5算法
?
6.1.1算法描述
?
6.1.2属选择度量
?
6.1.3特征
?
6.2k均值算法
?
6.3支持向量机
?
6.4Apriori算法
?
6.5EM算法
?
6.5.1案例: 估计k个高斯分布的均值
?
6.5.2EM算法步骤
?
6.6PageRank算法
?
6.6.1PageRank的核心思想
?
6.6.2PageRank的计算过程
?
6.7AdaBoost算法
?
6.7.1Boosting算法的发展历史
?
6.7.2AdaBoost算法及其分析
?
6.8k邻近算法
?
6.9朴素贝叶斯
?
6.9.1朴素贝叶斯分类器
?
6.9.2贝叶斯网络
?
6.10分类回归树算法
?
6.10.1建立回归树
?
6.10.2剪枝过程
?
参考文献
?
习题
?
第7章文本读写技术
?
7.1读取文本文件
?
7.1.1读取txt文件
?
7.1.2读取csv文件
?
7.2写入文本文件
?
7.3处理二进制数据
?
7.4数据库的使用
?
7.4.1数据库的连接
?
7.4.2执行SL语句
?
7.4.3选择和打印
?
7.4.4动态插入
?
7.4.5update作
参考文献
?
习题
?
第8章数据处理技术
?
8.1合并数据集
?
8.1.1索引上的合并
?
8.1.2轴向连接
?
8.1.3合并重叠数据
?
8.2数据转换
?
8.2.1移除重复数据
?
8.2.2利用函数进行数据转换
?
8..替换值
?
8.2.4重命名轴索引
?
8.2.5离散化数据
?
8.2.6检测异常值
?
8.2.7排列和随机采样
?
8.2.8哑变量
?
8.3字符串作
8.3.1内置字符串方法
?
8.3.2正则表达式
?
8.3.3Pandas中矢量化的字符串函数
?
参考文献
?
习题
?
第9章数据分析技术
?
9.1NumPy工具包
?
9.1.1创建数组
?
9.1.2打印数组
?
9.1.3基本运算
?
9.1.4索引、切片和迭代
?
9.1.5形状作
9.1.6复制和视图
?
9.1.7NumPy实用技巧
?
9.2Pandas工具包
?
9.2.1Series
?
9.2.2DataFrame
?
9.3ScikitLearn工具包
?
9.3.1逻辑回归
?
9.3.2朴素贝叶斯
?
9.3.3k邻
?
9.3.4决策树
?
9.3.5支持向量机
?
9.3.6优化算法参数
?
参考文献
?
习题
?
0章数据可视化技术
?
10.1Matplotlib绘图
?
10.1.1Matplotlib API入门
?
10.1.2Figure和Subplot的画图方法
?
10.1.3调整Subplot周围的间距
?
10.1.4颜色、标记和线型的设置
?
10.1.5刻度、标签和图例
?
10.2Mayavi2绘图
?
10.2.1使用mlab快速绘图
?
10.2.2Mayavi嵌入到界面中
?
10.3图形化工具
?
参考文献
?
习题
?
1章Hadoop生态系统
?
11.1Hadoop系统架构
?
11.2HDFS分布式文件系统
?
11.2.1HDFS体系结构
?
11.2.2HDFS存储结构
?
11..数据容错与恢复
?
11.2.4Hadoop/HDFS安装
?
11.3分布式存储架构
?
11.3.1HBase系统架构
?
11.3.2数据模型与存储模式
?
11.3.3HBase数据读写
?
11.3.4数据仓库工具Hive
?
11.3.5HBase安装与配置
?
11.4HBase索引与检索
?
11.4.1二次索引表机制
?
11.4.2二次索引技术方案
?
11.5资源管理与作业调度
?
11.5.1分布式协同管理组件ZooKeeper
?
11.5.2作业调度与工作流引擎Oozie
?
11.5.3集群资源管理框架YARN
?
参考文献
?
习题
?
2章MapReduce计算模型
?
12.1分布式并行计算系统
?
12.2MapReduce计算架构
?
1.键值对与输入格式
?
12.4映与化简
?
12.5应用编程接口
?
参考文献
?
习题
?
3章图并行计算框架
?
13.1图基本概念
?
13.2BSP模型
?
13.3Pregel图计算引擎
?
13.4Hama开源框架
?
13.5应用编程接口
?
参考文献
?
习题
?
4章交互式计算模式
?
14.1数据模型
?
14.2存储结构
?
14.3并行查询
?
14.4开源实现
?
参考文献
?
习题
?
5章流计算系统
?
15.1流计算模型
?
15.2Storm计算架构
?
15.3工作机制实现
?
15.4Storm编程接口
?
参考文献
?
习题
?
6章内存计算模式
?
16.1分布式缓存体系
?
16.2内存数据库
?
16.3内存云MemCloud
?
16.4Spark内存计算
?
参考文献
?
习题
?
7章基于医疗数据的临床决策分析应用
?
17.1国内外研究现状及发展动态分析
?
17.2技术路线和方案
?
参考文献
?
习题
?
8章基于医保数据的预测分析应用
?
18.1数据准备阶段
?
18.2模型变量选择和转换
?
18.2.1模型变量的选择
?
18.2.2模型变量的转换
?
18..筛选模型变量
?
18.3建模过程
?
18.4模型效果
?
参考文献
?
习题
?
9章互联网电商数据的分析应用
?
19.1电商流程管理分析
?
19.1.1行业背景与业务问题
?
19.1.2分析方法与过程
?
19.2用户消费行为分析
?
19.2.1业务问题
?
19.2.2分析方法与过程
?
19.3送货速度相关分析
?
19.3.1业务问题
?
19.3.2分析方法与过程
?
19.4总结
?
参考文献
?
习题
?
第20章金融和经济数据的分析应用
?
20.1企业对创新经济活动推动的影响分析
?
20.1.1案例背景
?
20.1.2分析方法与过程
?
20.2信贷风险模型评估
?
20.3中小能源型企业的信用评价分析
?
20.3.1案例背景
?
20.3.2分析方法与过程
?
20.3.3分析结果
?
参考文献
?
习题
?
汤羽,博士/教授,上海交通大学工学学士,重庆大学工学硕士,美国Bowie State University计算机科学硕士,美国The George Washington University计算机科学博士。
大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是*的前沿领域,其中,大数据计算分析提供了核心的技术支撑。本书从大数据计算系统的三个层次对数据模型、处理算法、计算模型与架构、开发技术标准等内容进行了综合的介绍,重点阐述了各类数据分析算法和MapReduce,图并行计算,交互式处理,流计算,内存计算等计算架构。本书适合作为数据科学与大数据计算技术、计算机科学与技术、互联网应用系统、物联网工程等专业相关课程的教材。
1)对大数据计算的标准、模型、计算架构、开发技术体系做了一个较完整的论述和总结,适宜于作为计算机和软件工程专业课程或课程的教材; 2)本书也对大数据计算架构和开发平台及技术进行了论述,给出了相关领域的工程案例,也可作为IT技术人士的专业参考书。
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格