返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • [正版] 大数据分析与计算 汤羽 林迪 范爱华 吴薇薇 清华大学出版社 9787302485865
  • 新商品上架
    • 作者: 汤羽、林迪、范爱华、吴薇薇著
    • 出版社: 清华大学出版社
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    句字图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: 汤羽、林迪、范爱华、吴薇薇著
    • 出版社:清华大学出版社
    • 开本:16开
    • ISBN:9783831257998
    • 版权提供:清华大学出版社

    满39包邮
    全国包邮
    2018-05-24 18:24:00 - 2019-03-31 18:24:00 截止
    下单满就减,赶快购买吧!
    单笔订单满39包邮( 包邮地区:辽宁、吉林、黑龙江、北京、天津、河北、山西、山东、上海、江苏、安徽、浙江、江西、湖北、湖南、河南、广东、福建、陕西 )

     书名: 大数据分析与计算
     出版社:  清华大学出版社
     出版日期:  2018
     ISBN号: 9787302485865
    大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是最新的前沿领域,其中,大数据计算分析提供了核心的技术支撑。本书从大数据计算系统的三个层次对数据模型、处理算法、计算模型与架构、开发技术标准等内容进行了综合性的介绍,重点阐述了各类数据分析算法和MapReduce,图并行计算,交互式处理,流计算,内存计算等计算架构。本书适合作为数据科学与大数据计算技术、计算机科学与技术、互联网应用系统、物联网工程等专业相关课程的教材。

    1)对大数据计算的标准、模型、计算架构、开发技术体系做了一个较完整的论述和总结,适宜于作为计算机和软件工程专业高年级课程或研究生课程的教材; 2)本书也对大数据计算架构和开发平台及技术进行了论述,给出了相关领域的工程案例,也可作为IT技术人士的专业参考书。

    目录

     

    第1章绪论

     

    1.1数据与数据科学

     

    1.2大数据概念

     

    1.3大数据技术特征

     

    参考文献

     

    习题

     

    第2章大数据计算体系

     

    2.1大数据计算架构

     

    2.2数据存储系统

     

    2.2.1数据清洗与建模

     

    2.2.2分布式文件系统

     

    2.2.3NoSQL数据库

     

    2.2.4统一数据访问接口

     

    2.3数据处理平台

     

    2.3.1数据分析算法

     

    2.3.2计算处理模型

     

    2.3.3计算平台与引擎

     

    2.4数据应用系统

     

    2.4.1大数据应用领域

     

    2.4.2大数据解决方案

     

    参考文献

     

    习题

     

    第3章大数据标准与模式

     

    3.1大数据标准体系

     

    3.2大数据计算模式

     

    参考文献

     

    习题

     

    第4章数据采集方法

     

    4.1系统日志采集

     

    4.1.1日志采集的目的

     

    4.1.2日志采集过程

     

    4.2网络数据采集

     

    4.2.1网络爬虫工作原理

     

    4.2.2网页搜索策略

     

    4.2.3网页分析算法

     

    4.2.4网络爬虫框架

     

    4.3数据采集接口

     

    参考文献

     

    习题

     

     

     

     

     

     

     

     

    第5章数据清洗与规约方法

     

    5.1数据预处理研究现状

     

    5.1.1数据清洗的研究现状

     

    5.1.2数据规约的研究现状

     

    5.2数据质量问题分类

     

    5.2.1单数据源的问题

     

    5.2.2多数据源的问题

     

    5.3数据清洗技术

     

    5.3.1重复记录清洗

     

    5.3.2消除噪声数据

     

    5.3.3缺失值清洗

     

    5.4数据归约

     

    5.4.1维归约

     

    5.4.2属性选择

     

    5.4.3离散化方法

     

    5.5数据清洗工具

     

    参考文献

     

    习题

     

    第6章数据分析算法

     

    6.1C4.5算法

     

    6.1.1算法描述

     

    6.1.2属性选择度量

     

    6.1.3其他特征

     

    6.2k均值算法

     

    6.3支持向量机

     

    6.4Apriori算法

     

    6.5EM算法

     

    6.5.1案例: 估计k个高斯分布的均值

     

    6.5.2EM算法步骤

     

    6.6PageRank算法

     

    6.6.1PageRank的核心思想

     

    6.6.2PageRank的计算过程

     

    6.7AdaBoost算法

     

    6.7.1Boosting算法的发展历史

     

    6.7.2AdaBoost算法及其分析

     

    6.8k邻近算法

     

    6.9朴素贝叶斯

     

    6.9.1朴素贝叶斯分类器

     

    6.9.2贝叶斯网络

     

    6.10分类回归树算法

     

    6.10.1建立回归树

     

    6.10.2剪枝过程

     

    参考文献

     

    习题

     

    第7章文本读写技术

     

    7.1读取文本文件

     

    7.1.1读取txt文件

     

    7.1.2读取csv文件

     

    7.2写入文本文件

     

    7.3处理二进制数据

     

    7.4数据库的使用

     

    7.4.1数据库的连接

     

    7.4.2执行SQL语句

     

    7.4.3选择和打印

     

    7.4.4动态插入

     

    7.4.5update操作

     

    参考文献

     

    习题

     

    第8章数据处理技术

     

    8.1合并数据集

     

    8.1.1索引上的合并

     

    8.1.2轴向连接

     

    8.1.3合并重叠数据

     

    8.2数据转换

     

    8.2.1移除重复数据

     

    8.2.2利用函数进行数据转换

     

    8.2.3替换值

     

    8.2.4重命名轴索引

     

    8.2.5离散化数据

     

    8.2.6检测异常值

     

    8.2.7排列和随机采样

     

    8.2.8哑变量

     

    8.3字符串操作

     

    8.3.1内置字符串方法

     

    8.3.2正则表达式

     

    8.3.3Pandas中矢量化的字符串函数

     

    参考文献

     

    习题

     

    第9章数据分析技术

     

    9.1NumPy工具包

     

    9.1.1创建数组

     

    9.1.2打印数组

     

    9.1.3基本运算

     

    9.1.4索引、切片和迭代

     

    9.1.5形状操作

     

    9.1.6复制和视图

     

    9.1.7NumPy实用技巧

     

    9.2Pandas工具包

     

    9.2.1Series

     

    9.2.2DataFrame

     

    9.3ScikitLearn工具包

     

    9.3.1逻辑回归

     

    9.3.2朴素贝叶斯

     

    9.3.3k最近邻

     

    9.3.4决策树

     

    9.3.5支持向量机

     

    9.3.6优化算法参数

     

    参考文献

     

    习题

     

    第10章数据可视化技术

     

    10.1Matplotlib绘图

     

    10.1.1Matplotlib API入门

     

    10.1.2Figure和Subplot的画图方法

     

    10.1.3调整Subplot周围的间距

     

    10.1.4颜色、标记和线型的设置

     

    10.1.5刻度、标签和图例

     

    10.2Mayavi2绘图

     

    10.2.1使用mlab快速绘图

     

    10.2.2Mayavi嵌入到界面中

     

    10.3其他图形化工具

     

    参考文献

     

    习题

     

    第11章Hadoop生态系统

     

    11.1Hadoop系统架构

     

    11.2HDFS分布式文件系统

     

    11.2.1HDFS体系结构

     

    11.2.2HDFS存储结构

     

    11.2.3数据容错与恢复

     

    11.2.4Hadoop/HDFS安装

     

    11.3分布式存储架构

     

    11.3.1HBase系统架构

     

    11.3.2数据模型与存储模式

     

    11.3.3HBase数据读写

     

    11.3.4数据仓库工具Hive

     

    11.3.5HBase安装与配置

     

    11.4HBase索引与检索

     

    11.4.1二次索引表机制

     

    11.4.2二次索引技术方案

     

    11.5资源管理与作业调度

     

    11.5.1分布式协同管理组件ZooKeeper

     

    11.5.2作业调度与工作流引擎Oozie

     

    11.5.3集群资源管理框架YARN

     

    参考文献

     

    习题

     

    第12章MapReduce计算模型

     

    12.1分布式并行计算系统

     

    12.2MapReduce计算架构

     

    12.3键值对与输入格式

     

    12.4映射与化简

     

    12.5应用编程接口

     

    参考文献

     

    习题

     

    第13章图并行计算框架

     

    13.1图基本概念

     

    13.2BSP模型

     

    13.3Pregel图计算引擎

     

    13.4Hama开源框架

     

    13.5应用编程接口

     

    参考文献

     

    习题

     

    第14章交互式计算模式

     

    14.1数据模型

     

    14.2存储结构

     

    14.3并行查询

     

    14.4开源实现

     

    参考文献

     

    习题

     

    第15章流计算系统

     

    15.1流计算模型

     

    15.2Storm计算架构

     

    15.3工作机制实现

     

    15.4Storm编程接口

     

    参考文献

     

    习题

     

    第16章内存计算模式

     

    16.1分布式缓存体系

     

    16.2内存数据库

     

    16.3内存云MemCloud

     

    16.4Spark内存计算

     

    参考文献

     

    习题

     

    第17章基于医疗数据的临床决策分析应用

     

    17.1国内外研究现状及发展动态分析

     

    17.2技术路线和方案

     

    参考文献

     

    习题

     

    第18章基于医保数据的预测分析应用

     

    18.1数据准备阶段

     

    18.2模型变量选择和转换

     

    18.2.1模型变量的选择

     

    18.2.2模型变量的转换

     

    18.2.3筛选模型变量

     

    18.3建模过程

     

    18.4模型效果

     

    参考文献

     

    习题

     

    第19章互联网电商数据的分析应用

     

    19.1电商流程管理分析

     

    19.1.1行业背景与业务问题

     

    19.1.2分析方法与过程

     

    19.2用户消费行为分析

     

    19.2.1业务问题

     

    19.2.2分析方法与过程

     

    19.3送货速度相关性分析

     

    19.3.1业务问题

     

    19.3.2分析方法与过程

     

    19.4总结

     

    参考文献

     

    习题

     

    第20章金融和经济数据的分析应用

     

    20.1企业对创新经济活动推动的影响分析

     

    20.1.1案例背景

     

    20.1.2分析方法与过程

     

    20.2信贷风险模型评估

     

    20.3中小能源型企业的信用评价分析

     

    20.3.1案例背景

     

    20.3.2分析方法与过程

     

    20.3.3分析结果

     

    参考文献

     

    习题

    第3章大数据标准与模式

     

    3.1大数据标准体系

    近年来随着大数据计算的兴起,国际标准化组织ISO/IEC、国际电信联盟ITU、美国国家技术标准研究院NIST和我国工信部、全国信息技术标准化技术委员会均开展了大数据计算标准的研究。ISO/IEC JCT1 S32(ISO/IEC联合技术委员会第32“数据管理与交换”分委员会)[1]是一个致力于研制信息系统环境及之间的数据管理和交换标准、为跨行业领域协调数据管理提供技术性支持的国际组织。其主要工作内容包括: 协调现有和新生数据标准化领域的参考模型和框架; 负责数据域、数据类型和数据结构及相关的语义; 负责用于持久存储、并发访问、并发更新和数据交换的语言、服务和协议等标准; 负责用于构造、组织和注册元数据及共享和互操作相关的其他信息资源(电子商务等)的方法、语言服务和协议的制定。SC32目前下设4个工作组和几个研究组,其主要工作范围如下。

    1. WG1(Work Group 1): 电子业务

    工作范围为研制各组织使用的信息系统间全球互操作所需的开放电子数据交换方面的通用IT标准,包括商务和信息技术两方面的互操作标准。

    2. WG2(Work Group 2): 元数据

    工作范围为研制、开发和维护有利于规范和管理元数据、元模型和本体的标准,此类标准有助于理解和共享数据、信息过程、互操作性、电子商务以及基于模型和基于服务的开发,包括: 建议用于规定和管理元数据、元模型和本体的框架; 规定和管理元数据、元模型和本体; 规定和管理过程、服务和行数据; 开发管理元数据、元模型和本体的机制,包括注册和存储; 开发交换元数据、元模型和本体的机制,包括基于互联网、局域网等的语义等。

    3. WG3(Work Group 3): 数据库语言

    工作范围为动态规定、维护和描述多用户环境中的数据库结构和组件制定和维护语言标准; 通过规定事务的提交、恢复和安全机制提供额外的对数据库管理系统完整性的支持; 为存储、访问和处理多并发用户数据库制定和维护语言标准; 为其他标准编程语言提供开发接口; 为描述数据类型和行为的其他标准提供访问接口或为应用开发提供数据库组件。

     

    4. WG4(Work Group 4): SQL多媒体和应用包

    工作范围为规定各种应用领域使用的抽象数据类型的定义。抽象数据类型定义是使用数据库语言SQL标准中提供的用户定义类型机制来规定的,包括全文、空间、静态图像、静态图形、动画、视频、音频、地震和音乐等数据包。为应用API需求进行数据管理,其他数据包使用SQL机制的定义,而不是用户自定义类型。

    2012年,SC32在柏林全会上决定成立下一代分析和大数据研究组(SG Next Generation Analytics and Big Data),该研究组主要的研究内容为下一代数据分析、社会分析和底层技术领域中潜在的标准化需求。SC32其他的研究组还包括云计算元数据研究组(SG Metadata for Cloud Computing)和基于事实基础的建模元模型研究组(SG Metamodel for Fact Based Modelling)。

    2013年11月,ISO/IEC JTC1新成立了负责大数据国际标准化的研究小组ISO/IEC JTC1 SG2,由美国国家标准与技术研究院(NIST)专家Wo Chang担任召集人[2]。2014年,ISO/IEC JTC1 SG2的工作重点包括: 调研ISO/IEC JTC1在大数据领域的关键技术、参考模型以及用例等标准基础; 确定大数据领域应用需要的术语与定义; 评估分析当前大数据标准的具体需求,提出ISO/IEC JTC1大数据标准优先顺序; 向2014年ISO/IEC JTC1全会提交大数据建议的技术报告和其他研究成果。2014年,根据ISO/IEC JCT1 SG2的建议新成立了负责大数据国际标准化的大数据工作组(IS0/IEC JTC1 WG9)。

    ITU在2013年11月发布了题目为“大数据: 今天巨大,明天平常”的技术观察报告[11],这个技术观察报告分析了大数据相关的应用实例,指出大数据的基本特征、促进大数据发展的技术,在报告的最后部分分析了大数据面临的挑战和ITUT可能开展的标准化工作。在这份报告中,特别提及了NIST和JTC1/SC32正在开展的工作。从ITUT的角度来看,大数据发展面临的最大挑战包括数据保护、隐私和网络安全、法律和法规的完善。根据ITUT现有的工作基础,开展的标准化工作包括: 高吞吐量、低延迟、安全、灵活和规模化的网络基础设施; 汇聚数据机和匿名; 网络数据分析; 垂直行业平台的互操作; 多媒体分析; 开放数据标准。

    目前,ITUT的大数据标准化工作主要是在SG13(第13研究组)开展[2],具体包括该研究组下设的Q2课题组、Q17课题组,以及Q18课题组,由Q17牵头开展ITUT大数据标准化路标的制定工作并负责向TSAG(电信标准化咨询委员会)汇报。其中,Q2涉及的研究课题为“针对大数据的物联网具体需求和能力要求”,其主要内容为针对大数据在物联网数据传输、数据处理、数据存储、访问控制、数据査询和数据验证等方面的具体要求和能力要求,目前处于标准研制阶段。

    Q17涉及的研究课题为“基于云计算的大数据需求和能力”,主要研究如何使用云计算方案来解决目前大数据应用中所存的各项挑战,包括大数据定义、大数据特性、大数据功能、大数据与云计算的关系、从电信角度看基于云计算的大数据能力要求、用户案例以及应用场景等,该标准已于2015年8月发布。Q17的另一课题“大数据交换要求和框架”主要内容为描述大数据交换应用场景、用户案例、差异分析、需求和框架,2016年完成标准报批。

     

    清华大学出版社官方旗舰店

    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购