- 商品参数
-
- 作者:
耿远昊著|
无编
- 出版社:人民邮电出版社
- 出版时间:2022-08
- 页数:无
- ISBN:9781878900985
- 版权提供:人民邮电出版社
店铺公告
为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。
温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货)。
关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。
![]()
![]()
![]()
![]()
![]()
内容介绍
本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。 本书共包含*3章,*部分介绍NumPy和pandas的基本内容;*部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的*一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。
目录
第 一部分 基础知识
第 *章 预备知识 2
*.* Python基础 2
*.*.* 推导式 2
*.*.2 匿名函数 4
*.*.3 打包函数 5
*.2 NumPy基础 7
*.2.* NumPy数组的构造 7
*.2.2 NumPy数组的变形 **
*.2.3 NumPy数组的切片 *5
*.2.4 广播机制 *7
*.2.5 常用函数 *9
*.3 习题 24
第 2章 pandas基础 26
2.* 文件的读取和写入 26
2.*.* 文件读取 26
2.*.2 数据写入 28
2.2 基本数据结构 29
2.2.* Series 29
2.2.2 DataFrame 30
2.3 常用基本函数 32
2.3.* 汇总函数 33
2.3.2 特征统计函数 34
2.3.3 频次函数 35
2.3.4 替换函数 36
2.3.5 排序函数 39
2.3.6 apply()函数 40
2.4 窗口 42
2.4.* 滑动窗口 42
2.4.2 扩张窗口 45
2.5 习题 46
*部分 4类操作
第3章 索引 50
3.* 单级索引 50
3.*.* DataFrame的列索引 50
3.*.2 Series的行索引 5*
3.*.3 loc索引器 52
3.*.4 iloc索引器 56
3.*.5 query()函数 57
3.*.6 索引运算 58
3.2 多级索引 59
3.2.* 多级索引及其表的结构 59
3.2.2 多级索引中的loc索引器 6*
3.2.3 多级索引的构造 65
3.3 常用索引方法 66
3.3.* 索引层的交换和删除 66
3.3.2 索引属性的修改 67
3.3.3 索引的设置与重置 70
3.3.4 索引的对齐 7*
3.4 习题 72
第4章 分组 74
4.* 分组模式及其对象 74
4.*.* 分组的一般模式 74
4.*.2 分组依据的本质 75
4.*.3 groupby对象 76
4.2 聚合函数 78
4.2.* 内置聚合函数 78
4.2.2 agg()函数 79
4.3 变换和过滤 80
4.3.* 变换函数 8*
4.3.2 组索引与过滤 82
4.4 跨列分组 83
4.5 习题 85
第5章 变形 87
5.* 长宽表的变形 87
5.*.* 长表的透视变形 88
5.*.2 宽表的逆透视变形 9*
5.2 其他变形方法 95
5.2.* 索引变形 95
5.2.2 扩张变形 98
5.3 习题 98
第6章 连接 *00
6.* 关系连接 *00
6.*.* 关系连接的基本概念 *00
6.*.2 列连接 *02
6.*.3 索引连接 *04
6.2 其他连接 *05
6.2.* 方向连接 *05
6.2.2 比较与组合 *08
6.3 习题 *09
第三部分 4类数据
第7章 缺失数据 **4
7.* 缺失值的统计和删除 **4
7.*.* 缺失信息的统计 **4
7.*.2 缺失信息的删除 **5
7.2 缺失值的填充和插值 **6
7.2.* 利用fillna() 进行填充 **6
7.2.2 插值函数 **8
7.3 Nullable类型 *20
7.3.* 缺失记号及其缺陷 *20
7.3.2 Nullable类型的性质 *22
7.3.3 缺失数据的计算和分组 *24
7.4 习题 *26
第8章 文本数据 *28
8.* str对象 *28
8.*.* str对象的设计意图 *28
8.*.2 []索引器 *29
8.*.3 string类型 *29
8.2 正则表达式基础 *3*
8.2.* 元字符 *32
8.2.2 分组捕获与反向引用 *34
8.2.3 零宽断言 *35
8.3 文本处理的5类操作 *36
8.3.* 拆分 *36
8.3.2 合并 *37
8.3.3 匹配 *38
8.3.4 替换 *39
8.3.5 提取 *40
8.4 其他字符串方法 *4*
8.4.* 字母型方法 *4*
8.4.2 数值型方法 *42
8.4.3 统计型方法 *43
8.4.4 格式型方法 *43
8.5 习题 *45
第9章 分类数据 *47
9.* cat对象 *47
9.*.* cat对象的属性 *47
9.*.2 类别的增加、删除和修改 *48
9.2 有序类别 *50
9.2.* 序的建立 *50
9.2.2 排序和比较 *50
9.3 区间类别 *52
9.3.* 利用cut()和qcut()进行区间构造 *52
9.3.2 一般区间的构造 *53
9.3.3 区间的属性与方法 *55
9.4 习题 *55
第 *0章 时间序列数据 *59
*0.* 时间戳 *60
*0.*.* 时间戳的构造与属性 *60
*0.*.2 时间戳序列的生成 *6*
*0.*.3 dt对象 *64
*0.*.4 时间戳序列的索引与切片 *66
*0.2 时间差 *67
*0.2.* 时间差序列的生成 *68
*0.2.2 时间差序列的运算 *69
*0.3 日期偏置 *70
*0.3.* Offset对象 *70
*0.3.2 采样频率 *73
*0.4 时间序列操作 *75
*0.4.* 采样频率滑窗 *75
*0.4.2 重采样 *77
*0.4.3 特殊连接 *8*
*0.5 习题 *84
第四部分 进阶实战
第 **章 数据观测 *90
**.* 可视化方法 *90
**.*.* 基本绘图 *90
**.*.2 元素控制 *98
**.*.3 子图绘制 203
**.2 数据观测方法 206
**.2.* 数据类型 206
**.2.2 数据统计量 207
**.2.3 数据分布 209
**.2.4 基于数据报告的观测 2*0
**.3 习题 2*2
第 *2章 特征工程 2*6
*2.* 单特征构造 2*6
*2.*.* 特征变换 2*6
*2.*.2 文本数据特征 223
*2.*.3 时间序列数据特征 226
*2.*.4 单特征构造的一般方法 230
*2.2 多特征构造 236
*2.2.* 分组技术 236
*2.2.2 特征降维 239
*2.3 特征选择 242
*2.3.* 基于统计量的选择 242
*2.3.2 基于模型的选择 249
*2.4 习题 255
第 *3章 性能优化 258
*3.* pandasic代码要义 258
*3.2 多进程加速 26*
*3.2.* 多进程和多线程 26*
*3.2.2 多进程的陷阱 264
*3.2.3 异步进程 268
*3.2.4 进程中的数据共享 27*
*3.2.5 在pandas中使用 多进程 282
*3.3 利用Cython加速 286
*3.3.* 初识Cython 286
*3.3.2 优化策略 288
*3.3.3 多线程加速 295
*3.3.4 Cython类及其应用 306
*3.3.5 模块构建 3**
*3.4 利用Numba加速 3*5
*3.4.* noPython模式 3*5
*3.4.2 ufunc与向量化 320
*3.4.3 jitclass及其应用 323
*3.5 习题 325
作者介绍
耿远昊 威斯康星大学麦迪逊分校统计学硕士在读,Datawhale成员,“Joyful Pandas”开源项目作者。pandas贡献者,活跃于pandas开源社区,主要贡献涉及漏洞修复、功能实现与性能优化等方面,对pandas在数据处理与分析中的应用有丰富经验。
1