由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
[正版图书]语音识别 原理与应用 第2版+语音识别服务实战+声纹技术 从核算法到工程实践 3本 电子工业出版社
¥ ×1
新春将至,本公司假期时间为:2025年1月23日至2025年2月7日。2月8日订单陆续发货,期间带来不便,敬请谅解!
店铺公告
为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。
温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货),
关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。
9787121446337 9787121425905 9787121395291
作者:洪青阳,,李琳
定:138.00元
出版社名称:电子工业出版社本书围绕语音识别的原理和应用讲解,理论结合实际,采用大量图,辅以实例,力求深入浅出,让读者能较快地理解语音识别的基础理论和关键技术。为了帮助读者动手作,提高实战技能,本书*后还结合Kaldi、ESPnet和WeNet等开源工具,介绍了具体的工程实践方法。
*1章 语音识别概论 1
1.1 语音的产生和感知 1
1.2 语音识别过程 4
1.3 语音识别发展 8
1.4 内语音识别现状 15
1.5 语音识别建模方法 18
1.5.1 DTW 19
1.5.2 GMM-HMM 19
1.5.3 DNN-HMM 20
1.5.4 E2E模型 22
1.6 语音识别开源工具 22
1.7 常用语音识别数据库 23
1.8 语音识别评指标 24
1.9 参考资料 25
*2章 语音信号基础 28
2.1 声波的性 28
2.2 声音的接收装置 29
2.2.1 麦克风的性能指标 30
2.2.2 麦克风阵列 31
2.3 声音的采样 32
2.4 声音的量化 33
2.5 语音的编码 35
2.6 WAV文件格式 39
2.7 WAV文件分析 40
2.8 本章小结 43
思考练题 43
第3章 语音征提取 44
3.1 预处理 44
3.2 短时傅里叶变换 48
3.3 听觉性 51
3.4 线性预测 54
3.5 倒谱分析 55
3.6 常用的声学征 56
3.6.1 语谱图 57
3.6.2 FBank 58
3.6.3 MFCC 59
3.6.4 PLP 60
3.7 本章小结 62
思考练题 63
第4章 HMM 64
4.1 HMM的基本概念 66
4.1.1 马尔可夫链 67
4.1.2 双重随机过程 68
4.1.3 HMM的定义 69
4.2 HMM的三个基本问题 70
4.2.1 模型评估问题 71
4.2.2 *佳路径问题 74
4.2.3 模型训练问题 76
4.3 本章小结 78
4.4 参考资料 79
思考练题 79
第5章 GMM-HMM 80
5.1 概率统计 81
5.2 高斯分布 82
5.3 GMM 85
5.3.1 初始化 86
5.3.2 重估计 87
5.4 GMM与HMM的结合 88
5.5 GMM-HMM的训练 94
5.6 模型自适应 96
5.6.1 MAP 96
5.6.2 MLLR 97
5.6.3 fMLLR 97
5.6.4 SAT 98
5.7 本章小结 98
5.8 参考资料 98
思考练题 99
第6章 基于HMM的语音识别 100
6.1 建模单元 100
6.2 发音过程与HMM状态 103
6.3 串接HMM 104
6.4 固定语法的识别 108
6.5 随机语法的识别 113
6.6 音素的上下文建模 119
6.6.1 协同发音 120
6.6.2 上下文建模 121
6.6.3 决策树 122
6.6.4 问题集 123
6.6.5 三音子模型的训练 128
6.7 本章小结 129
思考练题 130
第7章 DNN-HMM 131
7.1 深度学 131
7.2 DNN 132
7.2.1 激活函数 133
7.2.2 损失函数 135
7.2.3 梯度下降算法 136
7.3 DNN与HMM的结合 138
7.4 不同的DNN结构 142
7.4.1 CNN 143
7.4.2 LSTM 147
7.4.3 GRU 147
7.4.4 TDNN 148
7.4.5 TDNN-F 151
7.5 本章小结 154
7.6 参考资料 155
思考练题 155
第8章 语言模型 156
8.1 n-gram模型 158
8.2 评指标——困惑度 162
8.3 平滑技术 163
8.3.1 Good-Turing折扣法 163
8.3.2 Witten-Bell折扣法 165
8.3.3 Katz回法 166
8.3.4 Jelinek-Mercer值法 169
8.3.5 Kneser-Ney值法 170
8.4 语言模型的训练 172
8.5 经网络语言模型 175
8.6 本章小结 180
8.7 参考资料 180
思考练题 181
第9章 WFST解码器 183
9.1 基于动态网络的Viterbi解码 184
9.2 WFST理论 189
9.3 HCLG构建 193
9.3.1 H的构建 194
9.3.2 C的构建 195
9.3.3 L的构建 196
9.3.4 G的构建 197
9.3.5 HCLG合并 200
9.4 WFST的Viterbi解码 202
9.4.1 Token的定义 202
9.4.2 Viterbi算法 203
9.5 Lattice解码 210
9.5.1 主要数据结构 211
9.5.2 令牌传播过程 212
9.5.3 剪枝策略 215
9.5.4 Lattice 216
9.6 本章小结 218
9.7 参考资料 218
思考练题 218
*10章 序列区分性训练 219
10.1 区分性准则 220
10.1.1 MMI 220
10.1.2 BMMI 221
10.1.3 MPE/sMBR 221
10.2 MMI求导过程 222
10.3 Lattice-based MMI 224
10.4 Lattice-free MMI 226
10.5 Kaldi Chain模型 228
10.6 本章小结 230
10.7 参考资料 230
思考练题 231
*11章 端到端语音识别 232
11.1 CTC 233
11.1.1 损失函数 234
11.1.2 前向算法 238
11.1.3 后向算法 241
11.1.4 求导过程 242
11.1.5 CTC解码 244
11.2 RNN-T 247
11.3 基于Attention的Encoder-Decoder模型 250
11.4 Hybrid CTC/Attention 253
11.5 Transformer 255
11.6 Conformer 258
11.7 本章小结 259
11.8 参考资料 259
思考练题 261
*12章 Kaldi实践 262
12.1 下载与安装Kaldi 263
12.1.1 获取源代码 263
12.1.2 编译 264
12.2 建和配置基本的工程目录 265
12.3 aishell语音识别工程 266
12.3.1 数据集映射目录准备 267
12.3.2 词典准备和lang目录生成 269
12.3.3 语言模型训练 271
12.3.4 声学征提取与倒谱均值归化 273
12.3.5 声学模型训练与强制对齐 275
12.3.6 解码测试与指标计算 277
12.4 本章小结 279
*13章 ESPnet实践 280
13.1 数据准备 280
13.1.1 映射文件准备 280
13.1.2 征提取 281
13.1.3 数据扩增 282
13.1.4 词典生成 282
13.1.5 数据打 283
13.2 ESPnet配置文件 284
13.3 语言模型训练 286
13.4 声学模型训练 287
13.4.1 声学模型训练脚本 287
13.4.2 CTC声学模型训练 288
13.4.3 Attention声学模型训练 289
13.4.4 RNN-T模型训练 290
13.4.5 Transformer模型训练 292
13.5 语音识别解码 293
13.6 ESPnet训练解码可视化 294
13.6.1 ESPnet训练参数可视化 294
13.6.2 ESPnet中的Attention可视化 295
13.6.3 ESPnet解码结果可视化 296
13.7 ESPnet2 297
13.7.1 ESPnet2与ESPnet 297
13.7.2 数据准备 298
13.7.3 配置文件 299
13.7.4 模型训练 300
13.7.5 训练日志与可视化 303
13.7.6 性能对比 304
13.8 本章小结 305
13.9 参考资料 305
*14章 WeNet实践 306
14.1 数据准备 306
14.1.1 映射文件准备 306
14.1.2 CMVN计算 307
14.1.3 词典生成 307
14.1.4 数据打 307
14.2 WeNet配置文件 308
14.3 声学模型训练 309
14.3.1 声学模型训练脚本 309
14.3.2 Transformer模型训练 310
14.3.3 Conformer模型训练 313
14.3.4 Unified Conformer模型训练 314
14.3.5 U2++ Conformer模型训练 315
14.4 Python环境解码 315
14.5 WeNet 模型署 317
14.5.1 模型导出 317
14.5.2 语言模型训练 317
14.5.3 结合语言模型的解码 318
14.6 WeNet 解码结果可视化 318
14.7 本章小结 319
14.8 参考文献 319
*15章 工业应用实践 320
15.1 应用场景 321
15.2 引擎化 323
15.2.1 Kaldi方案 323
15.2.2 WeNet方案 327
15.3 工程署 330
15.3.1 SDK封装 330
15.3.2 语音云平台 338
15.3.3 Kaldi嵌入式移植 342
15.3.4 WeNet端侧署 344
15.4 本章小结
语音识别服务实战
定 128.00
出版社 电子工业出版社
版次 1
出版时间 2022年01月
开本 16
作者 杨学锐
ISBN编码 9787121425905
随着深度学的应用越来越广泛,语音识别作为人工智能的个重要分支,在过去十年取得了长足的进步,在各种环境下的识别效果和对环境的鲁棒性已经大大。目前很多产品与项目会用到语音识别算法,然而套完整的语音识别方案涵盖了前端麦克风阵列算法、语音识别、说话人分离等领域,种类庞杂,入门门槛较高。本书以在线语音识别为线索,详尽介绍如何训练、署、化语音服务,力图给读者呈现产业落地中#新的语音识别工程化方案。
1章 语音识别概述 1
1.1 语音识别发展历程 2
1.2 语音识别产业与应用 6
1.2.1 消费级市场 7
1.2.2 企业级市场 8
1.3 常用语音处理工具 10
1.3.1 WebRTC 10
1.3.2 Kaldi 12
1.3.3 端到端语音识别工具 14
2章 语音信号基础 16
2.1 语音信号的声学基础 17
2.1.1 语音产生机理 17
2.1.2 语音信号的产生模型 19
2.1.3 语音信号的感知 20
2.2 语音信号的数字化和时频变换 22
2.2.1 语音信号的采样、量化和编码 22
2.2.2 语音信号的时频变换 25
2.3 本章小结 31
3章 语音前端算法 32
3.1 语音前端算法概述 33
3.2 VAD 35
3.2.1 基于门限判决的VAD 36
3.2.2 基于高斯混合模型的VAD 38
3.2.3 基于经网络的VAD 40
3.3 单通道降噪 43
3.3.1 谱减法 44
3.3.2 维纳滤波法 46
3.3.3 音乐噪声和参数谱减法 48
3.3.4 贝叶斯准则下的MMSE 51
3.3.5 噪声估计 56
3.3.6 基于经网络的单通道降噪 61
3.4 回声 65
3.4.1 回声概述 66
3.4.2 线性自适应滤波 69
3.4.3 分块频域自适应滤波器 70
3.4.4 双讲检测 72
3.4.5 延迟估计 75
3.4.6 残留回声 76
3.4.7 基于经网络的回声 78
3.5 麦克风阵列与波束形成 79
3.5.1 麦克风阵列概述 80
3.5.2 延迟求和波束形成 86
3.5.3 *小方差无失真响应波束形成 89
3.5.4 广义旁瓣对消波束形成 92
3.5.5 后置滤波 98
3.5.6 基于经网络的波束形成 101
3.6 声源定位 103
3.6.1 GCC-PHAT 104
3.6.2 基于自适应滤波的声源定位 105
3.6.3 SRP-PHAT 108
3.6.4 子空间声源定位算法 108
3.6.5 基于经网络的声源定位 111
3.7 其他未尽话题 111
3.8 本章小结 113
4章 语音识别原理 114
4.1 征提取 116
4.1.1 征预处理 116
4.1.2 常见的语音征 119
4.2 传统声学模型 124
4.2.1 声学建模单元 124
4.2.2 GMM-HMM 126
4.2.3 强制对齐 131
4.3 DNN-HMM 131
4.3.1 语音识别中的经网络基础 132
4.3.2 常见的经网络结构 137
4.4 语言模型 145
4.4.1 n-gram语言模型 145
4.4.2 语言模型的评指标 148
4.4.3 经语言模型 148
4.5 WFST解码器 151
4.5.1 WFST原理 151
4.5.2 常见的WFST运算 152
4.5.3 语音识别中的WFST解码器 155
4.5.4 令牌传递算法 157
4.5.5 Beam Search 159
4.6 序列区分性训练 160
4.6.1 MMI和bMMI 161
4.6.2 MPE和sMBR 161
4.6.3 词图 161
4.6.4 LF-MMI 162
4.7 端到端语音识别 163
4.7.1 CTC 163
4.7.2 Seq2Seq 166
4.8 语音识别模型评估 169
4.9 本章小结 171
5章 中文普通话模型训练——以multi_cn为例 172
5.1 Kaldi安装与环境配置 173
5.2 Kaldi中的数据格式与数据准备 174
5.3 语言模型训练 178
5.4 发音词典准备 180
5.5 征提取 184
5.6 Kaldi中的Transition模型 186
5.7 预对齐模型训练 187
5.7.1 单音素模型训练 187
5.7.2 delta征模型训练 190
5.7.3 lda_mllt征变换模型训练 191
5.7.4 说话人自适应训练 192
5.8 数据增强 193
5.8.1 数据清洗及重分割 194
5.8.2 速度增强和音量增强 194
5.8.3 SpecAugment 196
5.9 I-Vector训练 197
5.9.1 对角UBM 197
5.9.2 I-Vector提取器 198
5.9.3 提取训练数据的I-Vector 199
5.10 经网络训练 199
5.10.1 Chain模型 200
5.10.2 Chain模型数据准备 202
5.10.3 经网络配置与训练 203
5.11 解码图生成 209
5.12 本章小结 210
5.13 附录 211
5.13.1 config中的描述符及网络配置表 211
5.13.2 Chain模型中的egs 215
5.13.3 Kaldi nnet3中迭代次数和学率调整 217
6章 基于Kaldi的说话人日志 219
6.1 说话人日志概述 220
6.1.1 什么是说话人日志 220
6.1.2 说话人日志技术 220
6.1.3 说话人日志评指标 227
6.2 声纹模型训练——以CNCeleb为例 229
6.2.1 声纹数据准备 230
6.2.2 I-Vector训练 240
6.2.3 X-Vector训练 243
6.2.4 LDA/PLDA后端模型训练 248
6.2.5 说话人日志后端模型训练 250
6.3 本章小结 253
7章 基于Kaldi的语音SDK实现 254
7.1 语音征提取 258
7.1.1 音频读取 258
7.1.2 音频征提取 261
7.2 基于WebRTC的语音活动检测 268
7.3 说话人日志模块 273
7.3.1 I-Vector提取 275
7.3.2 X-Vector提取 287
7.3.3 说话人日志算法实现 299
7.4 语音识别解码 313
7.5 本章小结 324
8章 基于gRPC的语音识别服务 325
8.1 gRPC语音服务 326
8.2 ProtoBuf协议定义 327
8.3 基于gRPC的语音服务实现 329
8.3.1 gRPC Server实现 330
8.3.2 gRPC Client实现 337
8.3.3 gRPC语音服务的编译与测试 343
8.4 本章小结 346
参考文献 347
声纹技术:从核算法到工程实践
泉 著
出版社: 电子工业出版社
ISBN:9787121395291
版次:1
品牌:博文视点
装:平装
开本:16开
出版时间:2020-09-01
用纸:胶版纸
页数:292
定 99元
这是本系统性地介绍声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中应用的技术书。本书内容全面且紧代前沿,不仅涵盖了早 20世纪 60 年代的方法,而且以大量篇幅着重介绍了深度学的新技术。本书注重理论与实践的结合,除了配备大量实践案例与题,还有门章节介绍声纹技术在实际工程署方面的诸多课题。
本书面向大学与研究机构的学生、教研人员,以及企事业单位从事声纹技术相关工作的工程师、架构师和产品经理等。
1 声纹技术的前世今生 1
1.1 什么是声纹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 早的声纹技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 声纹技术的发展 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 声纹技术与音频信号处理 . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2 模板匹配方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3 早期统计学方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.4 高斯混合模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.5 联合因子分析与 i-vector . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 大变革:深度学时代的来临 . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 新的机遇:智能语音助手的普及 . . . . . . . . . . . . . . . . . . . . . . . 11
2 音频信号处理基础 14
2.1 欲懂声纹,先学音频 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 声学基础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 语音的产生 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 正弦波 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.3 频谱 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4 听觉与感知 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.5 听觉的非线性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 音频信号基础概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 模拟音频信号 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 模拟转数字:采样与量化 . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3 音频编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.4 音频文件格式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.5 动手实践:SoX 程序 . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 从信号到征:短时分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.1 传统征分析的不足 . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.2 分帧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.3 窗函数处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.4 帧叠加与帧采样 . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5 常用的音频征 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5.1 时域征 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5.2 从时域到频域:傅里叶变换 . . . . . . . . . . . . . . . . . . . . 45
2.5.3 频谱、倒谱、时频谱和功率谱 . . . . . . . . . . . . . . . . . . . 48
2.5.4 感知线性预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.5.5 梅尔倒谱系数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.5.6 功率正则化倒谱系数 . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5.7 动手实践:用 LibROSA 提取 MFCC 征 . . . . . . . . . . . . 50
3 声纹识别技术 54
3.1 声纹识别:声纹技术的核 . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.1.1 名称与概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.1.2 按任务分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1.3 按文本内容分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.1.4 系统流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2 声纹识别的评指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2.1 相似匹配 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2.2 录入集与验证集 . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2.3 ROC 曲线及曲线下面积 . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.4 等错率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2.5 小检测代函数 . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2.6 辨认率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.3 深度学之前的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.3.1 早期方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.3.2 高斯混合模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.3.3 高斯混合模型-通用背景模型 . . . . . . . . . . . . . . . . . . . . 70
3.3.4 高斯混合模型-支持向量机 . . . . . . . . . . . . . . . . . . . . . 72
3.3.5 联合因子分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.6 i-vector 方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.4 基于深度学的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.4.1 关于深度学的简单介绍 . . . . . . . . . . . . . . . . . . . . . . 79
3.4.2 声纹识别中的经网络 . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.3 运行时的推理逻辑 . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.4.4 声纹识别中的损失函数 . . . . . . . . . . . . . . . . . . . . . . . 93
3.5 声纹识别中的数据处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.5.1 声纹识别的数据需求 . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.5.2 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.5.3 数据增强 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.5.4 多数据集训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.6 声纹验证 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.6.1 验证方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.6.2 分数正则化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.7 常用数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.7.1 TIMIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.7.2 VCTK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.7.3 LibriSpeech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.7.4 LibriVox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.7.5 VoxCeleb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.7.6 CN-Celeb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.7.7 BookTubeSpeech . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.7.8 维基百科语音库 . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.7.9 DeepMine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4 声纹识别的工程署 120
4.1 从模型到产品 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1.1 模型不等于产品 . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1.2 软件工程基本概念 . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2 声纹识别常见工程问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.2.1 录入段的工程问题 . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.2.2 识别段的工程问题 . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.2.3 语音处理引擎:流式信号处理与计算图 . . . . . . . . . . . . . 131
4.2.4 模型版本迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.2.5 在线代理指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
4.3 全设备端署 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.3.1 署方式的分类依据 . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.3.2 版本迭代更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.3.3 资源限制:设备端的大挑战 . . . . . . . . . . . . . . . . . . . 141
4.3.4 模型量化技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.4 全服务器端署 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.4.1 全服务器端架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.4.2 版本迭代更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.4.3 负载均衡与故障处理 . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.5 复合式署 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.5.1 声纹信息的敏感性 . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.5.2 复合式架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
4.5.3 版本迭代更新 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5 声纹分割聚类技术 156
5.1 分割聚类:更好地理解对话语音 . . . . . . . . . . . . . . . . . . . . . . . 156
5.1.1 关于名称与 . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.1.2 常见应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.1.3 常见通用架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
5.1.4 声纹分割聚类的不同任务类型 . . . . . . . . . . . . . . . . . . . 162
5.2 声纹分割聚类与多说话人识别 . . . . . . . . . . . . . . . . . . . . . . . . 163
5.2.1 声源分离 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
5.2.2 连续声纹识别 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.2.3 说话人转换检测 . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.3 聚类分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.3.1 聚类不等于分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.3.2 在线聚类技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.3.3 离线聚类技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.3.4 基于离线聚类的在线声纹分割聚类 . . . . . . . . . . . . . . . . 178
5.4 二次分割方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.4.1 基于分类的二次分割 . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.4.2 基于隐马尔可夫模型的二次分割 . . . . . . . . . . . . . . . . . 181
5.5 监督式方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.5.1 聚类方法的些问题 . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.5.2 从传统聚类到监督式方法 . . . . . . . . . . . . . . . . . . . . . . 184
5.5.3 无界交织态循环经网络 . . . . . . . . . . . . . . . . . . . . . . 187
5.5.4 判别经聚类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
5.5.5 置换不变性训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
5.5.6 端到端模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
5.5.7 与语音识别的联合训练 . . . . . . . . . . . . . . . . . . . . . . . 200
5.6 声纹分割聚类的评指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
5.6.1 评指标的置换不变性 . . . . . . . . . . . . . . . . . . . . . . . 203
5.6.2 分割聚类错误率 . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
5.6.3 词分割聚类错误率 . . . . . . . . . . . . . . . . . . . . . . . . . . 205
5.6.4 其他指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.7 常用数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.7.1 CALLHOME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.7.2 NIST SRE 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
5.7.3 ICSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
5.7.4 Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
5.7.5 AMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6 声纹技术的其他应用 211
6.1 声纹的力量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
6.2 用于语音识别 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
6.2.1 语音识别技术概述 . . . . . . . . . . . . . . . . . . . . . . . . . . 212
6.2.2 声纹自适应声学模型 . . . . . . . . . . . . . . . . . . . . . . . . . 213
6.3 用于语音合成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.3.1 语音合成技术概述 . . . . . . . . . . . . . . . . . . . . . . . . . . 214
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格