- 商品参数
-
- 作者:
苏达哈尔桑·拉维昌迪兰著
- 出版社:人民邮电出版社
- 出版时间:2023-02
- ISBN:9783444670861
- 版权提供:人民邮电出版社
店铺公告
为保障消费者合理购买需求及公平交易机会,避免因非生活消费目的的购买货囤积商品,抬价转售等违法行为发生,店铺有权对异常订单不发货且不进行赔付。异常订单:包括但不限于相同用户ID批量下单,同一用户(指不同用户ID,存在相同/临近/虚构收货地址,或相同联系号码,收件人,同账户付款人等情形的)批量下单(一次性大于5本),以及其他非消费目的的交易订单。 温馨提示:请务必当着快递员面开箱验货,如发现破损,请立即拍照拒收,如验货有问题请及时联系在线客服处理,(如开箱验货时发现破损,所产生运费由我司承担,一经签收即为货物完好,如果您未开箱验货,一切损失就需要由买家承担,所以请买家一定要仔细验货), 关于退货运费:对于下单后且物流已发货货品在途的状态下,原则上均不接受退货申请,如顾客原因退货需要承担来回运费,如因产品质量问题(非破损问题)可在签收后,联系在线客服。
BERT基础教程 Transformer大模型实战
作 者:(印)苏达哈尔桑·拉维昌迪兰 著 周参 译
定 价:89.8
出 版 社:人民邮电出版社
出版日期:2023年02月01日
页 数:280
装 帧:平装
ISBN:9787115603722
●第一部分开始使用BERT
第1章Transformer概览2
1.1Transformer简介2
1.2理解编码器3
1.2.1自注意力机制5
1.2.2多头注意力层14
1.2.3通过位置编码来学习位置16
1.2.4前馈网络层19
1.2.5叠加和归一组件19
1.2.6编码器总览20
1.3理解解码器21
1.3.1带掩码的多头注意力层25
1.3.2多头注意力层30
1.3.3前馈网络层34
1.3.4叠加和归一组件34
1.3.5线性层和softmax层35
1.3.6解码器总览36
1.4整合编码器和解码器38
1.5训练Transformer39
1.6小结39
1.7习题40
1.8深入阅读40
第2章了解BERT模型41
2.1BERT的基本理念41
2.2BERT的工作原理43
2.3BERT的配置45
2.3.1BERT-base46
2.3.2BERT-large46
2.3.3BERT的其他配置47
2.4BERT模型预训练48
2.4.1输入数据49
2.4.2预训练策略53
2.4.3预训练过程61
2.5子词词元化算法63
2.5.1字节对编码64
2.5.2字节级字节对编码69
2.5.3WordPiece69
2.6小结71
2.7习题72
2.8深入阅读72
第3章BERT实战73
3.1预训练的BERT模型73
3.2从预训练的BERT模型中提取嵌入74
3.2.1Hugging Face的Transformers库77
3.2.2BERT嵌入的生成77
3.3从BERT的所有编码器层中提取嵌入81
3.4针对下游任务进行微调.85
3.4.1文本分类任务86
3.4.2自然语言推理任务91
3.4.3问答任务93
3.4.4命名实体识别任务97
3.5小结98
3.6习题99
3.7深入阅读99
第二部分探索BERT变体
第4章BERT变体(上):ALBERT、RoBERTa、ELECTRA和SpanBERT102
4.1BERT的精简版ALBERT103
4.1.1跨层参数共享103
4.1.2嵌入层参数因子分解104
4.1.3训练ALBERT模型105
4.1.4对比ALBERT与BERT106
4.2从ALBERT中提取嵌入107
4.3了解RoBERTa108
4.3.1使用动态掩码而不是静态掩码108
4.3.2移除下句预测任务110
4.3.3用更多的数据集进行训练111
4.3.4以大批量的方式进行训练111
4.3.5使用字节级字节对编码作为子词词元化算法111
4.4了解ELECTRA114
4.4.1了解替换标记检测任务114
4.4.2ELECTRA的生成器和判别器117
4.4.3训练ELECTRA模型120
4.4.4高效的训练方法121
4.5用SpanBERT预测文本段122
4.5.1了解SpanBERT的架构122
4.5.2深入了解SpanBERT124
4.5.3将预训练的SpanBERT用于问答任务125
4.6小结126
4.7习题127
4.8深入阅读127
第5章BERT变体(下):基于知识蒸馏128
5.1知识蒸馏简介129
5.2DistilBERT模型——BERT模型的知识蒸馏版本134
5.2.1教师学生架构134
5.2.2训练学生BERT模型(DistilBERT模型)136
5.3TinyBERT模型简介138
5.3.1教师学生架构139
5.3.2TinyBERT模型的蒸馏140
5.3.3最终损失函数145
5.3.4训练学生BERT模型(TinyBERT模型)145
5.4将知识从BERT模型迁移到神经网络中149
5.4.1教师学生架构149
5.4.2训练学生网络151
5.4.3数据增强方法151
5.5小结153
5.6习题153
5.7深入阅读154
第三部分BERT模型的应用
第6章用于文本摘要任务的BERTSUM模型156
6.1文本摘要任务156
6.1.1提取式摘要任务157
6.1.2抽象式摘要任务158
6.2为文本摘要任务微调BERT模型158
6.2.1使用BERT模型执行提取式摘要任务158
6.2.2使用BERT模型执行抽象式摘要任务167
6.3理解ROUGE评估指标169
6.3.1理解ROUGE-N指标169
6.3.2理解ROUGE-L指标171
6.4BERTSUM模型的性能172
6.5训练BERTSUM模型172
6.6小结174
6.7习题174
6.8深入阅读175
第7章将BERT模型应用于其他语言176
7.1理解多语言BERT模型177
7.2M-BERT模型的多语言表现182
7.2.1词汇重叠的影响182
7.2.2跨文本书写的通用性183
7.2.3跨类型特征的通用性184
7.2.4语言相似性的影响184
7.2.5语码混用和音译的影响185
7.3跨语言模型187
7.3.1预训练策略188
7.3.2预训练XLM模型190
7.3.3对XLM模型的评估191
7.4理解XLM-R模型192
7.5特定语言的BERT模型194
7.5.1法语的FlauBERT模型194
7.5.2西班牙语的BETO模型196
7.5.3荷兰语的BERTje模型198
7.5.4德语的BERT模型199
7.5.5汉语的BERT模型200
7.5.6日语的BERT模型202
7.5.7芬兰语的FinBERT模型202
7.5.8意大利语的UmBERTo模型203
7.5.9葡萄牙语的BERTimbau模型204
7.5.10俄语的RuBERT模型204
7.6小结206
7.7习题206
7.8深入阅读207
第8章Sentence-BERT模型和特定领域的BERT模型208
8.1用Sentence-BERT模型生成句子特征208
8.1.1计算句子特征209
8.1.2了解Sentence-BERT模型211
8.2sentence-transformers库217
8.2.1使用Sentence-BERT计算句子特征217
8.2.2计算句子的相似度218
8.2.3加载自定义模型219
8.2.4用Sentence-BERT模型寻找类似句子220
8.3通过知识蒸馏迁移多语言嵌入221
8.3.1教师学生架构223
8.3.2使用多语言模型224
8.4特定领域的BERT模型:ClinicalBERT模型和BioBERT模型225
8.4.1ClinicalBERT模型225
8.4.2BioBERT模型229
8.5小结232
8.6习题233
8.7深入阅读233
第9章VideoBERT模型和BART模型234
9.1VideoBERT模型学习语言及视频特征235
9.1.1预训练VideoBERT模型235
9.1.2数据源和预处理239
9.1.3VideoBERT模型的应用240
9.2了解BART模型241
9.2.1BART模型的架构241
9.2.2比较不同的预训练目标245
9.2.3使用BART模型执行文本摘要任务245
9.3探讨BERT库246
9.3.1ktrain库247
9.3.2bert-as-service库255
9.4小结258
9.5习题259
9.6深入阅读259
习题参考答案260
内容简介
本书聚焦谷歌公司开发的BERT自然语言处理模型,由浅入深地介绍了BERT的工作原理、BERT的各种变体及其应用。本书呈现了大量示意图、代码和实例,详细解析了如何训练BERT模型、如何使用BERT模型执行自然语言推理任务、文本摘要任务、问答任务、命名实体识别任务等各种下游任务,以及如何将BERT模型应用于多种语言。通读本书后,读者不仅能够全面了解有关BERT的各种概念、术语和原理,还能够使用BERT模型及其变体执行各种自然语言处理任务。
本书面向希望利用BERT超强的理解能力来简化自然语言处理任务的专业人士,以及对自然语言处理和深度学习感兴趣的所有人士。
(印)苏达哈尔桑·拉维昌迪兰 著 周参 译
【作者简介】苏达哈尔桑·拉维昌迪兰(Sudharsan Ravichandiran)热爱开源社区的数据科学家,研究方向为深度学习和强化学习的实际应用,在自然语言处理和计算机视觉等领域都颇有建树,另著有《Python强化学习实战》。【译者简介】周参就职于谷歌,任软件工程师,研究方向为自然语言处理。工作之余的兴趣是研究人工智能领域机器学习方向以及新的模型算法,并将多种深度学习模型应用于实际问题中。
1