返回首页
苏宁会员
购物车 0
易付宝
手机苏宁

服务体验

店铺评分与同行业相比

用户评价:----

物流时效:----

售后服务:----

  • 服务承诺: 正品保障
  • 公司名称:
  • 所 在 地:
本店所有商品

  • 实体消解指南 使用Python进行数据匹配 (英)迈克尔·希勒(Michael Shearer) 著 林润 译 数据库专
  • 新商品上架
    • 作者: 迈克尔·希勒著 | | 无译
    • 出版社: 机械工业出版社
    • 出版时间:2025-06
    送至
  • 由""直接销售和发货,并提供售后服务
  • 加入购物车 购买电子书
    服务

    看了又看

    商品预定流程:

    查看大图
    /
    ×

    苏宁商家

    商家:
    江莱图书专营店
    联系:
    • 商品

    • 服务

    • 物流

    搜索店内商品

    商品分类

    商品参数
    • 作者: 迈克尔·希勒著| 无译
    • 出版社:机械工业出版社
    • 出版时间:2025-06
    • ISBN:9787111783299
    • 版权提供:机械工业出版社

    实体消解指南 使用Python进行数据匹配

    作  者:(英)迈克尔·希勒(Michael Shearer) 著 林润 译
    定  价:69
    出 版 社:机械工业出版社
    出版日期:2025年06月01日
    页  数:196
    装  帧:平装
    ISBN:9787111783299

    本书是数据工程师的实战宝典!从实体消解基础概念切入,系统拆解数据标准化、文本模糊匹配(Levenshtein距离、Metaphone算法)、概率模型(Fellegi-Sunter模型、贝叶斯因子)、聚类分块等核心技术,更独家涵盖Splink框架、谷歌云Dataproc集群部署、企业知识图谱API等前沿工具。作者以真实金融反欺诈案例贯穿全书,手把手教学Python代码实现,并前瞻隐私集合求交(PSI)等合规技术。经Splink工具作者Robin Linacre力荐,既是新手入门教材,也是资深从业者......

    前言1
    第1章 实体消解入门7
    1.1 什么是实体消解7
    1.2 实体消解的作用8
    1.3 实体消解的主要挑战9
    1.3.1 姓名缺少专享性9
    1.3.2 命名约定不一致9
    1.3.3 数据获取不一致10
    1.3.4 示例11
    1.3.5 故意模糊处理12
    1.3.6 匹配组合12
    1.3.7 盲目匹配13
    1.4 实体消解过程13
    1.4.1 数据标准化14
    1.4.2 记录分块14
    1.4.3 属性比较14
    1.4.4 匹配分类14
    1.4.5 聚类14
    1.4.6 规范化15
    1.4.7 示例15
    1.5 评估结果16
    1.6 正式开始17
    第2章 数据标准化19
    2.1 案例19
    2.2 设置环境20
    2.3 获取数据22
    2.3.1 维基百科数据22
    2.3.2 TheyWorkForYou数据24
    2.4 清洗数据26
    2.4.1 清洗维基百科数据26
    2.4.2 清洗TheyWorkForYou数据27
    2.5 比较属性28
    2.6 选区29
    2.7 评估结果33
    2.8 计算样本34
    2.9 总结35
    第3章 文本匹配36
    3.1 编辑距离匹配36
    3.1.1 Levenshtein距离37
    3.1.2 Jaro相似度38
    3.1.3 Jaro-Winkler相似度39
    3.2 语音匹配41
    3.2.1 Metaphone算法41
    3.2.2 MRA算法41
    3.3 技术比较41
    3.4 案例42
    3.5 全面相似度比较44
    3.6 评估结果47
    3.7 总结48
    第4章 概率匹配49
    4.1 案例49
    4.2 单一属性匹配概率51
    4.2.1 名字匹配概率51
    4.2.2 姓氏匹配概率52
    4.3 多属性匹配概率53
    4.4 概率模型55
    4.4.1 贝叶斯定理55
    4.4.2 m值56
    4.4.3 u值57
    4.4.4 λ值57
    4.4.5 贝叶斯因子58
    4.4.6 Fellegi-Sunter模型58
    4.4.7 匹配权重59
    4.5 期望优选化算法60
    4.5.1 第一次迭代60
    4.5.2 第二次迭代62
    4.5.3 第三次迭代63
    4.6 Splink入门65
    4.6.1 配置Splink65
    4.6.2 Splink匹配结果68
    4.7 总结71
    第5章 记录分块72
    5.1 案例72
    5.2 获取数据73
    5.2.1 维基百科数据73
    5.2.2 英国公司注册署数据74
    5.3 数据标准化75
    5.3.1 维基百科数据75
    5.3.2 英国公司注册署数据76
    5.4 记录分块与属性比较76
    5.4.1 使用Splink进行记录分块77
    5.4.2 比较属性78
    5.5 匹配分类82
    5.6 评估结果84
    5.7 总结84
    第6章 匹配公司85
    6.1 案例85
    6.2 获取数据86
    6.3 数据标准化86
    6.3.1 英国公司注册署数据87
    6.3.2 英国海事及海岸警卫署数据88
    6.4 记录分块与属性比较89
    6.5 匹配分类92
    6.6 评估结果94
    6.7 匹配新实体96
    6.8 总结97
    第7章 聚类98
    7.1 简单准确匹配聚类99
    7.2 近似匹配聚类101
    7.3 案例104
    7.3.1 获取数据104
    7.3.2 数据标准化105
    7.4 记录分块与属性比较105
    7.4.1 数据分析106
    7.4.2 期望优选化分块规则106
    7.5 匹配分类与聚类110
    7.6 簇可视化112
    7.7 聚类分析113
    7.8 总结117
    第8章 使用谷歌云平台进行扩展119
    8.1 谷歌云设置120
    8.2 创建Dataproc集群124
    8.3 配置Dataproc集群128
    8.4 使用Spark进行实体消解130
    8.5 评估结果133
    8.6 整理工作133
    8.7 总结134
    第9章 实体消解云服务135
    9.1 BigQuery简介135
    9.2 企业知识图谱 API138
    9.2.1 模式映射138
    9.2.2 消解作业140
    9.2.3 处理结果145
    9.2.4 实体消解Python客户端147
    9.3 评估结果149
    9.4 总结150
    第10章 利用记录关联技术保护隐私151
    10.1 隐私集合求交简介151
    10.2 PSI原理152
    10.3 基于ECDH的PSI协议154
    10.3.1 布隆过滤器154
    10.3.2 格伦布编码集157
    10.4 案例:使用PSI160
    10.4.1 设置环境160
    10.4.2 服务器代码163
    10.4.3 客户端代码165
    10.4.4 完整的MCA和公司注册署样本示例170
    10.5 总结172
    第11章 进一步探讨173
    11.1 数据问题探讨173
    11.1.1 非结构化数据问题173
    11.1.2 数据质量问题174
    11.1.3 时效性问题174
    11.2 属性比较175
    11.2.1 集合匹配175
    11.2.2 地理编码位置匹配175
    11.2.3 汇总比较176
    11.3 后处理176
    11.4 图形表示178
    11.5 实时性问题178
    11.6 评估结果179
    11.6.1 成对方法180
    11.6.2 基于簇的方法180
    11.7 实体消解的未来181

    内容简介

    在数据驱动时代,实体消解技术是打通数据孤岛的核心利器。本书以Python为工具,系统讲解从数据清洗到云端大规模部署的全流程技术:·基础原理:解析实体消解5大步骤(数据标准化、分块、属性比较、匹配分类、聚类),直面姓名模糊、数据缺失、跨源匹配等实战难题;·算法攻坚:详解编辑距离、Jaro-Winkler相似度等文本匹配技术,结合贝叶斯定理、期望zui大化算法构建概率匹配模型;·工具实战:基于Splink实现企业级数据消解,通过谷歌云平台扩展至百万级数据集;·前沿拓展:引入隐私增强技术(PSI),平衡数据利用与合规风险。全书配套GitHub代码库,以英国公司注册署、海事署等真实数据演示跨领域(金融风控、供应链管理)场景应用,助力读者构建可复用的数据资产整合方案。

    1
    • 商品详情
    • 内容简介

    售后保障

    最近浏览

    猜你喜欢

    该商品在当前城市正在进行 促销

    注:参加抢购将不再享受其他优惠活动

    x
    您已成功将商品加入收藏夹

    查看我的收藏夹

    确定

    非常抱歉,您前期未参加预订活动,
    无法支付尾款哦!

    关闭

    抱歉,您暂无任性付资格

    此时为正式期SUPER会员专享抢购期,普通会员暂不可抢购