目录
I 第二版序言
III 版序言
VI 第三版前言
1 第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是 终还是能走到一起。
1 信息
2 文字和数字
3 文字和语言背后的数学
15 第2章 自然语言处理——从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝 基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。
1 机器智能
2 从规则到统计
27 第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用于机器翻译、语音识别、印刷体,或手写体识别、拼写纠错、汉字输入和文献查询。
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
41 第4章 谈谈分词
中文分词是中文信息处理的基础,它同样走过了一段弯路,目前依靠统计语言模型已经基本解决了这个问题。
1 中文分词方法的演变
2 延伸阅读:如何衡量分词的结果
50 第5章 隐马尔可夫模型
隐马尔可夫模型 初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。同时,隐马尔可夫模型也是机器学习的主要工具之一。
1 通信模型
2 隐马尔可夫模型
3 延伸阅读:隐马尔可夫模型的训练
60 第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度量,也是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。
1 信息熵
2 信息的作用
3 互信息
4 延伸阅读:相对熵
72 第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功地将数学原理应用于自然语言处理领域中,他的一生富于传奇色彩。
1 早年生活
2 从水门事件到莫妮卡·莱温斯基
3 一位老人的奇迹
82 第8章 简单之美——布尔代数和搜索引擎
布尔代数虽然 简单,却是计算机科学的基础,它不仅把逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了数字化时代。
1 布尔代数
2 索引
89 第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动地将所有的网页下载到服务器上,这个程序称为网络爬虫,它的编写是基于离散数学中图论的原理。
1 图论
2 网络爬虫
3 延伸阅读:图论的两点补充说明
98 0章 PageRank——Google的民主表决式网页排名技术
网页排名技术PageRank是早期Google的杀手锏,它的出现使得网页搜索的质量上了一个大的台阶。它背后的原理是图论和线性代数的矩阵运算。
1 PageRank算法的原理
2 延伸阅读:PageRank的计算方法
104 1章 如何确定网页和查询的相关性
确定网页和查询的相关性是网页搜索的根本问题,其中确定查询中每个关键词的重要性有多高是关键。TF-IDF是目前通用的关键词重要性的度量,其背后的原理是信息论。
1 搜索关键词权重的科学度量TF-IDF
2 延伸阅读:TF-IDF 的信息论依据
111 2章 有限状态机和动态规划——地图与本地搜索的核心技术
地图与本地搜索中要用到有限状态机和动态规划技术。这两项技术是机器智能和机器学习的工具,它们的应用 广泛,还包括语音识别、拼写和语法纠错、拼音输入法、工业控制和生物的序列分析等。
1 地址分析和有限状态机
2 导航和动态规划
3 延伸阅读:有限状态传感器
121 3章 Google AK-47的设计者——阿米特·辛格博士
在所有轻 中 有名的是AK-47冲锋 ,因为它从不卡壳,不易损坏,可在任何环境下使用,可靠性好, 大并且操作简单。Google的产品就是按照上述原则设计的。
127 4章 余弦定理和新闻的分类
计算机虽然读不懂新闻,却可以准确地对新闻进行分类。其数学工具是看似毫不相干的余弦定理。
1 新闻的特征向量
2 向量距离的度量
3 延伸阅读:计算向量余弦的技巧
136 5章 矩阵运算和文本处理中的两个分类问题
无论是词汇的聚类还是文本的分类,都可以通过线性代数中矩阵的奇异值分解来进行。这样一来,自然语言处理的问题就变成了一个数学问题。
1 文本和词汇的矩阵
2 延伸阅读:奇异值分解的方法和应用场景
142 6章 信息指纹及其应用
世间万物都有一个 标识的特征,信息也是如此。每一条信息都有它特定的指纹,通过这个指纹可以区别不同的信息。
1 信息指纹
2 信息指纹的用途
3 延伸阅读:信息指纹的重复性和相似哈希
153 7章 由电视剧《暗算》所想到的——谈谈密码学的数学原理
密码学的根本是信息论和数学。没有信息论指导的密码是 容易被破解的。只有在信息论被广泛应用于密码学后,密码才真正变得安全。
1 密码学的自发时代
2 信息论时代的密码学
162 8章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的 性问题
闪光的不一定是金子,搜索引擎中排名靠前的网页也未必是有用的网页。消除这
......