《美丽数学》读书笔记

# 第一章

（1）通信的原理和信息传播的模型
（我）传播源——>声音（编码）——信道（空气）——>听到的声音（解码）——>接收者（你）
传播源：发出信息（我发出声音）
信道：传播信息（如空气）
接收者：接收信息（你听到声音）
*语言的数据称为语料。

（2） (信源)编码和最短编码
编码：信源使用语法发出的信息。
最短编码：常用的信息编码短。

（3）解码的规则，语法
按照一定语法将编码解码，得到能看懂的语言。

（4）聚类
但信息数量爆炸增长时需要分类，按类别分类即为聚类。

（5）检验位
如古犹太人抄写《圣经》，每个字母有特定数字代表，每行每列有特定的值反正抄写错误。

（6）双语对照文本，语料库和机器翻译
如罗塞塔石碑有三种语言，知道其中一种语言就能知道剩下的意思，意思为原有的信息不会丢失。
数据爆炸形成语料库，大量的数据构成语料库。
机器翻译：将一种自然语言（源语言）翻译为另一种自然语言（目标语言）的过程。

（7）多义性和利用上下文消除歧义
一个字词可能有多种意思，在翻译时需要根据上下文得知具体语境所需的意思。

# 第二章
自然语言处理，从规则到统计
计算机能处理自然语言，且处理方法与人类一样
基于统计的自然语言处理方法，在数学模型上和通信是相通的，甚至就是相同的。因此，在数学意义上的自然语言处理又和语言的初衷————通信联系在一起了。

# 第三章
统计语言模型
一个基本问题就是在自然语言处理中常说的统计语言模型，它是今天所以自然语言处理的基础，并且广泛运用于机器翻译,语音识别，印刷体或手写体识别，拼写纠错，汉字输入和文献查询。

# 第四章
中文分词以统计语言模型为基础。

# 第五章
（1）通信模型
雅各布森（Roman Jakobson）提出的信道6个要素。
信息，上下文（发送者）—编码—>传递的信息（信道）—解码—>接收的信息（接收者）
（2）隐马尔可夫模型
任意时刻的概率只和前一个有关
是机器学习的主要工具。

# 第六章
信息的度量和作用
（1）信息熵
信息量的量化度量。
（2）信息的作用
信息是消除系统不确定性的唯一办法。（在没有获得任何信息前，一个系统就像是一个黑盒子，引入信息，就可以了解黑盒子系统的内部结构）
（3）互信息
互信息作为两个随机事件“相关性”的量化度量。广泛用于判断两个事件的相关性。

# 第七章
贾里尼克和现代语言处理
“什么方法不好”

# 第八章
简单之美——布尔代数和搜索引擎
（1）布尔代数
运算元素：1（TRUE，真），0（FALSE，假）
基本运算：与（AND），或（OR），非（NOT）
（2）索引
什么是搜索索引：如图书馆的索引卡片，通过索引卡片直接去书架拿书
是基于数据库的，基本原理基于布尔代数

# 第九章
图论和网络爬虫
（1）图论
图论〔Graph Theory〕是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形，这种图形通常用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有这种关系。
（2）网络爬虫
图论的遍历算法和搜索引擎的关系。
网络爬虫：把每个网页当作一个节点，把那些超链接当作链接网页的弧。从任意网页出发，用图的遍历算法，自动地访问到每一个网页并把他们存起来。

# 第十章
PageRank算法
网页排名算法：给不同的网页的链接区别对待，给排名高的以更高的权重，即网页排名高的网站贡献的链接权重大。

# 第十一章
如何确定网页和查询的相关性
搜索关键词权重的科学度量TF-IDF
一个特定条件下关键词的概率分布的交叉熵

# 第十二章
有限状态机和动态规划
地址的识别和分析是本地搜索必不可少的技术。
有限状态机是一个特殊的有向图，每一个有限状态机都有一个开始状态和一个终止状态，以及若干中间状态。

<1>动态规划（参考：https://zhuanlan.zhihu.com/p/365698607）
全球导航的关键算法是计算机科学图论中的动态规划的算法。
动态规划就是：给定一个问题，我们把它拆成一个个子问题，直到子问题可以直接解决。然后呢，把子问题答案保存起来，以减少重复计算。再根据子问题答案反推，得出原问题解的一种方法。
核心思想：拆分子问题，记住过往，减少重复计算。
例子：
A ： "1+1+1+1+1+1+1+1 =？"
A ： "上面等式的值是多少"
B ：计算 "8"
A : 在上面等式的左边写上 "1+" 呢？
A : "此时等式的值为多少"
B : 很快得出答案 "9"
A : "你怎么这么快就知道答案了"
A : "只要在8的基础上加1就行了"
A : "所以你不用重新计算，因为你记住了第一个等式的值为8!动态规划算法也可以说是 '记住求过的解来节省时间"

# 第十三章
简单的哲学
必定有某种方法能够以最简单的形式表达复杂的东西

# 第十四章
余弦定理和新闻的分类
将新闻的实词数字化，计算它们的TF-IDF值，将这些值按照对应的实词在词汇表的位置依次排列，就得到一个向量
编号和词如表所示
统计词汇表

单词编号	汉字词	TF-IDF值
1	阿	0
2	啊	0.0034
3	阿斗	0
4	阿姨	0.00052
...	...	...
789	服装	0.034
...	...	...
64000	做作	0.075

不同的新闻，因为文本长度的不同，他们的特征向量各个维度的树脂也不同。可以通过计算两个向量的夹角来判断对应的新闻主题的接近程度。用到余弦定理。

# 第十五章

《美丽数学》读书笔记

评论 (0)