# 第一章
(1) 通信的原理和信息传播的模型
(我)传播源——>声音(编码)——信道(空气)——>听到的声音(解码)——>接收者(你)
传播源:发出信息(我发出声音)
信道:传播信息(如空气)
接收者:接收信息(你听到声音)
*语言的数据称为语料。
(2) (信源)编码和最短编码
编码:信源使用语法发出的信息。
最短编码:常用的信息编码短。
(3)解码的规则,语法
按照一定语法将编码解码,得到能看懂的语言。
(4)聚类
但信息数量爆炸增长时需要分类,按类别分类即为聚类。
(5)检验位
如古犹太人抄写《圣经》,每个字母有特定数字代表,每行每列有特定的值反正抄写错误。
(6)双语对照文本,语料库和机器翻译
如罗塞塔石碑有三种语言,知道其中一种语言就能知道剩下的意思,意思为原有的信息不会丢失。
数据爆炸形成语料库,大量的数据构成语料库。
机器翻译:将一种自然语言(源语言)翻译为另一种自然语言(目标语言)的过程。
(7)多义性和利用上下文消除歧义
一个字词可能有多种意思,在翻译时需要根据上下文得知具体语境所需的意思。
# 第二章
自然语言处理,从规则到统计
计算机能处理自然语言,且处理方法与人类一样
基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上的自然语言处理又和语言的初衷————通信联系在一起了。
# 第三章
统计语言模型
一个基本问题就是在自然语言处理中常说的统计语言模型,它是今天所以自然语言处理的基础,并且广泛运用于机器翻译,语音识别,印刷体或手写体识别,拼写纠错,汉字输入和文献查询。
# 第四章
中文分词以统计语言模型为基础。
# 第五章
(1)通信模型
雅各布森(Roman Jakobson)提出的信道6个要素。
信息,上下文(发送者)—编码—>传递的信息(信道)—解码—>接收的信息(接收者)
(2)隐马尔可夫模型
任意时刻的概率只和前一个有关
是机器学习的主要工具。
# 第六章
信息的度量和作用
(1)信息熵
信息量的量化度量。
(2)信息的作用
信息是消除系统不确定性的唯一办法。(在没有获得任何信息前,一个系统就像是一个黑盒子,引入信息,就可以了解黑盒子系统的内部结构)
(3)互信息
互信息作为两个随机事件“相关性”的量化度量。广泛用于判断两个事件的相关性。
# 第七章
贾里尼克和现代语言处理
“什么方法不好”
# 第八章
简单之美——布尔代数和搜索引擎
(1)布尔代数
运算元素:1(TRUE,真),0(FALSE,假)
基本运算:与(AND),或(OR),非(NOT)
(2)索引
什么是搜索索引:如图书馆的索引卡片,通过索引卡片直接去书架拿书
是基于数据库的,基本原理基于布尔代数
# 第九章
图论和网络爬虫
(1)图论
图论〔Graph Theory〕是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。
(2)网络爬虫
图论的遍历算法和搜索引擎的关系。
网络爬虫:把每个网页当作一个节点,把那些超链接当作链接网页的弧。从任意网页出发,用图的遍历算法,自动地访问到每一个网页并把他们存起来。
# 第十章
PageRank算法
网页排名算法:给不同的网页的链接区别对待,给排名高的以更高的权重,即网页排名高的网站贡献的链接权重大。
# 第十一章
如何确定网页和查询的相关性
搜索关键词权重的科学度量TF-IDF
一个特定条件下关键词的概率分布的交叉熵
# 第十二章
有限状态机和动态规划
地址的识别和分析是本地搜索必不可少的技术。
有限状态机是一个特殊的有向图,每一个有限状态机都有一个开始状态和一个终止状态,以及若干中间状态。
<1>动态规划(参考:https://zhuanlan.zhihu.com/p/365698607)
全球导航的关键算法是计算机科学图论中的动态规划的算法。
动态规划就是:给定一个问题,我们把它拆成一个个子问题,直到子问题可以直接解决。然后呢,把子问题答案保存起来,以减少重复计算。再根据子问题答案反推,得出原问题解的一种方法。
核心思想:拆分子问题,记住过往,减少重复计算。
例子:
A : "1+1+1+1+1+1+1+1 =?"
A : "上面等式的值是多少"
B : 计算 "8"
A : 在上面等式的左边写上 "1+" 呢?
A : "此时等式的值为多少"
B : 很快得出答案 "9"
A : "你怎么这么快就知道答案了"
A : "只要在8的基础上加1就行了"
A : "所以你不用重新计算,因为你记住了第一个等式的值为8!动态规划算法也可以说是 '记住求过的解来节省时间"
# 第十三章
简单的哲学
必定有某种方法能够以最简单的形式表达复杂的东西
# 第十四章
余弦定理和新闻的分类
将新闻的实词数字化,计算它们的TF-IDF值,将这些值按照对应的实词在词汇表的位置依次排列,就得到一个向量
编号和词如表所示
统计词汇表
单词编号 | 汉字词 | TF-IDF值 |
---|---|---|
1 | 阿 | 0 |
2 | 啊 | 0.0034 |
3 | 阿斗 | 0 |
4 | 阿姨 | 0.00052 |
... | ... | ... |
789 | 服装 | 0.034 |
... | ... | ... |
64000 | 做作 | 0.075 |
不同的新闻,因为文本长度的不同,他们的特征向量各个维度的树脂也不同。可以通过计算两个向量的夹角来判断对应的新闻主题的接近程度。用到余弦定理。
# 第十五章
评论 (0)