读书笔记——《数学之美》


作者: 康凯森

日期: 2016-03-05

分类: 笔记


  • 简单性和模块化是软件工程的基石;分布式和容错性是互联网的生命

  • 语言和数学的产生都是为了同一个目的————记录和传播信息

  • 文字的理解需要上下文

  • 翻译这件事之所以能达成,仅仅是因为不同文字系统在记录信息的能力上是等价的

  • 文字只是信息的载体,而非信息本身

  • 信息的冗余是信息安全的保障

  • 语言的数据,我们称之为语料,尤其是汉语或者多语的对照语料对翻译至关重要,它是机器翻译研究的基础

  • 任何事物的规律性都是内在的,并不随它的载体而改变

  • 词是有限且封闭的集合,而语言是无限且开放的集合

  • 任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法

  • 基于统计的自然语言处理,基于统计方法的核心模型是通信系统加隐含马尔科夫模型

  • 一个句子是否合理,就看它的可能性大小如何

  • 马尔科夫假设

  • 使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练

  • 大数定理

  • 零概率问题

  • 古德——图灵估计

  • 卡茨退避法

  • 最简单的分词方法——查字典

  • 通信的本质就是编解码和传输的过程

  • 几乎所有的自然语言处理问题都可以等价成通信的解码问题

  • 符合马尔科夫假设的随机过程称为马尔科夫过程,也称马尔科夫链

  • 隐含马尔科夫模型(转移概率,生成概率)

  • 有监督训练和无监督训练

  • EM过程(期望值最大化):不断估计新的模型参数,使得输出概率(我们的目标函数)达到最大化

  • 信息量就等于不确定性的多少

  • 信息熵 对一个信息系统不确定性的度量

  • 变量的不确定性越大,熵也就越大。要把它搞清楚,需要的信息量也就越大

  • 信息是消除系统不确定性的唯一办法,在没有获得任何信息前,一个系统就像是一个黑盒,引入信息,就可以了解系统黑盒的内部结构

  • 几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程

  • 条件熵

  • 互信息 衡量俩个事件的相关程度

  • 相对熵 衡量俩段信息的相似程度

  • 《信息论基础》

  • 一个人想要在自己的领域做到世界一流,他的周围必须有许多世界一流的人物

  • 技术分为道和术俩种,具体的做事方法是术,做事的原理和原则是道

  • 一个搜索引擎主要做3件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序

  • 真理在形式在从来都是简单的,而不是复杂和含混的

  • 网页排名算法的高明之处在于它把整个互联网当做一个整体来对待,这符合系统论的观点

  • TF-IDF

  • 好的算法:简单,有效,可靠性好而且容易读懂

  • 向量的夹角是衡量俩个向量相似程度的度量

  • 新闻的相似性:向量余弦

  • 奇异值分解


评论