读书笔记——《数学之美》

作者: 康凯森

日期: 2016-03-05

分类: 笔记

简单性和模块化是软件工程的基石；分布式和容错性是互联网的生命
语言和数学的产生都是为了同一个目的————记录和传播信息
文字的理解需要上下文
翻译这件事之所以能达成，仅仅是因为不同文字系统在记录信息的能力上是等价的
文字只是信息的载体，而非信息本身
信息的冗余是信息安全的保障
语言的数据，我们称之为语料，尤其是汉语或者多语的对照语料对翻译至关重要，它是机器翻译研究的基础
任何事物的规律性都是内在的，并不随它的载体而改变
词是有限且封闭的集合，而语言是无限且开放的集合
任何一种语言都是一种编码的方式，而语言的语法规则是编解码的算法
基于统计的自然语言处理，基于统计方法的核心模型是通信系统加隐含马尔科夫模型
一个句子是否合理，就看它的可能性大小如何
马尔科夫假设
使用语言模型需要知道模型中所有的条件概率，我们称之为模型的参数。通过对语料的统计，得到这些参数的过程称作模型的训练
大数定理
零概率问题
古德——图灵估计
卡茨退避法
最简单的分词方法——查字典
通信的本质就是编解码和传输的过程
几乎所有的自然语言处理问题都可以等价成通信的解码问题
符合马尔科夫假设的随机过程称为马尔科夫过程，也称马尔科夫链
隐含马尔科夫模型（转移概率，生成概率）
有监督训练和无监督训练
EM过程（期望值最大化）：不断估计新的模型参数，使得输出概率（我们的目标函数）达到最大化
信息量就等于不确定性的多少
信息熵对一个信息系统不确定性的度量
变量的不确定性越大，熵也就越大。要把它搞清楚，需要的信息量也就越大
信息是消除系统不确定性的唯一办法，在没有获得任何信息前，一个系统就像是一个黑盒，引入信息，就可以了解系统黑盒的内部结构
几乎所有的自然语言处理，信息与信号处理的应用都是一个消除不确定性的过程
条件熵
互信息衡量俩个事件的相关程度
相对熵衡量俩段信息的相似程度
《信息论基础》
一个人想要在自己的领域做到世界一流，他的周围必须有许多世界一流的人物
技术分为道和术俩种，具体的做事方法是术，做事的原理和原则是道
一个搜索引擎主要做3件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序
真理在形式在从来都是简单的，而不是复杂和含混的
网页排名算法的高明之处在于它把整个互联网当做一个整体来对待，这符合系统论的观点
TF-IDF
好的算法：简单，有效，可靠性好而且容易读懂
向量的夹角是衡量俩个向量相似程度的度量
新闻的相似性：向量余弦
奇异值分解

《OLAP 性能优化指南》欢迎 Star&共建

《OLAP 性能优化指南》

读书笔记——《数学之美》

《OLAP 性能优化指南》欢迎 Star&共建

欢迎关注微信公众号