作者: 康凯森
日期: 2016-03-05
分类: 笔记
简单性和模块化是软件工程的基石;分布式和容错性是互联网的生命
语言和数学的产生都是为了同一个目的————记录和传播信息
文字的理解需要上下文
翻译这件事之所以能达成,仅仅是因为不同文字系统在记录信息的能力上是等价的
文字只是信息的载体,而非信息本身
信息的冗余是信息安全的保障
语言的数据,我们称之为语料,尤其是汉语或者多语的对照语料对翻译至关重要,它是机器翻译研究的基础
任何事物的规律性都是内在的,并不随它的载体而改变
词是有限且封闭的集合,而语言是无限且开放的集合
任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法
基于统计的自然语言处理,基于统计方法的核心模型是通信系统加隐含马尔科夫模型
一个句子是否合理,就看它的可能性大小如何
马尔科夫假设
使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练
大数定理
零概率问题
古德——图灵估计
卡茨退避法
最简单的分词方法——查字典
通信的本质就是编解码和传输的过程
几乎所有的自然语言处理问题都可以等价成通信的解码问题
符合马尔科夫假设的随机过程称为马尔科夫过程,也称马尔科夫链
隐含马尔科夫模型(转移概率,生成概率)
有监督训练和无监督训练
EM过程(期望值最大化):不断估计新的模型参数,使得输出概率(我们的目标函数)达到最大化
信息量就等于不确定性的多少
信息熵 对一个信息系统不确定性的度量
变量的不确定性越大,熵也就越大。要把它搞清楚,需要的信息量也就越大
信息是消除系统不确定性的唯一办法,在没有获得任何信息前,一个系统就像是一个黑盒,引入信息,就可以了解系统黑盒的内部结构
几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程
条件熵
互信息 衡量俩个事件的相关程度
相对熵 衡量俩段信息的相似程度
《信息论基础》
一个人想要在自己的领域做到世界一流,他的周围必须有许多世界一流的人物
技术分为道和术俩种,具体的做事方法是术,做事的原理和原则是道
一个搜索引擎主要做3件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序
真理在形式在从来都是简单的,而不是复杂和含混的
网页排名算法的高明之处在于它把整个互联网当做一个整体来对待,这符合系统论的观点
TF-IDF
好的算法:简单,有效,可靠性好而且容易读懂
向量的夹角是衡量俩个向量相似程度的度量
新闻的相似性:向量余弦
奇异值分解