复杂形态钢结构设计培训班

首页 非解构-公众号 贝叶斯优化宇宙|信息熵

贝叶斯优化宇宙|信息熵

最近你吃瓜了吗?我们在吃瓜的时候往往会说:“这个瓜信息量巨大!”,然而你可能万万没想到的是,信息量居然可以量化,而且是一个在机器学习领域使用广泛的一个词,今天我们来介绍一下信息论中用来量化信息量的信息熵。

1.信息熵

说到信息熵就不得不说到其提出者,克劳德·香农,也被被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》(通信的数学理论)作为现代信息论研究的开端。

图1. 克劳德·香农(Claude Elwood Shannon )

在信息论中,信息熵代表事件的不确定性,而能消除不确定性的叫做信息。最简单的具有不确定性的事件当属抛硬币了,假设这是一枚正常的硬币(不会立起来,正面朝上和反面朝上等可能),那么抛一次硬币这个事件的不确定性就是1 bit,和定义质量等单位一样,事件的信息熵也是用类似抛硬币这种具有两种等可能性结果的事件来度量。

假设我们面对这样一道选择题:

由于我看到这道题的时候脑袋里只有一团乱麻,不知道任何可以帮我解决这个问题的信息,这4个选项对我来说的可能性是相同的,都是1/4,那么对我来说这道题的不确定性相当于抛两枚硬币,因为两枚硬币的可能情况有(正正,正负,负正,负负,对于两枚正常的硬币这四种情况也是等可能的),刚才我们定义抛一枚硬币这件事的不确定性(信息熵)是1bit,那么这道选择题的不确定性(信息熵)就是2 bits(比特),而如果这时候如果有一个知道真正答案的明白人告诉我:“C是正确答案”,那么这个明白人就为我提供了2 bits的信息。所以信息量实际上是通过可以减少多少不确定性(信息熵)来计算的

香农对信息熵的定义是:设是一个取有限个值的离散随机变量,其概率分布为

则随机变量的熵定义为

在上道选择题中,由于我什么都不知道,所以每个选项蒙对的概率都是相等的,是,那么熵就等于,实际上当我们选择抛硬币这种具有两种等可能情况的事件作为度量时,熵的公式中对数以2为底,这时算出的熵的单位为bit,当我们以自然对数e为底时,意味着我们选择的标准事件是有e个等可能情况,这时算出的熵的单位为nat(纳特)。

2.信息熵的相关定义

条件熵(Conditional entropy)

设有随机变量,其联合概率分布为

表示在已知随机变量的条件下随机变量的不确定性,定义为给定条件下的条件概率分布的熵对的数学期望

互信息(Mutual information)

与条件熵的差称为互信息,表示得知X的信息而使得的不确定性减少的程度

互信息具有对称性

KL 散度(Kullback–Leibler divergence)

KL散度还有另外一个名字:相对熵(relative entropy),是用来衡量两个概率分布p(x)和q(x)的差异(“距离”),他的定义是

这里面的距离是带引号的,因为和我们普遍理解的距离不同,KL散度是不对称的,也就是,同时KL散度也是一个大于等于0的值,当完全相等时,

3.信息熵在采集函数中应用

贝叶斯优化宇宙的上一篇文章《贝叶斯优化之采集函数》中我们讲了采集函数EI和PI,但这两个方法都是上世纪提出的, “在2012年Hennig等引入了信息增益(Information Gain)提出熵搜索(Entropy Search,ES)的方法,与基于提升的算法(PI,EI)相比,熵搜索更加侧重于不确定性而不仅仅是极值点可能的位置,更具体的讲,EI 与 PI 都是基于每一代的模型预测极值点可能在哪里,而基于熵的算法更关心下一个点加在哪里可以得到更多关于极值点的信息,换句话说我们基于已有的并不完全准确的模型得到极值点可能的位置也许只包含很少关于极值点真实位置的信息,而熵的方法更关心加在哪里可以得到更多信息从而降低不确定性(信息熵)”。

熵搜索(ES, Entropy Search)

现在我们回到贝叶斯优化框架中,设想现在我们处在第n次迭代过程中,是目标函数的全局最优解,目标函数在第代的后验分布也让有一个概率分布。第次迭代时后验分布的熵为。同样地,如果我们在处加点并得到观测值则表示新的后验模型下后验分布的熵,符合条件熵的定义。因此加点的过程可以使分布的熵降低

这就是熵搜索的公式,其中第一项没有封闭形式,而第二项根据条件熵的公式等于

其中是均值为,方差为的正态分布,这一项也是没有封闭形式的,使用蒙特卡洛(Monte Carlo)方法近似积分需要计算多个值,计算代价很大。同时由于整体没有封闭形式, 计算的代价也很大。从另一个角度看,实际上就是,根据互信息的对称性,可以写为

2014年Lobato等人提出了这个与ES等价的方法:预测熵搜索(Predictive Entropy Search,PES)。与ES不同的是,的第一项可以写成封闭形式

第二项可以通过采样的方法近似求得。

引入信息增益的PES方法对比EI和PI能够更好的降低模型的不确定性,但公式也更加复杂,同时计算量也更大,而且由于没有解析形式,基于采样的方法又增加了额外的参数,后续我们会介绍PES针对这些问题的的改进版。

信息熵在机器学习领域的应用非常广泛,比如说贝叶斯优化中的采集函数,变分推断中的KL divergence(KL 散度)和神经网络回归问题的交叉熵损失函数(cross entropy),我们会在后续文章中介绍。


为了方便大家交流技术和互通行业资讯,

请添加我们“转自:非解构-公众号”微信,

加入相关讨论交流群。

往期回顾
结构工程师都知道的设计要点
几种地下室顶板结构形式的经济性比较
连梁超筋的处理方法——对梁的内力和配筋进行再调整
抗浮锚杆

本文来自网络,不代表钢构人的立场,转载请注明出处。搜索工程类文章,就用钢构人网站。 https://www.ganggouren.com/2021/03/0e61ec4eee/
上一篇
下一篇

作者: ganggouren

为您推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

17717621528

在线咨询: QQ交谈

邮箱: 1356745727@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部