交叉熵和对数损失函数之间的关系

软件发布|下载排行|最新软件

当前位置：首页 → IT学院 → IT技术 →

交叉熵和对数损失函数之间的关系

早起的小虫子 2021-02-01 我要评论

交叉熵

熵/信息熵

假设一个发送者想传输一个随机变量的值给接收者。这个过程中，他们传输的平均信息量为：

叫随机变量的熵，其中

把熵扩展到连续变量的概率分布,则熵变为

被称为微分熵。

在离散分布下，最大熵对应于变量的所有可能状态的均匀分布。

最大化微分熵的分布是高斯分布

相对熵/KL散度

考虑某个未知分布，假设我们使用一个近似分布对其进行建模。如果我们使用来建立一个编码体系，用来把传递给接收者，由于我们使用了而不是真实分布，因此在具体化时，我们需要一些附加信息。我们需要的附加信息量为：

这被称为分布与分布之间的相对熵，或者KL散度。KL散度大于等于零，当两个分布一致时等于零。

交叉熵

交叉熵本质上可以看成，用一个猜测的分布的编码去编码真实的分布，得到的信息量：

对所有训练样本取均值得到：

对数损失函数

对数损失函数的表达式为：

参见https://blog.csdn.net/qq_38625259/article/details/88362765

交叉熵和对数损失函数之间的关系

交叉熵中未知真实分布相当于对数损失中的真实标记，寻找的近似分布相当于我们的预测值。如果把所有样本取均值就把交叉熵转化成了对数损失函数。

本文转载自：https://blog.csdn.net/qq_38625259/article/details/88371462?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.control

相关文章

猜您喜欢

今日热门

Copyright 2022 版权所有软件发布访问手机版

声明：所有软件和文章来自软件开发商或者作者如有异议请与本站联系联系我们