🚩 转载📅 2024-09-11发表🕰️ 2025-06-15更新📁 学习记录⌛ 9 分钟读完 (大约1349个字)👀 0次访问

模型压缩、模型剪支、模型蒸馏、模型稀疏化有系统的数学理论做依托吗？

📎 原文链接：https://www.zhihu.com/question/594296903/answer/2979485641

太长不看版

有的

比较复杂版

说实在的我一开始也是不懂的，但是在GPT4的助力之下，勉强算是搞清楚大框架了，但细节没有搞得特别清楚。所以很可能有说错的地方，发现了就请指正，锅由GPT4来背。。。当然如果没什么问题，也帮你看懂了，那功劳完全在我。

首先看一下万能逼近定理的数学表达：

意思是一个两层的神经网络 $$f_m$$ 能以右边那个精度逼近目标函数 $$f$$ ，其中m代表参数量。右边那个项的上半部分的 $$C_f$$ 是 $$f$$ 函数傅立叶变换的L1-norm的积分，只要这个积分是收敛的，我们就能通过提高m来逼近目标函数，当m趋向于无穷大，我们就能无限逼近目标函数。

通过类似的思路，我们也可以用子网络去逼近原始网络，先学习一下Carathéodory引理：

对于任意一个点 x，如果它位于凸集 C 的凸壳内，那么可以找到 C 中的 n+1 个点（或更少），它们的凸组合等于 x。凸组合是指选择这些点的权重（系数）满足非负且和为1的线性组合。- GPT4

简单点，在二维空间说，就是二维平面上取三个点，这三个点围成的三角形（凸壳）内的某个点，肯定能用这三个点的线性组合来表达。那么假设是一个维度为n的高维空间，我要用比n小的k个点来表达（仍然是n维空间的点，只是点的数目少于n个了，也就是稀疏化），那就会产生一个误差，这个误差是有上界的：

这本书的作者还特意说了，这个公式非常爽，因为k和n是独立的。把这个思想转移到神经网络的稀疏化上，就得到以下公式：

这里面 $$g$$ 代表原始神经网络， $$\sum_{i}^{n}{c_if_i}$$ 代表的一个稀疏化的神经网络。后面还有一个更详细的公式。

如果把 $$g$$ 表示为两层神经网络 $$\Phi_a{(.,\theta)}$$ ，其中 $$w^{(1)},b^{(1)}$$ 是第一层的权重和偏置， $$\varrho$$ 是激活函数， $$w^{(2)}$$ 是第二层的权重。下面的公式说，若稀疏化后的神经网络 $$\Phi_a{(.,\tilde{\theta})}$$ 仅保留原神经网络1/100的参数，两个神经网络之间的精度差满足一个上界，就是小于号的右边那一坨，公式里面的 I 就是稀疏化之后留下来的那些连接：

那么这个莫名其妙的15是怎么来的呢，如果原始神经网络有n个连接，那么稀疏化后的神经网络连接数就只有n/100，那个15是这么来的：

于是，就证明了稀疏化后的神经网络可以逼近原始网络，逼近的精度差有一个上界，就是右边那一坨东西。然后我们会发现，n越大，精度差的上界就越小，也就是说网络越宽，越容易稀疏化，这也很合理。这个公式已经是参考文献[2]的作者简化过的版本了，只考虑两层神经网络。

原始版本如下，还考虑了网络的深度，太复杂了，我就没尝试去理解了，你们就看个新鲜，反正意思是一样的，一个深度神经网络 $$f(W,x)$$ 稀疏化之后的神经网络 $$f(\tilde{W}，x）$$ 能逼近原网络，逼近精度差的上界就是右边那坨东西， M 你就大概理解为模型复杂度，本质上是一样的：

一点微小的人生经验

粗暴的分割线之后我想说的是，虽然数学看起来很美好很有意思很严密的样子，但其实并没有什么用。就这样折腾了老半天，结论就是：用一个稀疏的神经网络去逼近原始神经网络，在满足各种不是特别强的假设之后，逼近的精度差存在一个上界。咱就是说，这还用得着你说？我用高维空间少量的点进行线性组合去逼近某一个特定的点，那当然能在一定范围内逼近。。。

数学自然有数学家去搞，咱们搞深度学习的，能看懂KL散度之类的蒸馏损失，知道常用的剪枝算法就可以了，多动手实践是王道哈。

参考文献

[0] High dimensional probability. An introduction with applications in Data Science.[1] Theoretical Deep Learning PKU-Summer2021[2] The Modern Mathematics of Deep Learning[3] Approximation and Estimation for High-Dimensional Deep Learning Networks

模型压缩、模型剪支、模型蒸馏、模型稀疏化有系统的数学理论做依托吗？

https://blog.counpy.me/2024/09/模型压缩、模型剪支、模型蒸馏、模型稀疏化有系统的数学理论做依托吗？/

作者

Jhuoer Yen

发布于

2024-09-11

更新于

2025-06-15

模型压缩、模型剪支、模型蒸馏、模型稀疏化有系统的数学理论做依托吗？

太长不看版

比较复杂版

一点微小的人生经验

参考文献

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

分类

标签

最新文章

目录

Your browser is out-of-date!