模型压缩、模型剪支、模型蒸馏、模型稀疏化有系统的数学理论做依托吗?
太长不看版
有的
比较复杂版
说实在的我一开始也是不懂的,但是在GPT4的助力之下,勉强算是搞清楚大框架了,但细节没有搞得特别清楚。所以很可能有说错的地方,发现了就请指正,锅由GPT4来背 。。。当然如果没什么问题,也帮你看懂了,那功劳完全在我。
首先看一下万能逼近定理的数学表达:
意思是一个两层的神经网络 $$f_m$$ 能以右边那个精度逼近目标函数 $$f$$ ,其中m代表参数量。右边那个项的上半部分的 $$C_f$$ 是 $$f$$ 函数傅立叶变换的L1-norm的积分,只要这个积分是收敛的,我们就能通过提高m来逼近目标函数,当m趋向于无穷大,我们就能无限逼近目标函数。
通过类似的思路,我们也可以用子网络去逼近原始网络,先学习一下Carathéodory引理:
对于任意一个点 x,如果它位于凸集 C 的凸壳内,那么可以找到 C 中的 n+1 个点(或更少),它们的凸组合等于 x。凸组合是指选择这些点的权重(系数)满足非负且和为1的线性组合。- GPT4
简单点,在二维空间说,就是二维平面上取三个点,这三个点围成的三角形(凸壳)内的某个点,肯定能用这三个点的线性组合来表达。那么假设是一个维度为n的高维空间,我要用比n小的k个点来表达(仍然是n维空间的点,只是点的数目少于n个了,也就是稀疏化),那就会产生一个误差,这个误差是有上界的:
这本书的作者还特意说了,这个公式非常爽,因为k和n是独立的。把这个思想转移到神经网络的稀疏化上,就得到以下公式:
这里面 $$g$$ 代表原始神经网络, $$\sum_{i}^{n}{c_if_i}$$ 代表的一个稀疏化的神经网络。后面还有一个更详细的公式。
如果把 $$g$$ 表示为两层神经网络 $$\Phi_a{(.,\theta)}$$ ,其中 $$w^{(1)},b^{(1)}$$ 是第一层的权重和偏置, $$\varrho$$ 是激活函数, $$w^{(2)}$$ 是第二层的权重。下面的公式说,若稀疏化后的神经网络 $$\Phi_a{(.,\tilde{\theta})}$$ 仅保留原神经网络1/100的参数,两个神经网络之间的精度差满足一个上界,就是小于号的右边那一坨,公式里面的 I 就是稀疏化之后留下来的那些连接:
那么这个莫名其妙的15是怎么来的呢,如果原始神经网络有n个连接,那么稀疏化后的神经网络连接数就只有n/100,那个15是这么来的:
于是,就证明了稀疏化后的神经网络可以逼近原始网络,逼近的精度差有一个上界,就是右边那一坨东西。然后我们会发现,n越大,精度差的上界就越小,也就是说网络越宽,越容易稀疏化,这也很合理。这个公式已经是参考文献[2]的作者简化过的版本了,只考虑两层神经网络。
原始版本如下,还考虑了网络的深度,太复杂了,我就没尝试去理解了,你们就看个新鲜,反正意思是一样的,一个深度神经网络 $$f(W,x)$$ 稀疏化之后的神经网络 $$f(\tilde{W},x)$$ 能逼近原网络,逼近精度差的上界就是右边那坨东西, M 你就大概理解为模型复杂度,本质上是一样的:
一点微小的人生经验
粗暴的分割线之后我想说的是,虽然数学看起来很美好很有意思很严密的样子,但其实并没有什么用。就这样折腾了老半天,结论就是:用一个稀疏的神经网络去逼近原始神经网络,在满足各种不是特别强的假设之后,逼近的精度差存在一个上界。咱就是说,这还用得着你说?我用高维空间少量的点进行线性组合去逼近某一个特定的点,那当然能在一定范围内逼近 。。。
数学自然有数学家去搞,咱们搞深度学习的,能看懂KL散度之类的蒸馏损失,知道常用的剪枝算法就可以了,多动手实践是王道哈。
参考文献
[0] High dimensional probability. An introduction with applications in Data Science.[1] Theoretical Deep Learning PKU-Summer2021[2] The Modern Mathematics of Deep Learning[3] Approximation and Estimation for High-Dimensional Deep Learning Networks
模型压缩、模型剪支、模型蒸馏、模型稀疏化有系统的数学理论做依托吗?
https://blog.counpy.me/2024/09/模型压缩、模型剪支、模型蒸馏、模型稀疏化有系统的数学理论做依托吗?/