从数学背景到神经网络理论研究:盖阔的探索与发现

aixo 2024-10-28 11:30:42
大模型 2024-10-28 11:30:42

因为自己是数学背景出身,所以就想做一些理论的结果。但在当时神经网络理论研究的框架已经很清晰,研究剩下的空白难题则都非常有难度。

“以至于我读了很久的已有文献,也没能找到原创性的切入点。”他说。

经历一系列不成功的尝试之后,盖阔又回到了最初的一个直觉的想法:因为网络的宽度更容易分析,比如对于一个简单的线性方程 来说,当增加 W 的尺寸之后,能求解的关于 X 和 Y 之间的方程个数也会线性增加。

如能把深度等效为宽度,将两层网络等效为一个单层的大矩阵,那么就可以通过消元法去找到这个大矩阵方程的解,也就对应着两层神经网络的解,这也说明增加网络深度就像增加宽度一样有效。

但是,对于逐元素非线性激活函数与矩阵乘法之间的复合几乎没有什么工具来帮助计算,也不具备很好的优化性质。

例如,对于方程

假设 都是已知的,如果 是 ReLU 或者 函数, 那么求解这个方程是很困难的。

因为不是凸问题,所以即便使用优化后的方法也无法保证一定会求到解答。但是,求解这样一个方程却是他在课题构想中的重要一步。

虽然没能进一步推进,不过问题的具体形式已经相对清晰了。盖阔表示如果将激活函数的范围拓宽,这样的方程就可以找到解(例如把激活函数换成矩阵指数)。

这样做的好处是,当两个矩阵是可交换的时候,经过矩阵指数函数激活之后,所得到的矩阵也是可交换的。

为了使特定矩阵具有可交换的性质,就需要额外增加一层网络参数。有了可交换的性质,就很容易求解上述方程,那么就可以在等效的大矩阵里做消元,找到三层函数的一组解。

就这样,他就在这种特殊的激活函数下实现了最初的设想。

具体来说,盖阔和博士导师张世华研究员讨论之后认为:如能找到一个简单直接的例子,能够说明在有激活函数的情况下,网络加深一层后能够拟合更多的数据点,那么这样的结果可能更有意义。

为此他们将网络参数扩展到复数域,并且将逐元素的激活函数替换为矩阵指数激活函数,从而可以对三层的神经网络:

找到一组解析解使得:

其中,所有的矩阵均为 d 维的方阵,这就说明了网络深度的有效性,因为假如只有一层网络的话就只能满足一组 。

总的来说,他们在理论上找到了一个解释性较好的例子,可以帮助人们更好地理解神经网络深度以及非线性激活函数的有效性。

实验中他们观察到,虽然本次理论结果是针对矩阵指数激活函数而言的,但对于逐元素的 ReLU 或者 激活函数,也能在网络较宽时观察到类似的优化结果,即两层网络拟合数据点的能力大概是单层的二倍。而这可能会启发其他研究者发现更加一般性的结论。

日前,相关论文以《矩阵指数激活函数的三层网络的解析解》( OF A THREE-LAYER WITH A ) 为题发在 arXiv [1]。