当前位置: 首页 > news >正文

ICML 2025 | 低秩Swish网络:理论突破实现高效逼近,小模型性能媲美大网络

一、导读

近年来,深度学习模型的参数量急剧增加,计算成本成为制约其广泛应用的关键因素。尤其在边缘设备和实时场景中,如何在保证模型性能的同时降低计算开销,成为学术界和工业界共同关注的焦点。低秩压缩作为一种高效的模型压缩方法,通过矩阵分解技术大幅减少参数量,但其理论支撑仍存在明显不足——现有研究多集中于ReLU等传统激活函数,而对Swish等新兴激活函数的理论分析几乎为空白。
本文从逼近论的角度切入,系统研究了低秩Swish网络的函数逼近能力。研究发现,在特定网络架构下(即在相邻非线性层间插入足够窄的无偏置线性层),固定深度的低秩Swish网络能够以任意精度逼近Holder球中的连续函数。更具突破性的是,理论证明线性隐藏层的宽度只需不超过非线性层的三分之一,这意味着计算成本至少可降低33%。这一发现不仅填补了低秩压缩理论在Swish激活函数上的空白,也为实际应用中的模型轻量化提供了可靠的理论依据。研究团队通过构造性证明和大量实验验证了该理论的正确性,在多个标准数据集上实现了性能与效率的平衡,为资源受限场景下的模型部署开辟了新思路。
在这里插入图片描述

论文基本信息

论文标题: Approximation to Smooth Functions by Low-Rank Swish Networks
作者: Zimeng Li, Hongjun Li, Jingyuan Wang, Ke Tang
作者单位:
Beihang University
Tsinghua University
Engineering Research Center of Advanced Computer Application Technology
发布时间: 2025年
论文来源: ICML2025
论文链接: https://openreview.net/pdf/4c7efb466a54ffd1e2c206650cf0c0a7a1430a03.pdf

二、摘要

本文针对深度神经网络在资源受限场景下的应用瓶颈,系统研究了采用Swish激活函数的低秩网络对光滑函数的逼近能力。通过理论分析证明,在相邻非线性层之间插入无偏置的窄线性层后,固定深度的低秩Swish网络能够以任意精度逼近Hölder球函数空间中的连续函数。研究结果表明,当线性隐藏层宽度不超过非线性层的三分之一时,网络在保证逼近能力的同时可显著降低计算复杂度。通过构造性方法,本文给出了网络参数规模与逼近误差之间的定量关系,并在多个标准数据集上验证了理论结果。

三、研究背景及相关工作

3.1研究背景

在深度学习取得广泛应用的同时,神经网络的高计算成本限制了其在某些场景下的应用。为缓解这一问题,低秩压缩作为一种高效且硬件友好的网络压缩方法被提出,其核心思想是通过矩阵分解将神经网络中的大矩阵替换为两个小矩阵的乘积,从而减少计算量。然而,现有研究对低秩压缩的理论基础探讨不足,特别是在通用逼近能力方面的理论保证尚不完善。虽然经验证据表明低秩压缩在大多数实际应用中能保持模型性能,但缺乏严格的理论解释。与此同时,Swish激活函数因其无限可微性和非零导数特性,在逼近高阶导数方面展现出优于ReLU的性能,但相关理论研究相对匮乏。本文旨在从函数逼近理论的角度,探讨低秩Swish网络对光滑函数的逼近能力,为低秩压缩技术提供理论依据,并分析其在计算效率方面的优势。通过建立严格的数学框架,不仅验证了低秩压缩的有效性,还揭示了Swish激活函数在保持网络表达能力的同时提升计算效率。

3.2相关工作

3.2.1 逼近理论

在通用逼近理论(UAT)研究方面,早期工作主要集中于单隐藏层神经网络的逼近能力。Hornik等人和Cybenko在1989年证明了使用压缩函数的单隐藏层网络可以逼近任意可测函数。随着计算技术的发展,深度神经网络的理论研究取得了重要进展,特别是关于ReLU网络的逼近理论。Yarotsky等人系统研究了深度ReLU网络对光滑函数的逼近能力,证明了其具有最优逼近率。然而,ReLU网络在逼近高阶导数方面存在局限,这促使研究者进一步寻找更光滑的激活函数,如Swish等。

3.2.2网络压缩方法

在网络压缩方法研究方面,现有工作主要集中在剪枝、量化和知识蒸馏等技术。Yarotsky、Petersen和Bolcskei等人证明了稀疏神经网络仍能保持最优逼近率,为剪枝技术提供了理论支持。Petersen和Guhring则分别研究了量化网络对分段光滑函数和一般光滑函数的逼近能力。相比之下,低秩压缩的理论研究相对滞后,尽管其在实践中被广泛使用。Denil等人的开创性工作表明可以通过低秩分解来预测网络参数,但缺乏对逼近能力的理论分析。本文的工作填补了这一空白,首次从逼近理论的角度为低秩压缩提供了严格的理论保证。

四、主要贡献

4.1建立低秩Swish网络的逼近理论

首次证明了具有固定深度的低秩Swish网络能够以任意精度逼近Holder球C(β,R)([0,1]d)中的任意光滑函数。通过构造性证明,给出了逼近误差的严格上界估计,并明确了网络深度、宽度等结构参数与逼近精度之间的定量关系。这一理论结果为低秩压缩技术提供了坚实的数学基础,填补了该领域在函数逼近理论方面的研究空白。

4.2方法创新:提出高效网络架构设计

提出了在相邻非线性层之间插入窄线性层的网络结构设计。理论分析表明,这种结构的线性隐藏层宽度可以控制在非线性层宽度的1/3以内,从而确保计算量至少减少33%。这种设计不仅保持了网络的表达能力,还显著提升了计算效率,为实际应用中的网络压缩提供了新的技术路径。

5. 研究方法与基本原理

5.1网络结构设计

基本结构:在相邻非线性层之间插入无偏置的窄线性层
低秩条件: 2 H < H 2H < \mathcal{H} 2H<H
其中 H H H为线性层宽度, H \mathcal{H} H为非线性层宽度
矩阵分解实现:用 W i + 1 V i W_{i+1}V_i Wi+1Vi替代原权重矩阵 W ~ i + 1 \widetilde{W}_{i+1} W i+1
计算量减少证明:
2 H H < H 2 2H\mathcal{H} < \mathcal{H}^2 2HH<H2
H H 2 + H H 2 < H 3 H\mathcal{H}^2 + \mathcal{H}H^2 < \mathcal{H}^3 HH2+HH2<H3

5.2 函数逼近策略

空间划分:将输入空间 [ 0 , 1 ] d [0,1]^d [0,1]d划分为 M d M^d Md个超立方体
局部逼近:在每个网格点 m / M \bm{m}/M m/M处:
构造 κ \kappa κ阶泰勒多项式 P m κ P_{\bm{m}}^\kappa Pmκ
设计近似冲击函数 ϕ m τ \phi_{\bm{m}}^\tau ϕmτ
全局逼近:通过加权组合 ∑ m P m κ ϕ m τ \sum_{\bm{m}} P_{\bm{m}}^\kappa \phi_{\bm{m}}^\tau mPmκϕmτ实现全局逼近

5.3 函数逼近的构造

泰勒多项式逼近​​:

f ∈ C β , R f \in \mathcal{C}^{\beta,R} fCβ,R,在网格点展开 κ \kappa κ阶泰勒多项式:
P m κ ( x ) : = ∑ ∣ α ∣ ≤ κ ∂ α f ( m / M ) α ! ( x − m M ) α P_{\bm{m}}^\kappa(\bm{x}) := \sum_{|\alpha|\leq\kappa} \frac{\partial^\alpha f(\bm{m}/M)}{\alpha!}\left(\bm{x}-\frac{\bm{m}}{M}\right)^\alpha Pmκ(x):=ακα!αf(m/M)(xMm)α
逼近误差控制:
∣ f ( x ) − P m κ ( x ) ∣ ≤ ( κ + d − 1 d − 1 ) R ∥ x − m M ∥ ∞ β \left|f(\bm{x})-P_{\bm{m}}^\kappa(\bm{x})\right| \leq \binom{\kappa+d-1}{d-1} R\left\|\bm{x}-\frac{\bm{m}}{M}\right\|_\infty^\beta f(x)Pmκ(x)(d1κ+d1)R xMm β

​​近似冲击函数设计​​

基于Swish的构造:
ψ τ ( x ) : = 1 τ ( ρ ( τ ( x + 2 ) ) − ρ ( τ ( x + 1 ) ) − ρ ( τ ( x − 1 ) ) + ρ ( τ ( x − 2 ) ) ) \psi^\tau(x) := \frac{1}{\tau}(\rho(\tau(x+2))-\rho(\tau(x+1))-\rho(\tau(x-1))+\rho(\tau(x-2))) ψτ(x):=τ1(ρ(τ(x+2))ρ(τ(x+1))ρ(τ(x1))+ρ(τ(x2)))
局部性保证:
∣ ϕ m τ ( x ) ∣ ≤ ( 2 ∥ ρ ′ ∥ ∞ ) d − 1 ⋅ 6 τ e − τ \left|\phi_{\bm{m}}^\tau(\bm{x})\right| \leq \left(2\|\rho'\|_\infty\right)^{d-1} \cdot 6\tau e^{-\tau} ϕmτ(x)(2∥ρ)d16τeτ

5.4 理论证明流程

(1) 逼近误差分解

​​总误差​​:

∣ n n ( x ) − f ( x ) ∣ ≤ c 4 M − β ⏟ 泰勒误差 + c 5 ( M + 1 ) d τ e − τ ⏟ 冲击函数误差 + c 3 ( M + 1 ) d λ 2 ⏟ 网络近似误差 |nn(\bm{x}) - f(\bm{x})| \leq \underbrace{c_{4} M^{-\beta}}_{\text{泰勒误差}} + \underbrace{c_{5}(M+1)^{d} \tau e^{-\tau}}_{\text{冲击函数误差}} + \underbrace{\frac{c_{3}(M+1)^{d}}{\lambda^{2}}}_{\text{网络近似误差}} nn(x)f(x)泰勒误差 c4Mβ+冲击函数误差 c5(M+1)dτeτ+网络近似误差 λ2c3(M+1)d

(2) 网络复杂度

​​宽度条件​​:

2 ( d + 1 d − 1 ) + 4 ( d + κ − 2 d − 1 ) + 4 ( d + κ − 1 d − 1 ) + 6 ( M + 1 ) d 2\binom{d+1}{d-1} + 4\binom{d+\kappa-2}{d-1} + 4\binom{d+\kappa-1}{d-1} + 6(M+1)^{d} 2(d1d+1)+4(d1d+κ2)+4(d1d+κ1)+6(M+1)d

​计算量压缩:
H H 2 + H H 2 H 3 ≤ 2 3 当 2 H < H \frac{H \mathcal{H}^{2} + \mathcal{H} H^{2}}{\mathcal{H}^{3}} \leq \frac{2}{3} \quad \text{当} \quad 2H < \mathcal{H} H3HH2+HH2322H<H

六、实验结果

6.1实验设置与基准对比

在8个标准UCI数据集上进行了系统性实验验证,包括4个分类任务(Iris、Rice、BankMarketing、Adult)和4个回归任务(RealEstate、Abalone、WineQuality、BikeSharing)。通过网格搜索确定最优网络结构后,对比了传统全连接Swish网络和低秩Swish网络(保持相同深度和非线性层宽度,线性层宽度设为非线性层的1/3)的性能表现。所有实验采用10折交叉验证,以分类准确率(ACC)和均方根误差(RMSE)作为评价指标。

6.2性能对比分析

实验结果显示,在分类任务中,低秩网络在Iris(94.7% vs 95.3%)、Rice(92.6% vs 92.7%)等数据集上的准确率与传统网络相当(p>0.05);在BankMarketing数据集上甚至取得了更优性能(71.1% vs 68.9%)。回归任务中,低秩网络在RealEstate(0.077 vs 0.078)、Abalone(0.077 vs 0.077)等数据集上的RMSE与传统网络无显著差异,而在BikeSharing数据集上显著优于传统网络(0.070 vs 0.100,p<0.05)。配对t检验结果表明,低秩网络在大多数情况下性能下降不显著(t统计量绝对值均小于2,除BikeSharing外)。

6.3计算效率提升

理论分析和实验测量均证实了计算效率的显著提升。实际运行时间测量显示,在相同硬件环境下,低秩网络的平均前向计算时间比传统网络减少约35-40%,这与理论预测的1/3计算量减少相符。特别是在高维数据集(如Adult,d=108)上,内存占用减少了约32%,验证了低秩压缩在大型网络中的实用性。

6.4参数敏感性分析

进一步研究了线性层宽度比例对性能的影响。实验表明,当比例控制在1/3至1/2之间时,网络能在保持性能的同时获得可观的加速;当比例小于1/4时,部分数据集出现性能下降。这为实际应用中的超参数选择提供了重要参考,也验证了理论中1/3比例的理论合理性。

七. 论文总结与展望

总结

本研究从理论分析和实验验证两个维度系统探讨了低秩Swish神经网络的函数逼近能力与计算效率。在理论层面,首次建立了低秩Swish网络对Holder光滑函数的逼近理论,证明了其具有与全连接网络相当的逼近能力,同时通过严格的误差分析给出了网络参数与逼近精度的定量关系。在方法层面,提出的"非线性-窄线性"交替网络结构实现了至少33%的计算量压缩,并通过构造性证明给出了具体的网络实现方案。实验部分在多个标准数据集上验证了理论结果,表明低秩压缩在保持模型性能的同时,确实能显著提升计算效率,特别是在高维问题上展现出明显优势。

展望

1.理论拓展方向
未来研究可将理论分析从Holder连续函数空间扩展到更广泛的函数空间,包括Sobolev空间和Besov空间等,以建立更普适的逼近理论框架。同时,可探索网络深度与逼近精度之间的最优权衡关系,为深度选择提供理论指导。
2.架构创新方向
当前研究主要针对全连接网络,后续工作可将低秩Swish结构推广到卷积神经网络、图神经网络等复杂架构中。特别是研究如何将空间局部性等先验知识融入低秩设计中,以保持特殊网络结构的优势。
3.训练优化方向
未来需要深入研究低秩Swish网络的训练动力学特性,包括梯度传播行为和优化难度。可以探索专门的优化算法或初始化策略,以克服低秩参数化可能带来的训练挑战。
4.应用拓展方向
在应用层面,可重点开发低秩Swish网络在需要高阶导数估计的领域,如物理信息神经网络、微分方程求解等。同时,研究其在边缘设备部署、实时系统等计算资源受限场景中的实际应用价值。

http://www.lqws.cn/news/514657.html

相关文章:

  • CSP - J 400分题单总结(洛谷题号)
  • 通过 HTML 子图和多尺度卷积 BERT 的双向融合实现可解释的恶意 URL 检测
  • xtrabackup 的工作原理 为什么不用停服?
  • Jenkins Pipeline 与 Python 脚本之间使用环境变量通信
  • IDEA高效开发指南:JRebel热部署
  • 设计模式精讲 Day 13:责任链模式(Chain of Responsibility Pattern)
  • 激光束修复手机屏任意层不良区域,实现液晶线路激光修复原理
  • 鸿蒙与h5的交互
  • AR美型SDK,重塑面部美学,开启智能美颜新纪元
  • 微信小程序适配 iPhone 底部导航区域(safe area)的完整指南
  • 【JAVA】idea中打成jar包后报错错误: 找不到或无法加载主类
  • 大学专业科普 | 物联网、自动化和人工智能
  • IO多路复用——Poll底层原理深度分析
  • 深入解析RS485通信:从原理到Linux驱动开发实践
  • DeepSeek在数据分析与科学计算中的革命性应用
  • “易问易视”——让数据分析像聊天一样简单
  • 终止分区表变更操作时误删数据字典缓存导致MySQL崩溃分析
  • 【网站内容安全检测】之2:从网站所有URL页面中提取所有外部及内部域名信息
  • 批量DWG转PDF工具
  • 提供一种在树莓派5上切换模式的思路(本文是面向显示屏配置文件)
  • LVS-DR负载均衡群集深度实践:高性能架构设计与排障指南
  • BUUCTF在线评测-练习场-WebCTF习题[ACTF2020 新生赛]BackupFile1-flag获取、解析
  • 一款实验室创客实验室用的桌面式五轴加工中心
  • 04-html元素列表-表格-表单
  • django request.data.get 判断有没有 某个参数
  • GROUP BY、UNION和COALESCE协作
  • 电商导购app平台的缓存策略与性能优化方案:架构师的实践经验
  • 【番外篇】TLS指纹
  • 4.1 ROS颜色目标识别与定位
  • 【大厂机试题解法笔记】分解连续正整数组合/ 分解正整数