草庐IT

UniRepLKNet

全部标签

UniRepLKNet

这里提出一种在图像上非常强力的backbone,本文所报告的发现表明,大核CNN的潜力还完全没有得到充分开发。即便在Transformer的理论强项——“大一统建模能力”上,大核CNN也比我们所想象的更为强大。本文也报告了相关的证据:将kernelsize从13减为11,这四个模态上的性能都发生了显著降低。大核卷积一统多种模态!RepLK正统续作UniRepLKNet:ImageNet88%,时序预测SOTA,极简高效!在Transformer占据多模态工具半壁江山的时代,大核CNN又“杀了回来”,成为了一匹新的黑马。腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都

UniRepLKNet:用于音频、视频、点云、时间序列和图像识别的通用感知大内核ConvNet

摘要https://arxiv.org/abs/2311.15599大核卷积神经网络(ConvNets)最近受到了广泛的研究关注,但存在两个未解决的关键问题需要进一步研究。(1)现有大核ConvNets的架构在很大程度上遵循传统ConvNets或Transformers的设计原则,而大核ConvNets的架构设计仍未得到充分解决。(2)随着Transformer在多种模式下的主导地位,尚待研究的是,ConvNets是否在视觉以外的领域也具有强大的通用感知能力。本文从两个方面进行了贡献。(1)我们提出了设计大核ConvNets的四个架构指导方针,其核心是利用大核和小核的本质特征-大核可以看到宽广

论文阅读——UniRepLKNet

UniRepLKNet:AUniversalPerceptionLarge-KernelConvNetforAudio,Video,PointCloud,Time-SeriesandImageRecognition        当我们将一个3×3的conv添加到一个小卷积核ConvNet中时,我们预计它会同时产生三种效果——1)使感受野更大,2)增加空间模式的抽象层次(例如,从角度和纹理到对象的形状),3)通过使其更深入,引入更多可学习的参数和非线性,来提高模型的一般表示能力。相比之下,我们认为,在大卷积核架构中,这三种影响应该解耦,因为模型应该利用大卷积核的实质性优势——即不深入就可以看到