UniRepLKNet

这里提出一种在图像上非常强力的backbone，本文所报告的发现表明，大核CNN的潜力还完全没有得到充分开发。即便在Transformer的理论强项——“大一统建模能力”上，大核CNN也比我们所想象的更为强大。本文也报告了相关的证据：将kernelsize从13减为11，这四个模态上的性能都发生了显著降低。大核卷积一统多种模态！RepLK正统续作UniRepLKNet：ImageNet88%，时序预测SOTA，极简高效！在Transformer占据多模态工具半壁江山的时代，大核CNN又“杀了回来”，成为了一匹新的黑马。腾讯AI实验室与港中文联合团队提出了一种新的CNN架构，图像识别精度和速度都

UniRepLKNet：用于音频、视频、点云、时间序列和图像识别的通用感知大内核ConvNet

摘要https://arxiv.org/abs/2311.15599大核卷积神经网络(ConvNets)最近受到了广泛的研究关注，但存在两个未解决的关键问题需要进一步研究。(1)现有大核ConvNets的架构在很大程度上遵循传统ConvNets或Transformers的设计原则，而大核ConvNets的架构设计仍未得到充分解决。(2)随着Transformer在多种模式下的主导地位，尚待研究的是，ConvNets是否在视觉以外的领域也具有强大的通用感知能力。本文从两个方面进行了贡献。(1)我们提出了设计大核ConvNets的四个架构指导方针，其核心是利用大核和小核的本质特征-大核可以看到宽广

时间序列感知卷积 ConvNets 提出音视频

论文阅读——UniRepLKNet

UniRepLKNet:AUniversalPerceptionLarge-KernelConvNetforAudio,Video,PointCloud,Time-SeriesandImageRecognition 当我们将一个3×3的conv添加到一个小卷积核ConvNet中时，我们预计它会同时产生三种效果——1）使感受野更大，2）增加空间模式的抽象层次（例如，从角度和纹理到对象的形状），3）通过使其更深入，引入更多可学习的参数和非线性，来提高模型的一般表示能力。相比之下，我们认为，在大卷积核架构中，这三种影响应该解耦，因为模型应该利用大卷积核的实质性优势——即不深入就可以看到

mdash UniRepLKNet 卷积 xff img 人工智能