$综述_草庐IT

南洋理工大学最新视觉语言模型综述：预训练、迁移学习和知识蒸馏啥都有

作为计算机视觉（CV）研究中长期存在的挑战，视觉识别（如图像分类、目标检测和语义分割）是自动驾驶、遥感等众多计算机视觉应用的基石。深度学习的出现使得视觉识别取得了巨大成功。然而，现有的视觉识别研究大多依赖于昂贵的标注数据进行深度神经网络训练，并且通常需要为每个任务训练一个独立的网络，这导致了耗时费力的识别模式。为了应对这些挑战，大型视觉语言模型引起了广泛关注并得到深入研究。通过学习互联网上大量图像-文本对之间丰富的视觉语言对应关系，现在可以使用一个视觉语言模型（如CLIP、ALIGN）进行各种视觉识别任务的零样本预测。本综述中，来自新加坡南洋理工大学的几位研究者全面研究了针对视觉识别任务的大型

南洋蒸馏 span 视觉语言人工智能新闻模型

[综述] Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era

论文｜改文章是23年5月27日挂在arxiv上，本文重点关注4.1节TextGuided3DAvatarGeneration、4.4节TextGuided3DShapeTransformation和第5章DiscussionTextGuided3DAvatarGenerationDreamAvatarDreamAvatar:Text-and-ShapeGuided3DHumanAvatarGenerationviaDiffusionModelshttps://arxiv.org/abs/2304.00916生成姿态可控的高质量3D人体avatar，包含以下几个部分：TrainableNeRF:

Generative 综述 xff xff0c xff0 人工智能 AIGC

论文阅读_增强语言模型综述

论文信息name_en:AugmentedLanguageModels:aSurveyname_ch:增强语言模型综述paper_addr:http://arxiv.org/abs/2302.07842date_read:2023-05-20date_publish:2023-02-15tags:[‘深度学习’,‘自然语言处理’,‘大模型’]author:GrégoireMialon，Meta读后感文章是一篇增强语言模型（AugmentedLanguageModels，ALMs）综述，这里的增强主要指让大语言模型（LM）通过非参数的方法与外部扩展模块相结合，从而获得超越单纯的自然语言建模的能力

综述模型 xff0c xff xff0 论文阅读

C#，图像二值化（01）——二值化算法综述与二十三种算法目录

图像二值化，就是把彩色（先转为灰色图）最终转为黑白两色图片的计算过程。看似极其简单，但人们研究了几十年，却始终未达到至臻境界的问题。万幸的是，北京联高软件开发有限公司研究开发了最好的图像二值化和彩色图转灰度图算法，其效果是远超 OpenCV，Matlab这些学院派产品的。联高算法在《原本专业级图片漂白软件》软件中得以实现与应用。本文简要介绍了图像二值化的算法原理、分类及二十三种算法的目录，后续逐个发布C#源代码与计算效果。一、图像二值化和彩色图转灰度图是图像类AI的基石图像处理的两个基础功能：图像二值化和彩色图转灰度图，是一切图像（视频）为核心的AI的基础。很多AI系统，未能取得良好的预期效果

C#mdash xff link span 计算机视觉人工智能

C#，图像二值化（01）——二值化算法综述与二十三种算法目录

图像二值化，就是把彩色（先转为灰色图）最终转为黑白两色图片的计算过程。看似极其简单，但人们研究了几十年，却始终未达到至臻境界的问题。万幸的是，北京联高软件开发有限公司研究开发了最好的图像二值化和彩色图转灰度图算法，其效果是远超 OpenCV，Matlab这些学院派产品的。联高算法在《原本专业级图片漂白软件》软件中得以实现与应用。本文简要介绍了图像二值化的算法原理、分类及二十三种算法的目录，后续逐个发布C#源代码与计算效果。一、图像二值化和彩色图转灰度图是图像类AI的基石图像处理的两个基础功能：图像二值化和彩色图转灰度图，是一切图像（视频）为核心的AI的基础。很多AI系统，未能取得良好的预期效果

C#mdash xff link span 计算机视觉人工智能

AIGC在营销图片生成技术综述

基于文本生成素材imagen分析用户输入的文本并使用T5-XXL进行编码。嵌入在AI中的文本首先被转换为分辨率为64x64像素的小图像。Imagen进一步利用文本条件超分辨率扩散模型对图像进行64×64的上采样，然后这个图像继续增长并最终形成。Imagen的开发者谷歌研究的大脑团队表示，基于变压器和图像扩散模型，Imagen实现了前所未有的真实感。谷歌声称，对比其它模型，在图像保真度和图像-文本匹配方面，人类评估者更喜欢Imagen。不过，谷歌也表示，Imagen是在从网络上抓取的数据集上进行训练的，虽然已经过滤了很多不良内容如色情图像、污秽语言等，但仍有大量不当的内容数据集，因此也会存在种族

综述 AIGC style xff0c xff

AIGC在营销图片生成技术综述

基于文本生成素材imagen分析用户输入的文本并使用T5-XXL进行编码。嵌入在AI中的文本首先被转换为分辨率为64x64像素的小图像。Imagen进一步利用文本条件超分辨率扩散模型对图像进行64×64的上采样，然后这个图像继续增长并最终形成。Imagen的开发者谷歌研究的大脑团队表示，基于变压器和图像扩散模型，Imagen实现了前所未有的真实感。谷歌声称，对比其它模型，在图像保真度和图像-文本匹配方面，人类评估者更喜欢Imagen。不过，谷歌也表示，Imagen是在从网络上抓取的数据集上进行训练的，虽然已经过滤了很多不良内容如色情图像、污秽语言等，但仍有大量不当的内容数据集，因此也会存在种族

综述 AIGC style xff0c xff

汽车引擎声合成（主动声浪）综述

本文是作者投稿到“21dB声学人”公众号的文章，现经有允许转载到自己的博客，技术交流可以联系593170280@qq.com随着当今汽车行业“五大趋势”，即“轻量化、电气化、智能化、网络化、共享”，汽车发动机气缸的数量不断减少，甚至传统的内燃机直接被电动机取代。因此，通过优化包括进气和排气系统在内的机械系统，开发品牌特有的发动机声音更加困难。为了保持发动机声音的独特性，使用主动发声控制设计汽车引擎声是最有效的方法之一。主动发声控制是一项复杂的跨学科技术，涉及汽车声学、电子声学、音乐声学、声音信号处理等不同学科的知识。目前，主动发声控制的方法可以分为两大类：基于样本的方法和基于程序的方法。基于样

声浪综述 span xff0c xff 汽车人工智能音视频

汽车引擎声合成（主动声浪）综述

本文是作者投稿到“21dB声学人”公众号的文章，现经有允许转载到自己的博客，技术交流可以联系593170280@qq.com随着当今汽车行业“五大趋势”，即“轻量化、电气化、智能化、网络化、共享”，汽车发动机气缸的数量不断减少，甚至传统的内燃机直接被电动机取代。因此，通过优化包括进气和排气系统在内的机械系统，开发品牌特有的发动机声音更加困难。为了保持发动机声音的独特性，使用主动发声控制设计汽车引擎声是最有效的方法之一。主动发声控制是一项复杂的跨学科技术，涉及汽车声学、电子声学、音乐声学、声音信号处理等不同学科的知识。目前，主动发声控制的方法可以分为两大类：基于样本的方法和基于程序的方法。基于样

声浪综述 span xff0c xff 汽车人工智能音视频

【域泛化综述-2022 TPAMI】Domain Generalization: A Survey

文章地址：https://doi.org/10.1109/TPAMI.2022.3195549解决的问题域泛化和域自适应（DomainAdaptation）相比，目标域数据未知。机器对分布之外的数据（OOD）不敏感，因此不能在源于中学习到有关目标域数据的相关分布，因此当数据违背与源于同分布时，算法性能会大幅降低。域偏移问题的本质是数据分布不同。Abstract域泛化旨在通过只使用源数据进行模型学习来实现对OOD的泛化。常见的DG方法有domainalignment，meta-learning，dataaugmentation，ensemblelearning。文章正式定义DG问题，和DA联系起

泛化 Generalization xff xff0c xff0 深度学习人工智能计算机视觉