桥梁_草庐IT

最近GPT4的火爆覆盖了一个新闻：midjourneyv5发布，DALLE2，midjourney都可以从文本中生成图像，这种模型要求人工智能同时理解语言和图像数据。传统的基于人工智能的模型很难同时理解语言和图像。因为自然语言处理和计算机视觉一直被视为两个独立的领域，这使得机器在两者之间进行有效沟通具有挑战性。然而CLIP的多模态架构通过在相同的潜在空间中学习语言和视觉表现在二者之间建立了桥梁。因此，CLIP允许我们利用其他架构，使用它的“语言-图像表示”进行下游任务。CLIP是一个基于超大数据量的pair-wise预训练模型但是在它的下游任务DalleE-2，Stable-Diffusio