草庐IT

AIGC(MLLM、VLM、LLM、SD)系列——论文解读目录

涉及面广:多模态生成模型——MLLM(目前集中在视觉语言模型——VLM)、大语言模型——LLM、生成模型(SD系列)、对比学习的经典模型(CLIP系列)。持续更新:对于已经完成解读的会附上链接(有的会在一些场景做尝试,也会附上链接供大家快速参考结果),准备写的会备注筹备中。适宜人群:节省大把时间,快速定位需要的部分,适合学生、入门AIGC者和从业者作为笔记检索使用。———————————————————————————————————————————RAM论文题目:RecognizeAnything:AStrongImageTaggingModel关键词:RAM、属性识别、多标签分类、解读论文

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

最近,通义千问实火。前段时间被网友玩疯的全民舞王,让「AI科目三」频频登上热搜。让甄嬛、慈禧、马斯克、猫主子和兵马俑能跳舞那款AI,就藏在通义千问APP背后。来源:深夜来点薯片来源:深夜来点薯片最强国产视觉语言模型了解一下就在这几天,通义千问团队又对多模态大模型下手了——再一次升级通义千问视觉语言模型Qwen-VL,继Plus版本之后,又推出Max版本。Qwen-VL是阿里在2023年8月推出的具备图文理解能力的大模型,基于通义千问语言模型开发。升级后的Qwen-VL视觉水平大幅提升,对很多图片的理解水平接近人类。并且,还能够支持百万像素以上的高清分辨率图,以及各种极端长宽比的图片。升级版模型

【纯干货】医疗视觉大模型2023年进展简述|Medical Vision-language Models (VLM)

写在前面——本篇为原创内容,如转载/引用请务必注明出处!!(最后更新于2023年11月16日)如有错误,欢迎评论区指出!!不胜感激!!点赞三连谢谢!!!如有MedicalImageAnalysis,ClinicalDataMining,AIinHealtcare,LLMs合作或共同学习意向,欢迎pm私信我,我给你发社交账号~~Aims:帮助大家更快地了解目前处在起步阶段的“医学视觉大模型”。可以当作“Perspectivearticle”来阅读。医学图像辅助诊断是指使用计算机技术(如图像处理、模式识别等)来分析医学成像数据(如X射线、CT、MRI、Histology、Endoscope等),旨