草庐IT

能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了

一直以来,人类梦想着机器人能够辅助人类处理生活和工作的事情。“请帮我调低空调的温度”,甚至“请帮我写一个商城网站”都在近年来的家居助手和OpenAI发布的Copilot上得以实现。GPT-4的出现,进一步为我们展示了多模态大模型在视觉理解上的潜力。开源中小模型方面,LLAVA、minigpt-4表现不俗,可以看图聊天,还可以为人类猜测美食图片中的菜谱。然而,这些模型在实际落地中仍然面临重要的挑战:没有精准的定位能力,不能给出某物体在图片中的具体位置,也不能理解人类的复杂指令来检测具体物体,因此很多时候无法执行人类的具体任务。在实际场景中,人们遇到复杂问题,如果能通过拍一张照来询问智能助手得到正