DetGPT_草庐IT

一直以来，人类梦想着机器人能够辅助人类处理生活和工作的事情。“请帮我调低空调的温度”，甚至“请帮我写一个商城网站”都在近年来的家居助手和OpenAI发布的Copilot上得以实现。GPT-4的出现，进一步为我们展示了多模态大模型在视觉理解上的潜力。开源中小模型方面，LLAVA、minigpt-4表现不俗，可以看图聊天，还可以为人类猜测美食图片中的菜谱。然而，这些模型在实际落地中仍然面临重要的挑战：没有精准的定位能力，不能给出某物体在图片中的具体位置，也不能理解人类的复杂指令来检测具体物体，因此很多时候无法执行人类的具体任务。在实际场景中，人们遇到复杂问题，如果能通过拍一张照来询问智能助手得到正