GPT-4自诞生以来一直是位「优等生」,在各种考试(基准)中都能得高分。但现在,它在一份新的测试中只拿到了15分,而人类能拿92。这套名叫「GAIA」的测试题由来自Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT的团队制作,提出了一些需要一系列基本能力才能解决的问题,如推理、多模态处理、网页浏览和一般工具使用能力。这些问题对人类来说非常简单,但对大多数高级AI来说却极具挑战性。如果里面的问题都能解决,通关的模型将成为AI研究的重要里程碑。GAIA的设计理念和当前的很多AI基准不一样,后者往往倾向于设计一些对人类来说越来越难的任务,这背后其实反映了当前社区对AGI