原形_草庐IT

GPT-4自诞生以来一直是位「优等生」，在各种考试（基准）中都能得高分。但现在，它在一份新的测试中只拿到了15分，而人类能拿92。这套名叫「GAIA」的测试题由来自Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT的团队制作，提出了一些需要一系列基本能力才能解决的问题，如推理、多模态处理、网页浏览和一般工具使用能力。这些问题对人类来说非常简单，但对大多数高级AI来说却极具挑战性。如果里面的问题都能解决，通关的模型将成为AI研究的重要里程碑。GAIA的设计理念和当前的很多AI基准不一样，后者往往倾向于设计一些对人类来说越来越难的任务，这背后其实反映了当前社区对AGI