为了拆开大模型的「黑箱」,Anthropic可解释性团队发表了一篇论文,讲述了他们通过训练一个新的模型去理解一个简单的模型的方法。Anthropic发表的一项研究声称能够看到了人工智能的灵魂。它看起来像这样:图片图片论文地址:https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa在研究者看来,这个新的模型能准确地预测和理解原本模型中神经元的工作原理和组成机制。Anthropic的可解释性团队最近宣布他们成功分解了一个模拟AI系统中的抽象高维特征空间。创建一个可解释的AI去理