Skip to content
On this page

【人工智能】大语言模型内部是如何运行的 | Anthropic两篇论文揭示部分原理 | 破解黑箱 | 电路追踪 | 跨层转码器 | 多语言能力 | 诗歌创作 | 数学计算 | 推理 | 幻觉 | 越狱

Anthropic团队近期对大型语言模型Claude进行了一项突破性的研究,如同为Claude进行了一次“核磁扫描”,揭示了其“大脑”运作的部分机制。这项研究旨在深入了解Claude这类AI是如何“思考”的,借鉴了神经科学的研究方法,打造了一种“AI显微镜”,识别模型内部的活动模式和信息流动。

Anthropic团队发布了两篇重要论文。第一篇,《电路追踪:揭示语言模型的计算图》,介绍了一种创新方法,即构建一个可解释的替代模型(通过跨层转码器CLT)来揭示语言模型的计算图。研究人员通过训练CLT模拟原模型MLP的输出,构建替代模型,进而生成并分析归因图,并通过可视化界面和特征扰动实验,理解归因图并找出关键层。

第二篇,《大语言模型的生物学解析》,聚焦于Claude 3.5 Haiku,运用“电路追踪”技术对其在多种任务场景下的表现进行了深入研究。研究揭示了Claude在多语言能力、诗歌创作和数学计算等方面的独特运作方式。例如,Claude能够识别不同语言中相同概念的核心特征,并在跨语言的“概念空间”中进行推理和学习。在诗歌创作方面,Claude具有提前规划的能力,会提前激活押韵特征并影响句子结构。在数学计算方面,Claude采用多条并行工作的计算路径,最终得出准确答案。

对于推理问题,Claude并非总是可靠,有时会给出看似合理实则虚假的推理过程。对于“幻觉”现象,Claude会默认拒绝回答不确定的问题,但有时“已知答案”的电路会误触发,导致其胡编答案。对于“越狱”问题,Anthropic研究了一种诱导Claude输出炸弹制作方法的策略,发现是由于模型对连贯性的追求超过了安全机制的要求。

尽管研究取得了重大进展,但目前的方法仍存在局限性,只能捕捉到Claude执行的总计算中的一小部分,且观察到的机制可能存在伪影。理解所观察到的“电路图”也非常耗时。Anthropic团队希望通过不断进步的技术,更深入地了解AI的“大脑”,并认识到它是如何思考的。

Released under the MIT License.