这项研究介绍了一种名为递归特征机(RFM)的新型算法,旨在通过线性特征提取来理解和操控人工智能模型的内部知识表示。研究人员证明,仅需极少量的训练样本,即可识别出模型中特定概念的向量表示,从而实现对模型输出的精准控制与监测。这种方法不仅能通过激活扰动显著提升模型在编程和逻辑推理等任务中的性能,还能比传统的提示词方法更有效地识别幻觉或有害内容。实验结果显示,这些语义概念在跨语言环境下具有通用性,且随着模型规模的扩大,其可操控性也随之增强。总之,该成果揭示了AI模型内部结构的线性逻辑,为提升人工智能的安全性与功能性提供了高效且可扩展的新途径。
References:
- Beaglehole D, Radhakrishnan A, Boix-Adsera E, et al. Toward universal steering and monitoring of AI models[J]. Science, 2026, 391(6787): 787-792.

