鱼阅

Fish AI 速读

原文 6083 字,FishAI速读将为你节省 31 分钟

总结

本文研究语言模型中SAE提取特征信息的情况,发现SAE潜在分类器不可靠,存在特征吸收现象,影响模型的可解释性,并探讨了相关问题及未来研究方向。

关键要点

  • 🎯SAE潜在分类器看似能对输入的某些特征进行分类,但实际上是相当不可靠的分类器,比线性探测器差很多,这种不可靠性部分源于实际需求和训练目标的差异。

  • 💡提出两个问题:SAE从LLM中提取可解释潜在特征的程度如何;SAE超参数的变化如何影响其可解释性。通过在简单任务上测试SAE性能,发现了特征吸收这一新障碍。

  • 🚧特征吸收是一种有害的、不对称的特征分裂形式,一个SAE潜在特征看似跟踪人类可解释的概念,但在某些看似应激活的示例上却未激活,大致与标记对齐的潜在特征会吸收特征方向并代替主线潜在特征激活。

  • ❌特征吸收带来诸多问题,如解释了特征电路为何不能稀疏,超参数调整不太可能完全消除吸收,且在特征共同出现时,稀疏性可能导致可解释性降低。