鱼阅

大模型生成内容溯源技术极简综述

2024年09月30日·Security产业趋势
Fish AI 速读

原文 8902 字,FishAI速读将为你节省 45 分钟

全文总结

随着生成式大模型的快速发展,其强大的内容创作能力引发了全球关注。然而,生成内容的真实性也带来了新的挑战,如何精准地依据生成内容追溯源生成模型的身份,成为生成式大模型治理的重要一环。本文介绍了生成文本溯源和生成图像溯源技术,分别从基于预训练-微调、风格特征、重写和概率特征四种方法,以及基于水印、模型反演和指纹三种方法进行阐述,并探讨了当前面临的挑战和未来发展方向。

关键要点

  • 🤔 基于预训练-微调的方法通过学习不同模型生成文本的语义特征分布差异实现溯源。例如,Uchendu等人通过微调预训练语言模型RoBERTa对来自GPT-2、GROVER等8个模型的生成文本进行溯源。然而,这种方法在分布外场景下存在着性能衰减严重的问题。

  • 🎨 基于风格特征的方法则基于对风格差异的假设,不同大语言模型在写作时的词汇多样性、篇章结构等风格偏好上有显著不同。例如,Kumarage等人通过提取文本的词法特征、句法特征和结构特征训练分类器实现生成文本溯源。相比于语义特征,基于风格特征的方法具有更好的领域泛化性,但在溯源精度上通常略逊于其他类型的方法。

  • 🖼️ 基于模型水印的溯源方法是一种主动溯源方式,即提前在深度伪造模型中嵌入水印信息,使得水印传递到生成内容中,在溯源时,即可通过从生成内容中提取预先嵌入的水印达到溯源的目的。例如,Nie等人将模型水印添加到隐向量中,使得由水印过的隐向量的生成图像中包含水印信息。这种方法能够对添加过水印模型精确溯源,然而,其溯源范围仅限为添加过水印的模型,并可能影响模型的生成质量。

  • 🔐 基于模型指纹的方法通过分析生成内容中的微妙痕迹,来识别内容的源模型。这些痕迹反映了模型结构、参数和训练数据的特性,能够为不同模型的识别提供独特的身份标识。例如,Yu等人观察到,模型指纹与训练的随机种子、数据和模型结构紧密相关。这种方法能够识别具有相同结构但不同随机种子、损失函数和训练数据的模型。

  • 🚀 未来研究方向:如何设计适用于开放环境、具备可解释性和鲁棒性的溯源方法,仍是学术界需要进一步探索的关键问题。