鱼阅

Fish AI 速读

原文 2110 字,FishAI速读将为你节省 11 分钟

全文总结

文章探讨输入与输出令牌成本差异,提到输入令牌处理规模呈二次方,输出令牌因使用KV缓存呈线性规模,实际中输出令牌的问题在于内存容量和带宽,作者对输入令牌成本低于输出令牌感到困惑,且希望能估算单个令牌的处理成本。

关键要点

  • 🎯输入令牌的处理规模呈二次方,需计算每个令牌与其他令牌的注意力(通过编码器传递K和V),这导致处理过程较为复杂。

  • 💾输出令牌因使用KV缓存而呈线性规模,通过用内存换取计算,需巧妙地存储和计算相关内容,如稀疏性、缓存驱逐等,但实际中输出令牌的问题在于内存容量和带宽。

  • 🤔作者对输入令牌成本普遍比输出令牌低2到5倍感到困惑,不确定提供商按内存问题线性定价的证据,若按FLOPS受限,应按二次方定价,也怀疑是否只是为了客户定价简单或营销。

  • 📈作者从LeptonAI的一条推文中了解到通常输入令牌比输出令牌多3 - 10倍,若输入令牌在序列中占主导且FLOPS是问题,定价应有所体现,但目前不确定其在这些计算中所起的作用。