鱼阅

Fish AI 速读

原文 9718 字,FishAI速读将为你节省 49 分钟

全文总结

SGLang v0.4版本发布,带来了显著的性能提升和新功能。该版本引入了零开销批处理调度器,提升了吞吐量;实现了缓存感知负载均衡器,显著提高了缓存命中率和吞吐量;针对DeepSeek模型,优化了数据并行注意力机制,提升了解码速度;并集成了xgrammar,大幅加速了结构化输出。这些优化使得SGLang在LLM推理方面更加高效,为用户提供了更快的响应速度和更流畅的使用体验。同时,该版本还提供了多种使用方法和基准测试,方便用户快速上手和评估性能。

关键要点

  • 🤔 零开销批处理调度器: 通过重叠CPU调度和GPU计算,将CPU开销降至最低,实现吞吐量提升1.1倍,尤其在小型模型和大型张量并行场景下效果显著。该功能默认开启,无需手动配置。

  • 🚀 缓存感知负载均衡器: 预测每个worker的缓存命中率,并将请求发送到命中率最高的worker,从而最大化缓存利用率,提升吞吐量最高可达1.9倍,缓存命中率提升至3.8倍。该功能支持多节点部署和分布式场景。

  • 💡 DeepSeek模型的数据并行注意力: 针对DeepSeek模型的特点,使用数据并行处理注意力机制,减少了KV缓存,提升了批量大小,解码吞吐量提升1.9倍。目前仅支持DeepSeek模型。

  • 📊 xgrammar加速结构化输出: 集成xgrammar作为新的语法后端,显著提升了JSON解码速度,最高可达10倍。用户可以通过添加--grammar-backend xgrammar参数来启用该功能。