DeepSeek宣布推出NSA：用于超快速长上下文训练和推理

　　DeepSeek宣布推出NSA，用于超快速的长上下文训练和推理。

　　据其介绍，NSA是一种与硬件一致且本机可训练的稀疏注意力机制，用于超快速的长上下文训练和推理。

　　通过针对现代硬件的优化设计，NSA加快了推理速度，同时降低了预训练成本，而不会影响性能。

　　在一般基准测试、长上下文任务和基于指令的推理上，它与完全注意力模型相匹配或优于完全注意力模型。

阅读全文

本文转载自互联网，如有侵权，联系删除

相关推荐

有一天，我们将感谢这场笨拙的人机赛跑2025-04-19 22:00
杨天真不建议企业家都做个人IP2025-04-19 21:21
中国民营经济研究会会长李兆前：企业家面对挑战应练好内功2025-04-19 20:07
三大悖论让特朗普经济新政反噬美国2025-04-19 16:56
“科技十六条”出台满一年：资本市场持续加力全方位服务新质生产力2025-04-19 10:45

