5379 篇
13902 篇
477807 篇
16280 篇
11761 篇
3926 篇
6532 篇
1251 篇
75590 篇
37740 篇
12156 篇
1656 篇
2859 篇
3418 篇
641 篇
1240 篇
1973 篇
4916 篇
3871 篇
5467 篇
DeepSeek 发布最新论文:大模型长文本推理革命
2025 年 2 月 18 日,DeepSeek 联手两大机构发布最新论文,研究由 DeepSeek 创始人梁文锋亲自领导,旨在优化 Transformer 注意力机制。论文提出了革命性注意力机制 NSA,NSA 是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。它包含动态分层稀疏策略、粗粒度的 token 压缩和细粒度的 token 选择等核心组成部分,在通用、长文本、思维链推理基准测试中,刷新 SOTA,碾压全注意力。NSA 是对 Transformer 注意力机制的重大优化。