5408 篇
13915 篇
478255 篇
16334 篇
11777 篇
3948 篇
6562 篇
1254 篇
75716 篇
38097 篇
12190 篇
1672 篇
2873 篇
3423 篇
642 篇
1242 篇
1980 篇
4927 篇
3893 篇
5508 篇
DeepSeek 发布最新论文:大模型长文本推理革命
2025 年 2 月 18 日,DeepSeek 联手两大机构发布最新论文,研究由 DeepSeek 创始人梁文锋亲自领导,旨在优化 Transformer 注意力机制。论文提出了革命性注意力机制 NSA,NSA 是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。它包含动态分层稀疏策略、粗粒度的 token 压缩和细粒度的 token 选择等核心组成部分,在通用、长文本、思维链推理基准测试中,刷新 SOTA,碾压全注意力。NSA 是对 Transformer 注意力机制的重大优化。