2623 篇
1085 篇
194535 篇
3304 篇
6315 篇
2230 篇
2779 篇
537 篇
29607 篇
9651 篇
3153 篇
755 篇
2298 篇
1317 篇
449 篇
752 篇
1387 篇
2603 篇
2737 篇
3998 篇
DeepSeek 发布最新论文:大模型长文本推理革命
2025 年 2 月 18 日,DeepSeek 联手两大机构发布最新论文,研究由 DeepSeek 创始人梁文锋亲自领导,旨在优化 Transformer 注意力机制。论文提出了革命性注意力机制 NSA,NSA 是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。它包含动态分层稀疏策略、粗粒度的 token 压缩和细粒度的 token 选择等核心组成部分,在通用、长文本、思维链推理基准测试中,刷新 SOTA,碾压全注意力。NSA 是对 Transformer 注意力机制的重大优化。
