欢迎访问行业研究报告数据库

行业分类

当前位置:首页 > 报告详细信息

找到报告 1 篇 当前为第 1 页 共 1

DeepSeek 发布最新论文:大模型长文本推理革命

加工时间:2025-02-26 信息来源:EMIS 索取原文[8 页]
关键词:DeepSeek ;NSA;推理能力
摘 要:

2025 年 2 月 18 日,DeepSeek 联手两大机构发布最新论文,研究由 DeepSeek 创始人梁文锋亲自领导,旨在优化 Transformer 注意力机制。论文提出了革命性注意力机制 NSA,NSA 是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。它包含动态分层稀疏策略、粗粒度的 token 压缩和细粒度的 token 选择等核心组成部分,在通用、长文本、思维链推理基准测试中,刷新 SOTA,碾压全注意力。NSA 是对 Transformer 注意力机制的重大优化。



目 录:

image.png

© 2016 武汉世讯达文化传播有限责任公司 版权所有
客服中心

QQ咨询


点击这里给我发消息 客服员


电话咨询


027-87841330


微信公众号




展开客服