News

在刚刚举办的计算语言学和自然语言处理领域的顶级国际会议 ACL 上,由 DeepSeek 创始人梁文锋亲自署名的论文从 8000 ...
长上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了显著的计算挑战。随着序列长度的增加,延迟瓶颈问题愈发凸显。理论估算表明,在解码 64k 长度的上下文时,采用 softmax 架构的注意力计算占总延迟的 ...
全球人工智能领域的顶级会议ACL 2025公布了其年度最佳论文奖。来自中国的DeepSeek-AI团队凭借其开创性研究 《Native Sparse Attention: Hardware-Aligned and Natively Trainable ...
近日,DeepSeek的下一代技术“原生稀疏注意力”(NSA)在ACL 2025大会上提前曝光,同时由DeepSeek创始人梁文锋作为通讯作者与北京大学等机构联合发表的论文荣获最佳论文奖。这一成果标志着DeepSeek在长文本处理和计算效率方面取得了重大突破。
【新智元导读】2025年ACL盛会于维也纳落下帷幕!今年会议规模空前,投稿量超过8000篇,其中超半数作者来自中国。4篇最佳论文中,出自中国团队之手的同样占到50%——分别是北大与DeepSeek合作、梁文锋署名的NSA论文,以及北大杨耀东团队揭示模 ...
在通用基准测试中,采用NSA预训练的27B参数模型在9个评测指标中有7个超越了全注意力基线。特别是在推理相关的基准测试上,DROP提升了0.042,GSM8K提升了0.034,显示出稀疏注意力在强制模型聚焦关键信息方面的独特优势。
长文本处理能力的测试结果更是亮眼。在64k上下文的”大海捞针”测试中,NSA在所有位置都实现了完美的检索准确率。在LongBench基准测试上,NSA取得了0.469的平均分,不仅超越了全注意力基线(+0.032),更是大幅领先其他稀疏注意力方法。
与传统方法相比,SIMoE还引入了一种“防内卷协议”,实现了专家之间的协作与专业化的完美平衡。这一机制通过正交约束确保了专家在共享知识基础上形成互补能力,从而避免了知识碎片化和参数冗余的问题。实验结果表明,SIMoE在多项基准测试中表现出色,尤其在视 ...
导语:本文研究了模型中所有层级的稀疏变量,并提出了-Scaling Transformers。 大型模型在许多任务上都产生了令人印象深刻的结果,但是训练和微调的 ...
使用稀疏动量训练的一些稀疏网络,其性能与权重仅为 5%的密集网络训练结果相一致。 是什么使这5%的权重如此有效,以至于它取得的效果与权重为 ...
这项由浙江大学计算机学院周晓巍教授领导的研究团队完成的工作,发表于2025年7月,论文编号为arXiv:2507.13344v1。团队成员包括金雨东、彭思达、王轩等多位研究者,其中部分成员来自蚂蚁集团。有兴趣深入了解技术细节的读者可以通过论文编号在a ...
本文针对毫米波混合MIMO系统中信道估计的实时性与精度平衡难题,提出了一种融合稀疏增强惩罚(SEP)的快速块最小均方(SEP-FBCLMS)算法。研究通过引入基于log-sum函数的SEP机制,有效规避了传统l0-norm近似方法的多参数调谐问题,在保证计算效率的同时显著提升稀疏信道估计精度。仿真结果表明 ...