正文 梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么 温柔 V作者 /2025-02-19 18:27:07/21阅读/0评论 0219 文章最后更新时间2025年02月19日,若文章内容或图片失效,请留言反馈! 2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Spar