国际黄金伦敦金-V4呈文太详尽之！484天换代之路全公开 DeepSeek

[1]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro 法门论听起来甚优雅。

V4还引入之三档reasoning effort mode，Non-think、Think High、Think Max，每档输出长度不同。

智能化改造。

此表明其演进轨迹大约掉队最前沿闭源模型3到6名月。

V4发布当天，DeepSeek研讨员陈德里于x上转发并写道：亚马逊硬件师GPD表示，此意味之DeepSeek或处置当前之HBM短缺疑难。

第二条，国产芯片适配，已支华为算力，预计下半年昇腾950超节点批量上市。

第三步，core attention。

Attention sink。

大家惊叹于DeepSeek于有尽机缘下作出重大突围之缔造力，也佩服其于2026年，还能坚决选择开源路线之决心。

借鉴OpenAI与StreamingLLM之trick，于attention分母上加一名learnable sink logit，允许attention score总与不等于1。

一名甚长之agent会话，一份反复回读之技艺文档，一次跨多仓库之重构，此些过往要切窗口、要加retrieval、要精心管上下文之场景，于V4此里变成之「全塞进去看看再说」。

操练数据量整整翻之一倍多（增益约 1.2 倍）此里有名细节值得注意。

然后对所有压缩后之KV做dense attention。

数据构成上，长文档数据单独curate，优先收录格致论文与技艺呈文此类有学术身价之长材料。

第一条，百万token上下文全面开源，KVcache大幅缩减。

法门论听起来甚优雅。

Muon改良器：从Kimi彼边借之。

此种矩阵于乘法下为闭锁之，堆甚多层也稳。

续用，针对mHC做之调理。

此于长序列里尤其有用，能免除模型被迫把注意力均摊。

残差连接为何恺明2016年于ResNet里提出来之，十年没怎么变过。

总参数1.6T，激活49B。

V4-Pro，61层，隐藏维度7168。

世卫组织。

吾等于K2.6与GLM-5.1之部分条目留空之，因它们之API太忙，没法及时返回吾等查询之结局。

先说Hyper-Connections（HC），此为Kimi团队之先决出之想法。

奉献。

Codeforces rating 3206，超过之GPT-5.4之3168与Gemini-3.1-Pro之3052，于苍生选手榜单上排名第23。

前景方位几条，探求新维度之sparsity（点名之Engram彼条线）、低延迟架构、长时程多轮agentic差事、多模态、更好之数据curation。

不过彼等做之自己之版本，hybrid Newton-Schulz迭代，10步分两段。

mHC，给残差连接加一层约束输入映射A与输出映射C则通过Sigmoid函数保证非负且有界，免除信号互相抵消。

Courage。

SimpleQA-Verified上V4-Pro-Max拿到57.9，K2.6为36.9，GLM-5.1为38.1。

2025年，Moonshot用Muon（加上彼等自己之QK-Clip变种，合称MuonClip）训之一名1T参数之MoE，15.5T token，全程零崩溃。

第二层为稀疏选择，n/m变成top-k。

DeepSeek追寻之始终为另一条线，同样本领下之本金下限。

85者之内部掘发者调研里，91%表示V4-Pro可作为主力coding模型。

tokenizer仍用V3之128K词表。

此外，大家最关之，还莫过于于过往四名月中，DeepSeek陆续放出之几篇「或进V4」之论文，今日技艺呈文开源之，可对一下账。

V4把此件事推到之百万token。

DeepSeek V4“迟到”半年，但发布后之好评如潮还于如潮。

总参数284B，激活13B。

压缩历程也没有CSA彼样之overlap，直接每m’名一组压。

Sliding window attention作为辅助分支。

彼结局会怎样呢。

CSA做两件事，先压缩，再稀疏选择操练调度上，序列长度走四段，4K → 16K → 64K → 1M。

此名约束带来两名好处。

CSA与HCA于core attention之前，皆对query与KV entries做一次RMSNorm，防备attention logits爆炸。

MoE用1名shared expert + 384名routed experts，每token激活6名。

对1M token之序列，原本需attend 1M名token，今只需attend 1024名压缩块。

若只看激活参数量，此为目前效能最极致之推演模型之一。

论文中，DeepSeek表示： henry 发自凹非寺 Muon于LLM规模上之第一次大规模验证为Kimi K2。

DeepSeek-V3：2024年12月26日。

V4之做法为teacher权重offload到分布式存储按需加载，只缓存hidden states不materialize logits，按teacher排序样本保证每名mini-batch只加载一名teacher head。

庆祝。

此外，论文还透露之几名trick。

可说，一光阴讯息多之有些超载，但多归多，主线就两条。

只对query与KV entries之最后64维施加旋转位置编码，其余维度不动。

V4-Flash-Max只激活13B参数，推演差事上能打平GPT-5.2与Gemini-3.0-Pro，代码与数学甚至超过K2.6-Thinking。

Engram（机缘记忆模块）：1月DeepSeek联手北大发布。

论文里没有长篇大论地解释CSA与HCA为什么要配对用，但读完整名architecture章节，能看出它们之分派。

Partial RoPE。

HCA之思路更简粗暴，压得更狠，但不做稀疏。

于实验部分，有三件最值得说之事。

但模型越来越深、参数越来越多之后，旧俗残差始露怯，信号传递不稳，操练易崩。

student自己rollout，最小化reverse KL向对应领域之expert对齐。

第一，引入mHC（Manifold-Constrained Hyper-Connections）强化残差连接。

于后操练阶段，V4此一代做之一次法门论替换，旧俗之mixed RL阶段被On-Policy Distillation（OPD）完全替代。

量子位 | 公众号 QbitAI 因KV entries既做key又做value，naive之RoPE会让输出带上无对位置讯息，故于output端也对应施加一名位置为-i之RoPE来抵消，只保留相待位置讯息。

模型一层一层堆，梯度沿之残差往回传，此为深度修习能work之先决。

实现上用Sinkhorn-Knopp迭代，交替做行归一化与列归一化，迭代20次收敛。

学富五车。

开源模型匹敌闭源头部，此次为真之匹敌之。

从V2之MLA始，每一代皆于删KV cache、删激活参数、删注意力计算量。

Q/KV normalization。

但此份名单把彼等之名字与V4此名大家等之整整一年多之模型，绑于之同一张纸上。

现状差事里最值得提之为内部R&D代码benchmark，V4-Pro-Max 67%，接近Claude Opus 4.5之70%。

于前景之迭代中，吾等将进行更全面、更有原则之研讨，把架构精简到最本原之部分。

对每名query token，用一名轻量之indexer计算它与每名压缩KV块之相关性分数。

一名操练之两名万亿参数MoE之团队公开承认「吾等不知道为什么此两名trick管用」，于2026年已为一件挺稀罕之事。

V4-Pro与V4-Flash，1.6万亿参数/2840亿参数上下文皆为1M。

数学差事向数学expert靠，编程差事向编程expert靠。

为之补偿近距离依赖，V4额外加之一名sliding window分支，每名query除之看压缩KV之外，还能看最近128名token之uncompressed KV。

为之追寻极致之长文效能，V4系列采取之一名相待急进之架构设计。

草船借箭。

没进V4，但于前景方位里被点名，留给V5。

火箭队连追4分，勒布朗两罚回应，汤普森连投带罚又追4分，肯纳德急停跳投命中，半场终时湖者队以63-52居先11分。

mHC（流形约束超连接）：2025年12月31日上传arXiv，梁文锋挂名。

一如既往，吾等始终持长期主义与全民开源。

胜券在握。

想法甚优雅，相当于给残差流增之一名新之scaling维度。

此部分承袭自V3.2之DSA。

DeepSeek此几年做之事，底层动作甚清晰，始终于删。

每一名者皆算数，每一天也皆算数。

V4此一代，为DeepSeek系列里动刀最多之一版。

中外热搜上之一整圈，科技媒体之版面今日皆让给之它，OpenAI也成之它之陪衬。

此为全篇论文最厚之一块，也为「百万token效能」之核心魔法所于。

484天后，吾等谦卑地分享此份爱心之劳动。

Muon为前几年Keller Jordan彼批者（他今于OpenAI）于小模型上验证过之改良器，基于矩阵正交化。

因压缩注意力保证严格因果性，一名query token看不到自己压缩块内其他token之讯息。

完璧归赵。

相比V3，V4于三名地方做之晋级。

MoE用1名shared expert + 256名routed experts，每token激活6名。

Code Review。

HLE上V4-Pro-Max 37.7，Gemini-3.1-Pro 44.4，Claude-Opus-4.6-Max 40.0。

接下来，吾等一名名看。

于选中之此top-k压缩KV块上做Multi-Query Attention，得到注意力输出。

汤普森两罚全中，詹姆斯父子一同发力，勒布朗与布朗尼联手打出12-3之小高潮，半场前6分钟时湖者队以57-43居先14分。

为人民服务。

十几名expert通过on-policy distillation合进一名一统之student。

其中有不少带星号之名字，为已离开团队、但仍然对V4做出过重要贡献之研讨者。

拓展。

V4把它压到V3.2之10%，本金曲线突然打直之。

百万token不为一名新之本领，为同一名上下文窗口被压到可承担之本金。

闭源大厂追寻之为本领上限，谁家之模型能于HLE上拿更高分。

技艺裁决上，mHC不为彼种让者眼前一亮之架构革新，更像为一名「稳得住大模型」之营造补丁。

Hope。

但营造上装不下，十几名teacher每名皆为万亿级，vocab size超过10万。

史密斯于第二节始后命中2名三分球，勒布朗带领球队还击6分保居先。

既不漏细节，也不被细节拖住。

删到V4，单token推演FLOPs砍到四分之一，KV cache砍到十分之一。

第四步，grouped output projection。

CSA之压缩温与、靠稀疏把关，适合做token-level之精细检索。

一言九鼎。

MoE部分仍然用DeepSeekMoE，MTP（Multi-Token Prediction）模块跟V3保一致。

此为名巧妙之营造办理。

V4把两者层层交替。

DeepSeek-V4：2026年4月24日。

核心为把残差流从一维变成n_hc条并行通道，每层之间通过一名矩阵B来混合。

目前DeepSeek-V4已成为公司内部员工用之Agentic Coding模型，据评测回馈用体验优于Sonnet 4.5，交付品质接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存必差距。

学识类与最前沿之推演差事仍有3-6名月之gap。

整名历程对每一层皆跑一遍。

V4把AdamW替之，接管绝大多数参数之操练。

论文原话极其诚，此两名trick work，但底层机理仍为open question。

一些细节微调包括，affinity score之激活函数从Sigmoid换成之Sqrt(Softplus(·))，去掉之routing target nodes之数量约束，前几层dense FFN换成之用Hash routing之MoE层。

但随之模型深度与参数量续往上推，此种补丁会变成刚需。

V4操练中绝大多数参数改良用之不为AdamW，为Muon。

进之V4。

学贯中西。

有名蛮有意思之小细节，于样貌化数学评测中，DeepSeek也皮之一下友商：于模型架构上，V4-Flash，43层，隐藏维度4096。

每m名token之KV entries，通过一名带修习权重之attention-like机制压成一名。

金童玉女。

但营造上装不下，十几名teacher每名皆为万亿级，vocab size超过10万。

居先所有开源模型20名百分点。

第二步，lightning indexer + top-k选择。

第三，采用Muon作为主改良器。

A、B、C为三名线性映射。

四名预期，三名落地，一名给下一代。

它只改良2D参数矩阵，其他参数（embedding、prediction head、RMSNorm权重、mHC之静态偏置等）还为走AdamW。

DeepSeek-V4-Pro-Max于标准推演benchmark上优于GPT-5.2与Gemini-3.0-Pro，但略掉队于GPT-5.4与Gemini-3.1-Pro。

[2]https://arxiv.org/pdf/2512.24880 今DeepSeek也用上之。

sparse attention不为从头打开，前1T token用dense attention做warmup，扩到64K时才introduce sparsity。

资源安全。

数学、代码、agent、指令跟随四名领域，各自独力训一名expert。

此种跨团队之技艺共享与各自演化，为2026年开源社区最有意思之一面。

祁发宝。

论文之结尾有一份长长之贡献者名单。

一名1M之上下文，于V3.2之本金架构下为不可延续之，KV cache会把显存吃光。

Pro有61层，Flash有43层，CSA与HCA一层一层往上叠。

因V4把head dimension c设成之512（比V3.2之128大得多），若直接把所有head之输出投影回d维会甚贵，故做之分组投影，把n_h名head分成g组，每组先投影到一名中间维度d_g，最后再合并投影回d。

听起来贵，但DeepSeek做之fused kernel，再配合选择性recomputation，实测mHC带来之wall-time开销控制于overlapped pipeline之6.7%。

后2步用温与系数，精确地把奇异值稳固于1。

前8步用急进系数，快速把奇异值推向1附近。

一套看似优雅之后操练法门论，背后为一堆「不此样做就装不下」之营造妥协。

V4之做法叫mHC，把矩阵B约束到「双随机矩阵」之流形上（数学上叫Birkhoff polytope），行与列皆归一化为1。

矩阵之谱范数天然不超过1，残差传播套上硬上限，爆不起来。

于论文之最后，DeepSeek也表示：压缩率m’=128，每128名token压成一名。

第一步，KV压缩。

但DeepSeek于堆多层时发觉，HC经常现数值不稳固，操练说崩就崩。

Flash-Max或为此篇论文最被低估之一部分。

第一层为序列长度压缩，n变成n/m。

过往此一年，关于DeepSeek贤才流失之消息传过好几轮。

两家公司，同一名改良器，处置同一名疑难，走之为两条路。

Kimi用Muon需QK-Clip来防备attention logits爆炸，DeepSeek没用此招。

消费者。

第一步，训domain specialist。

1M场景下，V4-Pro之单token FLOPs只有V3.2之27%，KV cache只有10%。

DualPipe：V3老伙计。

先SFT打底，再用GRPO做domain-specific RL。

1M MRCR上V4优于Gemini但明显不如Claude。

彼等之理由为，V4之注意力架构允许直接对query与KV做RMSNorm，从源头把爆炸之或压住之。

HCA之压缩凶猛、保dense，适合做长距离之全局信号汇总。

对比V3仅用14.8T Token操练，V4-Flash 与 V4-Pro 之数据消耗量分别达到之32T与33T。

Surveillance Tech。

整名CSA等于做之两层压缩。

论文表示，操练中间出过一次严重之loss spike，DeepSeek摸到两名土办法，Anticipatory Routing与SwiGLU Clamping。

把V4放回DeepSeek之完整路径里看，它不为于追击frontier。

第二，设计hybrid attention架构，CSA与HCA交替叠加，处置长文效能疑难。

DeepSeek-V4系列于预操练数据量上实现之翻倍。

过往三年之趋势极其清晰。

LangChain。

One more thing 于官方之推文中，也侧面印证之此名说法： V4之注意力层不为一种，为两种交替用之架构，CSA（Compressed Sparse Attention）与HCA（Heavily Compressed Attention）。

为之降低险情，吾等保留之许多已验证过之组件与trick，此让架构变得相待繁。

上一篇：春节快递会停运吗？多家快递公司最新回应 下一篇：皆体：尤文深知自己付不起高额薪资，想用声望吸引莱万加盟

V4呈文太详尽之！484天换代之路全公开 DeepSeek - 央视主持人

相关推荐