伦敦金交易平台-V4呈文太详尽之！484天换代之路全公开 DeepSeek

DeepSeek-V3：2024年12月26日。

85者之内部掘发者调研里，91%表示V4-Pro可作为主力coding模型。

Partial RoPE。

过往三年之趋势极其清晰。

因V4把head dimension c设成之512（比V3.2之128大得多），若直接把所有head之输出投影回d维会甚贵，故做之分组投影，把n_h名head分成g组，每组先投影到一名中间维度d_g，最后再合并投影回d。

操练数据量整整翻之一倍多（增益约 1.2 倍）此里有名细节值得注意。

一套看似优雅之后操练法门论，背后为一堆「不此样做就装不下」之营造妥协。

V4操练中绝大多数参数改良用之不为AdamW，为Muon。

但营造上装不下，十几名teacher每名皆为万亿级，vocab size超过10万。

后2步用温与系数，精确地把奇异值稳固于1。

Pro有61层，Flash有43层，CSA与HCA一层一层往上叠。

Kimi用Muon需QK-Clip来防备attention logits爆炸，DeepSeek没用此招。

此外，论文还透露之几名trick。

闭源大厂追寻之为本领上限，谁家之模型能于HLE上拿更高分。

两家公司，同一名改良器，处置同一名疑难，走之为两条路。

若只看激活参数量，此为目前效能最极致之推演模型之一。

但模型越来越深、参数越来越多之后，旧俗残差始露怯，信号传递不稳，操练易崩。

第三步，core attention。

百万token不为一名新之本领，为同一名上下文窗口被压到可承担之本金。

先说Hyper-Connections（HC），此为Kimi团队之先决出之想法。

整名历程对每一层皆跑一遍。

但随之模型深度与参数量续往上推，此种补丁会变成刚需。

Muon为前几年Keller Jordan彼批者（他今于OpenAI）于小模型上验证过之改良器，基于矩阵正交化。

论文中，DeepSeek表示： henry 发自凹非寺 Muon于LLM规模上之第一次大规模验证为Kimi K2。

DeepSeek此几年做之事，底层动作甚清晰，始终于删。

目前DeepSeek-V4已成为公司内部员工用之Agentic Coding模型，据评测回馈用体验优于Sonnet 4.5，交付品质接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存必差距。

Muon改良器：从Kimi彼边借之。

V4把此件事推到之百万token。

桃之夭夭，灼灼其华。

Engram（机缘记忆模块）：1月DeepSeek联手北大发布。

火箭队连追4分，勒布朗两罚回应，汤普森连投带罚又追4分，肯纳德急停跳投命中，半场终时湖者队以63-52居先11分。

新风尚。

现状差事里最值得提之为内部R&D代码benchmark，V4-Pro-Max 67%，接近Claude Opus 4.5之70%。

对1M token之序列，原本需attend 1M名token，今只需attend 1024名压缩块。

V4把两者层层交替。

法门论听起来甚优雅。

DeepSeek V4“迟到”半年，但发布后之好评如潮还于如潮。

第二步，lightning indexer + top-k选择。

大家惊叹于DeepSeek于有尽机缘下作出重大突围之缔造力，也佩服其于2026年，还能坚决选择开源路线之决心。

汤普森两罚全中，詹姆斯父子一同发力，勒布朗与布朗尼联手打出12-3之小高潮，半场前6分钟时湖者队以57-43居先14分。

One more thing 于官方之推文中，也侧面印证之此名说法： V4之注意力层不为一种，为两种交替用之架构，CSA（Compressed Sparse Attention）与HCA（Heavily Compressed Attention）。

第一层为序列长度压缩，n变成n/m。

V4-Pro，61层，隐藏维度7168。

实现上用Sinkhorn-Knopp迭代，交替做行归一化与列归一化，迭代20次收敛。

为之补偿近距离依赖，V4额外加之一名sliding window分支，每名query除之看压缩KV之外，还能看最近128名token之uncompressed KV。

1M MRCR上V4优于Gemini但明显不如Claude。

第三，采用Muon作为主改良器。

DualPipe：V3老伙计。

张晓光。

MoE用1名shared expert + 256名routed experts，每token激活6名。

量子位 | 公众号 QbitAI 因KV entries既做key又做value，naive之RoPE会让输出带上无对位置讯息，故于output端也对应施加一名位置为-i之RoPE来抵消，只保留相待位置讯息。

进之V4。

第一条，百万token上下文全面开源，KVcache大幅缩减。

吾等于K2.6与GLM-5.1之部分条目留空之，因它们之API太忙，没法及时返回吾等查询之结局。

DeepSeek-V4系列于预操练数据量上实现之翻倍。

音韵学。

但DeepSeek于堆多层时发觉，HC经常现数值不稳固，操练说崩就崩。

总参数1.6T，激活49B。

对每名query token，用一名轻量之indexer计算它与每名压缩KV块之相关性分数。

第二层为稀疏选择，n/m变成top-k。

DeepSeek-V4-Pro-Max于标准推演benchmark上优于GPT-5.2与Gemini-3.0-Pro，但略掉队于GPT-5.4与Gemini-3.1-Pro。

V4-Flash-Max只激活13B参数，推演差事上能打平GPT-5.2与Gemini-3.0-Pro，代码与数学甚至超过K2.6-Thinking。

开源模型匹敌闭源头部，此次为真之匹敌之。

论文表示，操练中间出过一次严重之loss spike，DeepSeek摸到两名土办法，Anticipatory Routing与SwiGLU Clamping。

1M场景下，V4-Pro之单token FLOPs只有V3.2之27%，KV cache只有10%。

于后操练阶段，V4此一代做之一次法门论替换，旧俗之mixed RL阶段被On-Policy Distillation（OPD）完全替代。

mHC，给残差连接加一层约束输入映射A与输出映射C则通过Sigmoid函数保证非负且有界，免除信号互相抵消。

从V2之MLA始，每一代皆于删KV cache、删激活参数、删注意力计算量。

残差连接为何恺明2016年于ResNet里提出来之，十年没怎么变过。

Flash-Max或为此篇论文最被低估之一部分。

减速。

核心为把残差流从一维变成n_hc条并行通道，每层之间通过一名矩阵B来混合。

于前景之迭代中，吾等将进行更全面、更有原则之研讨，把架构精简到最本原之部分。

数学差事向数学expert靠，编程差事向编程expert靠。

V4之做法为teacher权重offload到分布式存储按需加载，只缓存hidden states不materialize logits，按teacher排序样本保证每名mini-batch只加载一名teacher head。

为之追寻极致之长文效能，V4系列采取之一名相待急进之架构设计。

其中有不少带星号之名字，为已离开团队、但仍然对V4做出过重要贡献之研讨者。

历史自信。

sparse attention不为从头打开，前1T token用dense attention做warmup，扩到64K时才introduce sparsity。

只对query与KV entries之最后64维施加旋转位置编码，其余维度不动。

数据构成上，长文档数据单独curate，优先收录格致论文与技艺呈文此类有学术身价之长材料。

每一名者皆算数，每一天也皆算数。

红豆生南国，春来发几枝。

DeepSeek追寻之始终为另一条线，同样本领下之本金下限。

总参数284B，激活13B。

V4发布当天，DeepSeek研讨员陈德里于x上转发并写道：亚马逊硬件师GPD表示，此意味之DeepSeek或处置当前之HBM短缺疑难。

Q/KV normalization。

数学、代码、agent、指令跟随四名领域，各自独力训一名expert。

借鉴OpenAI与StreamingLLM之trick，于attention分母上加一名learnable sink logit，允许attention score总与不等于1。

可说，一光阴讯息多之有些超载，但多归多，主线就两条。

MoE部分仍然用DeepSeekMoE，MTP（Multi-Token Prediction）模块跟V3保一致。

Bit。

矩阵之谱范数天然不超过1，残差传播套上硬上限，爆不起来。

一些细节微调包括，affinity score之激活函数从Sigmoid换成之Sqrt(Softplus(·))，去掉之routing target nodes之数量约束，前几层dense FFN换成之用Hash routing之MoE层。

科教兴国。

既不漏细节，也不被细节拖住。

然后对所有压缩后之KV做dense attention。

前8步用急进系数，快速把奇异值推向1附近。

论文原话极其诚，此两名trick work，但底层机理仍为open question。

Loop Quantum Gravity。

此名约束带来两名好处。

论文之结尾有一份长长之贡献者名单。

Sliding window attention作为辅助分支。

模型一层一层堆，梯度沿之残差往回传，此为深度修习能work之先决。

没进V4，但于前景方位里被点名，留给V5。

一如既往，吾等始终持长期主义与全民开源。

相比V3，V4于三名地方做之晋级。

V4还引入之三档reasoning effort mode，Non-think、Think High、Think Max，每档输出长度不同。

整名CSA等于做之两层压缩。

为之降低险情，吾等保留之许多已验证过之组件与trick，此让架构变得相待繁。

一名甚长之agent会话，一份反复回读之技艺文档，一次跨多仓库之重构，此些过往要切窗口、要加retrieval、要精心管上下文之场景，于V4此里变成之「全塞进去看看再说」。

此为名巧妙之营造办理。

十几名expert通过on-policy distillation合进一名一统之student。

此表明其演进轨迹大约掉队最前沿闭源模型3到6名月。

全运会。

第一步，训domain specialist。

但营造上装不下，十几名teacher每名皆为万亿级，vocab size超过10万。

student自己rollout，最小化reverse KL向对应领域之expert对齐。

SimpleQA-Verified上V4-Pro-Max拿到57.9，K2.6为36.9，GLM-5.1为38.1。

彼等之理由为，V4之注意力架构允许直接对query与KV做RMSNorm，从源头把爆炸之或压住之。

第二条，国产芯片适配，已支华为算力，预计下半年昇腾950超节点批量上市。

论文里没有长篇大论地解释CSA与HCA为什么要配对用，但读完整名architecture章节，能看出它们之分派。

V4把AdamW替之，接管绝大多数参数之操练。

它只改良2D参数矩阵，其他参数（embedding、prediction head、RMSNorm权重、mHC之静态偏置等）还为走AdamW。

CSA之压缩温与、靠稀疏把关，适合做token-level之精细检索。

过往此一年，关于DeepSeek贤才流失之消息传过好几轮。

此种跨团队之技艺共享与各自演化，为2026年开源社区最有意思之一面。

Vector Database。

于实验部分，有三件最值得说之事。

史密斯于第二节始后命中2名三分球，勒布朗带领球队还击6分保居先。

前景方位几条，探求新维度之sparsity（点名之Engram彼条线）、低延迟架构、长时程多轮agentic差事、多模态、更好之数据curation。

484天后，吾等谦卑地分享此份爱心之劳动。

Attention sink。

2025年，Moonshot用Muon（加上彼等自己之QK-Clip变种，合称MuonClip）训之一名1T参数之MoE，15.5T token，全程零崩溃。

彼结局会怎样呢。

于论文之最后，DeepSeek也表示：压缩率m’=128，每128名token压成一名。

[2]https://arxiv.org/pdf/2512.24880 今DeepSeek也用上之。

mHC（流形约束超连接）：2025年12月31日上传arXiv，梁文锋挂名。

V4此一代，为DeepSeek系列里动刀最多之一版。

此部分承袭自V3.2之DSA。

想法甚优雅，相当于给残差流增之一名新之scaling维度。

删到V4，单token推演FLOPs砍到四分之一，KV cache砍到十分之一。

东施效颦。

DeepSeek-V4：2026年4月24日。

不过彼等做之自己之版本，hybrid Newton-Schulz迭代，10步分两段。

千山鸟飞绝，万径人踪灭。

HCA之思路更简粗暴，压得更狠，但不做稀疏。

中外热搜上之一整圈，科技媒体之版面今日皆让给之它，OpenAI也成之它之陪衬。

tokenizer仍用V3之128K词表。

学识类与最前沿之推演差事仍有3-6名月之gap。

此于长序列里尤其有用，能免除模型被迫把注意力均摊。

HCA之压缩凶猛、保dense，适合做长距离之全局信号汇总。

天罗地网。

有名蛮有意思之小细节，于样貌化数学评测中，DeepSeek也皮之一下友商：于模型架构上，V4-Flash，43层，隐藏维度4096。

第四步，grouped output projection。

两岸猿声啼不住，轻舟已过万重山。

MoE用1名shared expert + 384名routed experts，每token激活6名。

第一，引入mHC（Manifold-Constrained Hyper-Connections）强化残差连接。

袁隆平。

技艺裁决上，mHC不为彼种让者眼前一亮之架构革新，更像为一名「稳得住大模型」之营造补丁。

对比V3仅用14.8T Token操练，V4-Flash 与 V4-Pro 之数据消耗量分别达到之32T与33T。

于选中之此top-k压缩KV块上做Multi-Query Attention，得到注意力输出。

续用，针对mHC做之调理。

此为全篇论文最厚之一块，也为「百万token效能」之核心魔法所于。

四名预期，三名落地，一名给下一代。

第二，设计hybrid attention架构，CSA与HCA交替叠加，处置长文效能疑难。

A、B、C为三名线性映射。

一名1M之上下文，于V3.2之本金架构下为不可延续之，KV cache会把显存吃光。

但此份名单把彼等之名字与V4此名大家等之整整一年多之模型，绑于之同一张纸上。

CSA与HCA于core attention之前，皆对query与KV entries做一次RMSNorm，防备attention logits爆炸。

接下来，吾等一名名看。

史记。

每m名token之KV entries，通过一名带修习权重之attention-like机制压成一名。

V4把它压到V3.2之10%，本金曲线突然打直之。

彪炳史册。

先SFT打底，再用GRPO做domain-specific RL。

HLE上V4-Pro-Max 37.7，Gemini-3.1-Pro 44.4，Claude-Opus-4.6-Max 40.0。

因压缩注意力保证严格因果性，一名query token看不到自己压缩块内其他token之讯息。

压缩历程也没有CSA彼样之overlap，直接每m’名一组压。

V4-Pro与V4-Flash，1.6万亿参数/2840亿参数上下文皆为1M。

居先所有开源模型20名百分点。

第一步，KV压缩。

一名操练之两名万亿参数MoE之团队公开承认「吾等不知道为什么此两名trick管用」，于2026年已为一件挺稀罕之事。

[1]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro 法门论听起来甚优雅。

此外，大家最关之，还莫过于于过往四名月中，DeepSeek陆续放出之几篇「或进V4」之论文，今日技艺呈文开源之，可对一下账。

V4之做法叫mHC，把矩阵B约束到「双随机矩阵」之流形上（数学上叫Birkhoff polytope），行与列皆归一化为1。

Codeforces rating 3206，超过之GPT-5.4之3168与Gemini-3.1-Pro之3052，于苍生选手榜单上排名第23。

把V4放回DeepSeek之完整路径里看，它不为于追击frontier。

此种矩阵于乘法下为闭锁之，堆甚多层也稳。

听起来贵，但DeepSeek做之fused kernel，再配合选择性recomputation，实测mHC带来之wall-time开销控制于overlapped pipeline之6.7%。

CSA做两件事，先压缩，再稀疏选择操练调度上，序列长度走四段，4K → 16K → 64K → 1M。

智能网联汽车。

上一篇：上次为08年主场赢绿军打破18年魔咒！活塞终结季后赛主场11连败 下一篇：商务部新闻发言者就美众议院邦交事务委员会通过MATCH等法案答记者问

V4呈文太详尽之！484天换代之路全公开 DeepSeek - 音乐

相关推荐