贵金属开户平台-V4呈文太详尽之！484天换代之路全公开 DeepSeek

一套看似优雅之后操练法门论，背后为一堆「不此样做就装不下」之营造妥协。

DeepSeek-V4：2026年4月24日。

V4此一代，为DeepSeek系列里动刀最多之一版。

于论文之最后，DeepSeek也表示：压缩率m’=128，每128名token压成一名。

此于长序列里尤其有用，能免除模型被迫把注意力均摊。

第二条，国产芯片适配，已支华为算力，预计下半年昇腾950超节点批量上市。

2025年，Moonshot用Muon（加上彼等自己之QK-Clip变种，合称MuonClip）训之一名1T参数之MoE，15.5T token，全程零崩溃。

它只改良2D参数矩阵，其他参数（embedding、prediction head、RMSNorm权重、mHC之静态偏置等）还为走AdamW。

草船借箭。

第三，采用Muon作为主改良器。

论文中，DeepSeek表示： henry 发自凹非寺 Muon于LLM规模上之第一次大规模验证为Kimi K2。

V4把它压到V3.2之10%，本金曲线突然打直之。

论文表示，操练中间出过一次严重之loss spike，DeepSeek摸到两名土办法，Anticipatory Routing与SwiGLU Clamping。

Partial RoPE。

可说，一光阴讯息多之有些超载，但多归多，主线就两条。

后2步用温与系数，精确地把奇异值稳固于1。

但随之模型深度与参数量续往上推，此种补丁会变成刚需。

此为全篇论文最厚之一块，也为「百万token效能」之核心魔法所于。

听起来贵，但DeepSeek做之fused kernel，再配合选择性recomputation，实测mHC带来之wall-time开销控制于overlapped pipeline之6.7%。

[1]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro 法门论听起来甚优雅。

论文里没有长篇大论地解释CSA与HCA为什么要配对用，但读完整名architecture章节，能看出它们之分派。

MoE部分仍然用DeepSeekMoE，MTP（Multi-Token Prediction）模块跟V3保一致。

数据构成上，长文档数据单独curate，优先收录格致论文与技艺呈文此类有学术身价之长材料。

整名CSA等于做之两层压缩。

A、B、C为三名线性映射。

百万token不为一名新之本领，为同一名上下文窗口被压到可承担之本金。

85者之内部掘发者调研里，91%表示V4-Pro可作为主力coding模型。

科学技术是第一生产力。

闭源大厂追寻之为本领上限，谁家之模型能于HLE上拿更高分。

第一条，百万token上下文全面开源，KVcache大幅缩减。

此部分承袭自V3.2之DSA。

十几名expert通过on-policy distillation合进一名一统之student。

Q/KV normalization。

目前DeepSeek-V4已成为公司内部员工用之Agentic Coding模型，据评测回馈用体验优于Sonnet 4.5，交付品质接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存必差距。

Muon改良器：从Kimi彼边借之。

于后操练阶段，V4此一代做之一次法门论替换，旧俗之mixed RL阶段被On-Policy Distillation（OPD）完全替代。

彼等之理由为，V4之注意力架构允许直接对query与KV做RMSNorm，从源头把爆炸之或压住之。

One more thing 于官方之推文中，也侧面印证之此名说法： V4之注意力层不为一种，为两种交替用之架构，CSA（Compressed Sparse Attention）与HCA（Heavily Compressed Attention）。

促进。

于前景之迭代中，吾等将进行更全面、更有原则之研讨，把架构精简到最本原之部分。

既不漏细节，也不被细节拖住。

前景方位几条，探求新维度之sparsity（点名之Engram彼条线）、低延迟架构、长时程多轮agentic差事、多模态、更好之数据curation。

第二步，lightning indexer + top-k选择。

每m名token之KV entries，通过一名带修习权重之attention-like机制压成一名。

Pro有61层，Flash有43层，CSA与HCA一层一层往上叠。

倾国倾城。

但营造上装不下，十几名teacher每名皆为万亿级，vocab size超过10万。

实现上用Sinkhorn-Knopp迭代，交替做行归一化与列归一化，迭代20次收敛。

兴高采烈。

mHC，给残差连接加一层约束输入映射A与输出映射C则通过Sigmoid函数保证非负且有界，免除信号互相抵消。

但模型越来越深、参数越来越多之后，旧俗残差始露怯，信号传递不稳，操练易崩。

为之追寻极致之长文效能，V4系列采取之一名相待急进之架构设计。

火箭队连追4分，勒布朗两罚回应，汤普森连投带罚又追4分，肯纳德急停跳投命中，半场终时湖者队以63-52居先11分。

V4操练中绝大多数参数改良用之不为AdamW，为Muon。

相比V3，V4于三名地方做之晋级。

对比V3仅用14.8T Token操练，V4-Flash 与 V4-Pro 之数据消耗量分别达到之32T与33T。

技艺裁决上，mHC不为彼种让者眼前一亮之架构革新，更像为一名「稳得住大模型」之营造补丁。

一名操练之两名万亿参数MoE之团队公开承认「吾等不知道为什么此两名trick管用」，于2026年已为一件挺稀罕之事。

Attention sink。

DeepSeek追寻之始终为另一条线，同样本领下之本金下限。

HCA之压缩凶猛、保dense，适合做长距离之全局信号汇总。

只对query与KV entries之最后64维施加旋转位置编码，其余维度不动。

残差连接为何恺明2016年于ResNet里提出来之，十年没怎么变过。

量子位 | 公众号 QbitAI 因KV entries既做key又做value，naive之RoPE会让输出带上无对位置讯息，故于output端也对应施加一名位置为-i之RoPE来抵消，只保留相待位置讯息。

DeepSeek V4“迟到”半年，但发布后之好评如潮还于如潮。

用户。

大家惊叹于DeepSeek于有尽机缘下作出重大突围之缔造力，也佩服其于2026年，还能坚决选择开源路线之决心。

V4把AdamW替之，接管绝大多数参数之操练。

第三步，core attention。

V4-Flash-Max只激活13B参数，推演差事上能打平GPT-5.2与Gemini-3.0-Pro，代码与数学甚至超过K2.6-Thinking。

数学、代码、agent、指令跟随四名领域，各自独力训一名expert。

数学差事向数学expert靠，编程差事向编程expert靠。

因压缩注意力保证严格因果性，一名query token看不到自己压缩块内其他token之讯息。

Sliding window attention作为辅助分支。

第二，设计hybrid attention架构，CSA与HCA交替叠加，处置长文效能疑难。

一名1M之上下文，于V3.2之本金架构下为不可延续之，KV cache会把显存吃光。

先说Hyper-Connections（HC），此为Kimi团队之先决出之想法。

DeepSeek-V4-Pro-Max于标准推演benchmark上优于GPT-5.2与Gemini-3.0-Pro，但略掉队于GPT-5.4与Gemini-3.1-Pro。

sparse attention不为从头打开，前1T token用dense attention做warmup，扩到64K时才introduce sparsity。

DualPipe：V3老伙计。

衣食无忧。

一些细节微调包括，affinity score之激活函数从Sigmoid换成之Sqrt(Softplus(·))，去掉之routing target nodes之数量约束，前几层dense FFN换成之用Hash routing之MoE层。

SimpleQA-Verified上V4-Pro-Max拿到57.9，K2.6为36.9，GLM-5.1为38.1。

压缩历程也没有CSA彼样之overlap，直接每m’名一组压。

为之降低险情，吾等保留之许多已验证过之组件与trick，此让架构变得相待繁。

从V2之MLA始，每一代皆于删KV cache、删激活参数、删注意力计算量。

V4-Pro与V4-Flash，1.6万亿参数/2840亿参数上下文皆为1M。

不过彼等做之自己之版本，hybrid Newton-Schulz迭代，10步分两段。

论文之结尾有一份长长之贡献者名单。

Optimization Theory。

没进V4，但于前景方位里被点名，留给V5。

MoE用1名shared expert + 384名routed experts，每token激活6名。

Wormhole。

然后对所有压缩后之KV做dense attention。

核心为把残差流从一维变成n_hc条并行通道，每层之间通过一名矩阵B来混合。

于实验部分，有三件最值得说之事。

一如既往，吾等始终持长期主义与全民开源。

第一步，KV压缩。

DeepSeek此几年做之事，底层动作甚清晰，始终于删。

过往三年之趋势极其清晰。

整名历程对每一层皆跑一遍。

应急管理。

第一步，训domain specialist。

Kimi用Muon需QK-Clip来防备attention logits爆炸，DeepSeek没用此招。

法门论听起来甚优雅。

V4发布当天，DeepSeek研讨员陈德里于x上转发并写道：亚马逊硬件师GPD表示，此意味之DeepSeek或处置当前之HBM短缺疑难。

此表明其演进轨迹大约掉队最前沿闭源模型3到6名月。

此种跨团队之技艺共享与各自演化，为2026年开源社区最有意思之一面。

484天后，吾等谦卑地分享此份爱心之劳动。

第一层为序列长度压缩，n变成n/m。

V4把此件事推到之百万token。

Muon为前几年Keller Jordan彼批者（他今于OpenAI）于小模型上验证过之改良器，基于矩阵正交化。

总参数284B，激活13B。

矩阵之谱范数天然不超过1，残差传播套上硬上限，爆不起来。

Engram（机缘记忆模块）：1月DeepSeek联手北大发布。

但DeepSeek于堆多层时发觉，HC经常现数值不稳固，操练说崩就崩。

Codeforces rating 3206，超过之GPT-5.4之3168与Gemini-3.1-Pro之3052，于苍生选手榜单上排名第23。

一名甚长之agent会话，一份反复回读之技艺文档，一次跨多仓库之重构，此些过往要切窗口、要加retrieval、要精心管上下文之场景，于V4此里变成之「全塞进去看看再说」。

为之补偿近距离依赖，V4额外加之一名sliding window分支，每名query除之看压缩KV之外，还能看最近128名token之uncompressed KV。

把V4放回DeepSeek之完整路径里看，它不为于追击frontier。

每一名者皆算数，每一天也皆算数。

此外，大家最关之，还莫过于于过往四名月中，DeepSeek陆续放出之几篇「或进V4」之论文，今日技艺呈文开源之，可对一下账。

想法甚优雅，相当于给残差流增之一名新之scaling维度。

续用，针对mHC做之调理。

开源模型匹敌闭源头部，此次为真之匹敌之。

彼结局会怎样呢。

美洲杯。

1M场景下，V4-Pro之单token FLOPs只有V3.2之27%，KV cache只有10%。

第四步，grouped output projection。

HCA之思路更简粗暴，压得更狠，但不做稀疏。

但此份名单把彼等之名字与V4此名大家等之整整一年多之模型，绑于之同一张纸上。

1M MRCR上V4优于Gemini但明显不如Claude。

两家公司，同一名改良器，处置同一名疑难，走之为两条路。

论文原话极其诚，此两名trick work，但底层机理仍为open question。

史密斯于第二节始后命中2名三分球，勒布朗带领球队还击6分保居先。

Newtonian Mechanics。

DeepSeek-V3：2024年12月26日。

汤普森两罚全中，詹姆斯父子一同发力，勒布朗与布朗尼联手打出12-3之小高潮，半场前6分钟时湖者队以57-43居先14分。

第二层为稀疏选择，n/m变成top-k。

V4之做法叫mHC，把矩阵B约束到「双随机矩阵」之流形上（数学上叫Birkhoff polytope），行与列皆归一化为1。

CSA做两件事，先压缩，再稀疏选择操练调度上，序列长度走四段，4K → 16K → 64K → 1M。

mHC（流形约束超连接）：2025年12月31日上传arXiv，梁文锋挂名。

破釜沉舟。

Flash-Max或为此篇论文最被低估之一部分。

DeepSeek-V4系列于预操练数据量上实现之翻倍。

此为名巧妙之营造办理。

此名约束带来两名好处。

对每名query token，用一名轻量之indexer计算它与每名压缩KV块之相关性分数。

先SFT打底，再用GRPO做domain-specific RL。

Load Testing。

操练数据量整整翻之一倍多（增益约 1.2 倍）此里有名细节值得注意。

总参数1.6T，激活49B。

国际化。

tokenizer仍用V3之128K词表。

前8步用急进系数，快速把奇异值推向1附近。

吾等于K2.6与GLM-5.1之部分条目留空之，因它们之API太忙，没法及时返回吾等查询之结局。

此种矩阵于乘法下为闭锁之，堆甚多层也稳。

V4还引入之三档reasoning effort mode，Non-think、Think High、Think Max，每档输出长度不同。

CSA与HCA于core attention之前，皆对query与KV entries做一次RMSNorm，防备attention logits爆炸。

学识类与最前沿之推演差事仍有3-6名月之gap。

过往此一年，关于DeepSeek贤才流失之消息传过好几轮。

删到V4，单token推演FLOPs砍到四分之一，KV cache砍到十分之一。

现状差事里最值得提之为内部R&D代码benchmark，V4-Pro-Max 67%，接近Claude Opus 4.5之70%。

第一，引入mHC（Manifold-Constrained Hyper-Connections）强化残差连接。

MoE用1名shared expert + 256名routed experts，每token激活6名。

因V4把head dimension c设成之512（比V3.2之128大得多），若直接把所有head之输出投影回d维会甚贵，故做之分组投影，把n_h名head分成g组，每组先投影到一名中间维度d_g，最后再合并投影回d。

但营造上装不下，十几名teacher每名皆为万亿级，vocab size超过10万。

Database Management。

于选中之此top-k压缩KV块上做Multi-Query Attention，得到注意力输出。

居先所有开源模型20名百分点。

对1M token之序列，原本需attend 1M名token，今只需attend 1024名压缩块。

四名预期，三名落地，一名给下一代。

悟空。

有名蛮有意思之小细节，于样貌化数学评测中，DeepSeek也皮之一下友商：于模型架构上，V4-Flash，43层，隐藏维度4096。

V4之做法为teacher权重offload到分布式存储按需加载，只缓存hidden states不materialize logits，按teacher排序样本保证每名mini-batch只加载一名teacher head。

人民当家作主。

借鉴OpenAI与StreamingLLM之trick，于attention分母上加一名learnable sink logit，允许attention score总与不等于1。

进之V4。

游戏。

此外，论文还透露之几名trick。

CSA之压缩温与、靠稀疏把关，适合做token-level之精细检索。

模型一层一层堆，梯度沿之残差往回传，此为深度修习能work之先决。

中外热搜上之一整圈，科技媒体之版面今日皆让给之它，OpenAI也成之它之陪衬。

[2]https://arxiv.org/pdf/2512.24880 今DeepSeek也用上之。

若只看激活参数量，此为目前效能最极致之推演模型之一。

student自己rollout，最小化reverse KL向对应领域之expert对齐。

V4-Pro，61层，隐藏维度7168。

HLE上V4-Pro-Max 37.7，Gemini-3.1-Pro 44.4，Claude-Opus-4.6-Max 40.0。

接下来，吾等一名名看。

其中有不少带星号之名字，为已离开团队、但仍然对V4做出过重要贡献之研讨者。

V4把两者层层交替。

心旷神怡。

上一篇：一公司推出“代拜年帮尽孝”效劳，代磕头2小时收费999元 下一篇：特朗普，又改口之！

V4呈文太详尽之！484天换代之路全公开 DeepSeek - 世界足球先生

相关推荐