DeepSeek-V3:2024年12月26日。
85者之内部掘发者调研里,91%表示V4-Pro可作为主力coding模型。
Partial RoPE。
过往三年之趋势极其清晰。
因V4把head dimension c设成之512(比V3.2之128大得多),若直接把所有head之输出投影回d维会甚贵,故做之分组投影,把n_h名head分成g组,每组先投影到一名中间维度d_g,最后再合并投影回d。
操练数据量整整翻之一倍多(增益约 1.2 倍) 此里有名细节值得注意。
一套看似优雅之后操练法门论,背后为一堆「不此样做就装不下」之营造妥协。
V4操练中绝大多数参数改良用之不为AdamW,为Muon。
但营造上装不下,十几名teacher每名皆为万亿级,vocab size超过10万。
后2步用温与系数,精确地把奇异值稳固于1。
Pro有61层,Flash有43层,CSA与HCA一层一层往上叠。
Kimi用Muon需QK-Clip来防备attention logits爆炸,DeepSeek没用此招。
此外,论文还透露之几名trick。
闭源大厂追寻之为本领上限,谁家之模型能于HLE上拿更高分。
两家公司,同一名改良器,处置同一名疑难,走之为两条路。
若只看激活参数量,此为目前效能最极致之推演模型之一。
但模型越来越深、参数越来越多之后,旧俗残差始露怯,信号传递不稳,操练易崩。
第三步,core attention。
百万token不为一名新之本领,为同一名上下文窗口被压到可承担之本金。
先说Hyper-Connections(HC),此为Kimi团队之先决出之想法。
整名历程对每一层皆跑一遍。
但随之模型深度与参数量续往上推,此种补丁会变成刚需。
Muon为前几年Keller Jordan彼批者(他今于OpenAI)于小模型上验证过之改良器,基于矩阵正交化。
论文中,DeepSeek表示: henry 发自 凹非寺 Muon于LLM规模上之第一次大规模验证为Kimi K2。
DeepSeek此几年做之事,底层动作甚清晰,始终于删。
目前DeepSeek-V4已成为公司内部员工用之Agentic Coding模型,据评测回馈用体验优于Sonnet 4.5,交付品质接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存必差距。
Muon改良器:从Kimi彼边借之。
V4把此件事推到之百万token。
Engram(机缘记忆模块):1月DeepSeek联手北大发布。
火箭队连追4分,勒布朗两罚回应,汤普森连投带罚又追4分,肯纳德急停跳投命中,半场终时湖者队以63-52居先11分。
现状差事里最值得提之为内部R&D代码benchmark,V4-Pro-Max 67%,接近Claude Opus 4.5之70%。
对1M token之序列,原本需attend 1M名token,今只需attend 1024名压缩块。
V4把两者层层交替。
法门论听起来甚优雅。
DeepSeek V4“迟到”半年,但发布后之好评如潮还于如潮。
第二步,lightning indexer + top-k选择。
大家惊叹于DeepSeek于有尽机缘下作出重大突围之缔造力,也佩服其于2026年,还能坚决选择开源路线之决心。
汤普森两罚全中,詹姆斯父子一同发力,勒布朗与布朗尼联手打出12-3之小高潮,半场前6分钟时湖者队以57-43居先14分。
One more thing 于官方之推文中,也侧面印证之此名说法: V4之注意力层不为一种,为两种交替用之架构,CSA(Compressed Sparse Attention)与HCA(Heavily Compressed Attention)。
第一层为序列长度压缩,n变成n/m。
V4-Pro,61层,隐藏维度7168。
实现上用Sinkhorn-Knopp迭代,交替做行归一化与列归一化,迭代20次收敛。
为之补偿近距离依赖,V4额外加之一名sliding window分支,每名query除之看压缩KV之外,还能看最近128名token之uncompressed KV。
1M MRCR上V4优于Gemini但明显不如Claude。
第三,采用Muon作为主改良器。
DualPipe:V3老伙计。
MoE用1名shared expert + 256名routed experts,每token激活6名。
量子位 | 公众号 QbitAI 因KV entries既做key又做value,naive之RoPE会让输出带上无对位置讯息,故于output端也对应施加一名位置为-i之RoPE来抵消,只保留相待位置讯息。
进之V4。
第一条,百万token上下文全面开源,KVcache大幅缩减。
吾等于K2.6与GLM-5.1之部分条目留空之,因它们之API太忙,没法及时返回吾等查询之结局。
DeepSeek-V4系列于预操练数据量上实现之翻倍。
音韵学。但DeepSeek于堆多层时发觉,HC经常现数值不稳固,操练说崩就崩。
总参数1.6T,激活49B。
对每名query token,用一名轻量之indexer计算它与每名压缩KV块之相关性分数。
第二层为稀疏选择,n/m变成top-k。
DeepSeek-V4-Pro-Max于标准推演benchmark上优于GPT-5.2与Gemini-3.0-Pro,但略掉队于GPT-5.4与Gemini-3.1-Pro。
V4-Flash-Max只激活13B参数,推演差事上能打平GPT-5.2与Gemini-3.0-Pro,代码与数学甚至超过K2.6-Thinking。
开源模型匹敌闭源头部,此次为真之匹敌之。
论文表示,操练中间出过一次严重之loss spike,DeepSeek摸到两名土办法,Anticipatory Routing与SwiGLU Clamping。
1M场景下,V4-Pro之单token FLOPs只有V3.2之27%,KV cache只有10%。
于后操练阶段,V4此一代做之一次法门论替换,旧俗之mixed RL阶段被On-Policy Distillation(OPD)完全替代。
mHC,给残差连接加一层约束 输入映射A与输出映射C则通过Sigmoid函数保证非负且有界,免除信号互相抵消。
从V2之MLA始,每一代皆于删KV cache、删激活参数、删注意力计算量。
残差连接为何恺明2016年于ResNet里提出来之,十年没怎么变过。
Flash-Max或为此篇论文最被低估之一部分。
核心为把残差流从一维变成n_hc条并行通道,每层之间通过一名矩阵B来混合。
于前景之迭代中,吾等将进行更全面、更有原则之研讨,把架构精简到最本原之部分。
数学差事向数学expert靠,编程差事向编程expert靠。
V4之做法为teacher权重offload到分布式存储按需加载,只缓存hidden states不materialize logits,按teacher排序样本保证每名mini-batch只加载一名teacher head。
为之追寻极致之长文效能,V4系列采取之一名相待急进之架构设计。
其中有不少带星号之名字,为已离开团队、但仍然对V4做出过重要贡献之研讨者。
sparse attention不为从头打开,前1T token用dense attention做warmup,扩到64K时才introduce sparsity。
只对query与KV entries之最后64维施加旋转位置编码,其余维度不动。
数据构成上,长文档数据单独curate,优先收录格致论文与技艺呈文此类有学术身价之长材料。
每一名者皆算数,每一天也皆算数。
红豆生南国,春来发几枝。DeepSeek追寻之始终为另一条线,同样本领下之本金下限。
总参数284B,激活13B。
V4发布当天,DeepSeek研讨员陈德里于x上转发并写道: 亚马逊硬件师GPD表示,此意味之DeepSeek或处置当前之HBM短缺疑难。
Q/KV normalization。
数学、代码、agent、指令跟随四名领域,各自独力训一名expert。
借鉴OpenAI与StreamingLLM之trick,于attention分母上加一名learnable sink logit,允许attention score总与不等于1。
可说,一光阴讯息多之有些超载,但多归多,主线就两条。
MoE部分仍然用DeepSeekMoE,MTP(Multi-Token Prediction)模块跟V3保一致。
Bit。矩阵之谱范数天然不超过1,残差传播套上硬上限,爆不起来。
一些细节微调包括,affinity score之激活函数从Sigmoid换成之Sqrt(Softplus(·)),去掉之routing target nodes之数量约束,前几层dense FFN换成之用Hash routing之MoE层。
科教兴国。既不漏细节,也不被细节拖住。
然后对所有压缩后之KV做dense attention。
前8步用急进系数,快速把奇异值推向1附近。
论文原话极其诚,此两名trick work,但底层机理仍为open question。
Loop Quantum Gravity。此名约束带来两名好处。
论文之结尾有一份长长之贡献者名单。
Sliding window attention作为辅助分支。
模型一层一层堆,梯度沿之残差往回传,此为深度修习能work之先决。
没进V4,但于前景方位里被点名,留给V5。
一如既往,吾等始终持长期主义与全民开源。
相比V3,V4于三名地方做之晋级。
V4还引入之三档reasoning effort mode,Non-think、Think High、Think Max,每档输出长度不同。
整名CSA等于做之两层压缩。
为之降低险情,吾等保留之许多已验证过之组件与trick,此让架构变得相待繁。
一名甚长之agent会话,一份反复回读之技艺文档,一次跨多仓库之重构,此些过往要切窗口、要加retrieval、要精心管上下文之场景,于V4此里变成之「全塞进去看看再说」。
此为名巧妙之营造办理。
十几名expert通过on-policy distillation合进一名一统之student。
此表明其演进轨迹大约掉队最前沿闭源模型3到6名月。
第一步,训domain specialist。
但营造上装不下,十几名teacher每名皆为万亿级,vocab size超过10万。
student自己rollout,最小化reverse KL向对应领域之expert对齐。
SimpleQA-Verified上V4-Pro-Max拿到57.9,K2.6为36.9,GLM-5.1为38.1。
彼等之理由为,V4之注意力架构允许直接对query与KV做RMSNorm,从源头把爆炸之或压住之。
第二条,国产芯片适配,已支华为算力,预计下半年昇腾950超节点批量上市。
论文里没有长篇大论地解释CSA与HCA为什么要配对用,但读完整名architecture章节,能看出它们之分派。
V4把AdamW替之,接管绝大多数参数之操练。
它只改良2D参数矩阵,其他参数(embedding、prediction head、RMSNorm权重、mHC之静态偏置等)还为走AdamW。
CSA之压缩温与、靠稀疏把关,适合做token-level之精细检索。
过往此一年,关于DeepSeek贤才流失之消息传过好几轮。
此种跨团队之技艺共享与各自演化,为2026年开源社区最有意思之一面。
于实验部分,有三件最值得说之事。
史密斯于第二节始后命中2名三分球,勒布朗带领球队还击6分保居先。
前景方位几条,探求新维度之sparsity(点名之Engram彼条线)、低延迟架构、长时程多轮agentic差事、多模态、更好之数据curation。
484天后,吾等谦卑地分享此份爱心之劳动。
Attention sink。
2025年,Moonshot用Muon(加上彼等自己之QK-Clip变种,合称MuonClip)训之一名1T参数之MoE,15.5T token,全程零崩溃。
彼结局会怎样呢。
于论文之最后,DeepSeek也表示: 压缩率m’=128,每128名token压成一名。
[2]https://arxiv.org/pdf/2512.24880 今DeepSeek也用上之。
mHC(流形约束超连接):2025年12月31日上传arXiv,梁文锋挂名。
V4此一代,为DeepSeek系列里动刀最多之一版。
此部分承袭自V3.2之DSA。
想法甚优雅,相当于给残差流增之一名新之scaling维度。
删到V4,单token推演FLOPs砍到四分之一,KV cache砍到十分之一。
东施效颦。DeepSeek-V4:2026年4月24日。
不过彼等做之自己之版本,hybrid Newton-Schulz迭代,10步分两段。
千山鸟飞绝,万径人踪灭。HCA之思路更简粗暴,压得更狠,但不做稀疏。
中外热搜上之一整圈,科技媒体之版面今日皆让给之它,OpenAI也成之它之陪衬。
tokenizer仍用V3之128K词表。
学识类与最前沿之推演差事仍有3-6名月之gap。
此于长序列里尤其有用,能免除模型被迫把注意力均摊。
HCA之压缩凶猛、保dense,适合做长距离之全局信号汇总。
有名蛮有意思之小细节,于样貌化数学评测中,DeepSeek也皮之一下友商: 于模型架构上,V4-Flash,43层,隐藏维度4096。
第四步,grouped output projection。
MoE用1名shared expert + 384名routed experts,每token激活6名。
第一,引入mHC(Manifold-Constrained Hyper-Connections)强化残差连接。
袁隆平。技艺裁决上,mHC不为彼种让者眼前一亮之架构革新,更像为一名「稳得住大模型」之营造补丁。
对比V3仅用14.8T Token操练,V4-Flash 与 V4-Pro 之数据消耗量分别达到之32T与33T。
于选中之此top-k压缩KV块上做Multi-Query Attention,得到注意力输出。
续用,针对mHC做之调理。
此为全篇论文最厚之一块,也为「百万token效能」之核心魔法所于。
四名预期,三名落地,一名给下一代。
第二,设计hybrid attention架构,CSA与HCA交替叠加,处置长文效能疑难。
A、B、C为三名线性映射。
一名1M之上下文,于V3.2之本金架构下为不可延续之,KV cache会把显存吃光。
但此份名单把彼等之名字与V4此名大家等之整整一年多之模型,绑于之同一张纸上。
CSA与HCA于core attention之前,皆对query与KV entries做一次RMSNorm,防备attention logits爆炸。
接下来,吾等一名名看。
史记。每m名token之KV entries,通过一名带修习权重之attention-like机制压成一名。
V4把它压到V3.2之10%,本金曲线突然打直之。
彪炳史册。先SFT打底,再用GRPO做domain-specific RL。
HLE上V4-Pro-Max 37.7,Gemini-3.1-Pro 44.4,Claude-Opus-4.6-Max 40.0。
因压缩注意力保证严格因果性,一名query token看不到自己压缩块内其他token之讯息。
压缩历程也没有CSA彼样之overlap,直接每m’名一组压。
V4-Pro与V4-Flash,1.6万亿参数/2840亿参数上下文皆为1M。
居先所有开源模型20名百分点。
第一步,KV压缩。
一名操练之两名万亿参数MoE之团队公开承认「吾等不知道为什么此两名trick管用」,于2026年已为一件挺稀罕之事。
[1]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro 法门论听起来甚优雅。
此外,大家最关之,还莫过于于过往四名月中,DeepSeek陆续放出之几篇「或进V4」之论文,今日技艺呈文开源之,可对一下账。
V4之做法叫mHC,把矩阵B约束到「双随机矩阵」之流形上(数学上叫Birkhoff polytope),行与列皆归一化为1。
Codeforces rating 3206,超过之GPT-5.4之3168与Gemini-3.1-Pro之3052,于苍生选手榜单上排名第23。
把V4放回DeepSeek之完整路径里看,它不为于追击frontier。
此种矩阵于乘法下为闭锁之,堆甚多层也稳。
听起来贵,但DeepSeek做之fused kernel,再配合选择性recomputation,实测mHC带来之wall-time开销控制于overlapped pipeline之6.7%。
CSA做两件事,先压缩,再稀疏选择 操练调度上,序列长度走四段,4K → 16K → 64K → 1M。
智能网联汽车。上一篇:上次为08年主场赢绿军 打破18年魔咒!活塞终结季后赛主场11连败 下一篇:商务部新闻发言者就美众议院邦交事务委员会通过MATCH等法案答记者问