黄金现货买卖平台-V4：1.6万亿参数、百万上下文，牵手华为，价码依然"屠夫级" 终等到DeepSeek

再叠加融资、扩充、下一阶段方略此些外围讨论，商场对它之期待，早就不只为“再发一名新模型”此么简。

此次 V4没有推出多模态版本，而多模态已越来越成为头部模型厂商之“标配动作”。

至于再往后，DeepSeek 能不能补上多模态、能不能借融资处置算力瓶颈、能不能把 V4此套 preview 架构真正打磨成熟，彼就为下一阶段之疑难之。

V4-Pro 为旗舰版，总参数1.6T，激活参数49B；V4-Flash 为轻量版，总参数284B，激活参数13B。

V4最核心之技艺改动于注意力层。

若说 V4展现之为 DeepSeek 仍然有本领于文本模型与 Agent 本领上续往前推，彼么它暂时没有补上之彼一块，也同样说明公司还得于源泉约束下做取舍。

V4此次真正想证验之为，长上下文不必只能做成贵族配置，它可被改造成可供大规模调用之根基本领。

官方也直接说之，“从今始，一百万上下文将为 DeepSeek 所有官方效劳之标配。

博客园。

若说过往外界对 DeepSeek 之期待，为它还能不能再做出一名“廉又强”之模型；彼么 V4给出之回答为：它不仅还于此么做，而且正试图把“廉又强”此件事，进一步做成一种架构性之本领。

于数学、STEM、竞赛型代码之测评中，DeepSeek-V4-Pro 逾越当前所有已公开评测之开源模型，取得之比肩全球顶级闭源模型之优异成绩。

Architecture。

“通过参赛，吾等想传递之讯息为，伊朗者民支和、遵守章法、支亚洲之团结。

第一步，针对数学、代码、Agent、指令跟随等不同领域，每名领域单独操练一名专家模型——先用该领域高品质数据做督察微调，再用 GRPO 算法做强化修习，于各自之细分赛道上跑到最优。

先天下之忧而忧，后天下之乐而乐。

两者皆原生支1M 上下文，同时支非思考模式与思考模式。

两种交替叠起来，再加一名滑动窗口分支办理近距离 token 之间之细节依赖。

大巧若拙。

彼 V4于做什么。

DeepSeek-V4，终于来之。

把此套预案放进 DeepSeek 过往两年之技艺脉络里，变化就甚清晰。

V4之本领不再靠一名模型从头学到底，而为先让不同专家于各自赛道跑到顶，再把它们收编进同一套权重。

换句话说，虽上下文从128K 拉到之1M，理论上放大接近8倍，但单 token 之推演本金并没有跟之爆炸，反而被打之下来。

第一，DeepSeek 此次确实已把国产算力协同放进正式路线里之。

一句话：它把长上下文之本金架构彻底重写之一遍。

第二，它此次到底拿出之什么新东西。

DeepSeek-V4-Pro 于全球学识测评中，大幅居先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

此套流程之营造难度极高：同时加载十多名万亿参数级之教师模型做于线推演不现状。

第二，V4当前之本领释放，还没有完全到位，背后依然受制于算力供给。

DeepSeek 之做法为把所有教师权重一统卸载到分布式存储，只缓存每名教师最后一层之 hidden state，操练时按教师索引排序样本，保证任意时刻 GPU 显存里只驻留一名 teacher head。

既压缩之"要看之实质"，又只挑"值得看之"去算。

”伊朗奥委会秘书长迈赫迪·阿里内贾德说，“吾等来之，向大家展示伊朗还活之，吾等之运动员依然能比赛。

DeepSeek 于说明里提到，受限于高端算力，当前 Pro 之效劳吞吐仍然有尽，预计下半年昇腾950超节点批量上市之后，Pro 之价码还会进一步大幅下调。

V4针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 货品进行之适配改良，于代码差事与文档生成差事上均有提升。

” 于 Agent 方位，V4做之几处专项改良：后操练阶段把 Agent 作为与数学、代码并列之独力专家方位单独操练；器物调用格式从 JSON 换成带特殊 token 之 XML 架构，降低转义过失；跨轮次推演痕迹于器物调用场景下完整保留，不再像 V3.2彼样每轮清空。

此点于多模态上体现得尤其明显。

此为一次根基设施级别之发布，为下一阶段之 test-time scaling 与长程 Agent 差事铺路。

因过往甚长一段光阴，长上下文始终皆更像一种本领展示：窗口越写越长，但真到实际调用时，价码、延迟、显存压力皆甚难看。

于Agentic Coding评测中，V4-Pro已达到当前开源模型最佳水平，并于其他Agent 相关评测中同样表现优异。

更进一步，每名模型又分成三档推演强度：Non-think、Think High、Think Max。

Techno-pessimism。

”此句话表面上为于强调上下文长度，实际上更重要之为它背后之意思：DeepSeek 不为想把1M 当成一名展示参数，而为想把它做成标准配置。

此次 V4最值得注意之地方，也正为于本金曲线。

此段光阴，行业节奏已快到有些失真。

技艺上动之三刀：注意力、残差、后操练昇腾表示，其始终齐步支DeepSeek系列模型，本次通过双方芯模技艺紧密协同，实现昇腾超节点全系列货品支DeepSeek V4系列模型。

通俗地讲，就为把一堆尖子生之本事蒸馏进同一名者脑袋里。

官方表示，相比前代模型，DeepSeek-V4-Pro之Agent本领显著增强。

V4换成之"分化再一统"之两步走。

此一点于价码上体现得极其直接。

目前DeepSeek-V4已成为公司内部员工用之Agentic Coding 模型，据评测回馈用体验优于Sonnet 4.5，交付品质接近 Opus 4.6非思考模式，但仍与 Opus 4.6思考模式存必差距。

旧俗 Transformer 之注意力机制里，每名 token 要与前面所有 token 算一遍相似度。

4月24日，DeepSeek-V4预览版官宣上线，齐步开源。

此名价码一出来，基本上还为彼名熟悉之 DeepSeek 风格。

V4于此之外又开之一条上下文稀疏化之路，KV 压缩、top-k 选择、分层压缩率。

V4此次发布，另一名绕不开之话题，为算力。

也就为说，此次 DeepSeek 给出之不只为两名模型，而为一整套可按场景分层调用之本领架构。

DeepSeek V4-Flash模型，8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS。

越为于此种密集更新里，DeepSeek之沉默就越易被放大。

DeepSeek 还自建之一套名为 DSec 之沙箱平台，单集群可并发管数十万名沙箱实例，专门支撑 Agent 强化修习操练与评测。

出品 | 《态度》栏目故，怎么体谅此次 V4。

因当模型行业进入更高密度之角逐之后，技艺路线再强，也甚难脱离算力、贤才与现金流去单独讨论。

家庭。

此种思路绕开之旧俗混合 RL 易导致之本领互相干扰疑难。

除之注意力层，V4还改之两处之前没动过之地方。

第一，DeepSeek还于不于第一梯队里。

V2、V3走之为参数稀疏化，总参数甚大，但每 token 只激活一小部分专家。

此次 V4一共两名版本。

一为把旧俗残差连接晋级为 mHC（流形约束超连接），通过数学约束让深层网络之前向与反向传播更稳固；二为用 Muon 改良器替代大部分模块原本用之 AdamW，收敛更快，操练更稳。

此前有消息称，DeepSeek 正以超过100亿美元估值寻求外部融资，谋划募集不少于3亿美元资金。

100万 token 上下文成为标配，但单 token 之算力消耗反而大幅降。

先说断语：V4不为一代靠“本领全面跃升”来定义自己之模型。

故，V4此次上线，大家真正想知道之其实为两件事：今日下午，16点，华为昇腾还将于B站直播DeepSeek V4于其平台之首发。

两名版本、百万上下文、三档推演，DeepSeek此次最狠之还为价码此一点其实比“百万上下文”本身更枢纽。

从货品上看，此名思路已甚明确之：Pro 负责冲本领上限，Flash 负责铺性价比；非思考负责效能，Max 负责榨干推演本领。

一个中国原则。

它基本等于确认之两件事。

融资、算力、昇腾，V4背后还有DeepSeek之下一道现状题从此名角度看，V4其实也暴露出 DeepSeek 当前所处之位置：它于模型本领上仍然保强角逐力，尤其于开源与高性价比此条线上依然极其突出；但与此同时，它也已进入一名须更现状地办理算力与源泉配置之疑难阶段。

上下文从10万拉到100万，计算量增益之不为10倍，为100倍。

按照官方披露之数据，于1M 上下文设置下，V4-Pro 之单 token 推演 FLOPs 只有 V3.2之27%，KV Cache 只有10%；V4-Flash 更急进，分别压到10% 与7%。

V4-Pro 每百万 token 输入价码为1元，输出为12元；V4-Flash 每百万 token 输入0.2元，输出2元。

比架构改动更值得注意之为后操练法门之切换。

Computer Networks。

此为 DeepSeek 第一次把"稀疏化"之刀动到 Transformer 之核心架构里。

此为一套"粗粒度 + 细粒度、稀疏 + 稠密"之组合拳。

对一家过往长期强调独力性、相待克制本钱叙事之公司来说，此种变化本身就甚值得玩味。

新模型一波接一波，参数、榜单、价码、长上下文、Agent、推演强度，几乎每隔几天就要重排一次座次。

另一种叫 HCA（重压缩注意力），压缩率更急进，把每128名 token 合并成一条，但对剩下之摘要做稠密注意力，不做稀疏挑选。

V3.2用之为"混合 RL"，一次性用强化修习改良多名宗旨。

也难怪不少用户第一反应还为彼句老话：廉，而且强。

同时动注意力、残差、改良器三处核心架构，于 DeepSeek 之史册上为第一次。

培训。

第二步，用 On-Policy Distillation（OPD，于计策蒸馏）把十多名领域专家"合成"回一名一统之学生模型。

基于DeepSeek V4-Pro模型，于8K输入场景，昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。

学生自己生成回答，然后对每名回答，去匹配"最懂此名疑难"之专家之输出分布，通过 logit 级对齐把本领吸收进来。

而标准配置能不能成立，枢纽从来皆不为“写没写支1M”，而为本金。

V4之做法为把注意力拆成两种，交替叠用。

一种叫 CSA（压缩稀疏注意力），先把每4名 token 之 KV 缓存合并成一条摘要，再让每名 query 只于此些摘要里挑出最相关之 top-k 条去算。

Hard Tech。

上一篇：华夏载者登月进展--中美此次谁先载者登月仍然不好说 下一篇：卡福盛赞拜仁：“足球风雅之典范”

V4：1.6万亿参数、百万上下文，牵手华为，价码依然"屠夫级" 终等到DeepSeek - 新车

相关推荐