当前位置:文章 > 列表 > 正文

V4:1.6万亿参数、百万上下文,牵手华为,价码依然"屠夫级" 终等到DeepSeek - 新车

📅 2026-04-26 06:11:18 🏷️ 黄金现货买卖平台 👁️ 206
V4:1.6万亿参数、百万上下文,牵手华为,价码依然"屠夫级" 终等到DeepSeek

再叠加融资、扩充、下一阶段方略此些外围讨论,商场对它之期待,早就不只为“再发一名新模型”此么简。

此次 V4没有推出多模态版本,而多模态已越来越成为头部模型厂商之“标配动作”。

至于再往后,DeepSeek 能不能补上多模态、能不能借融资处置算力瓶颈、能不能把 V4此套 preview 架构真正打磨成熟,彼就为下一阶段之疑难之。

V4-Pro 为旗舰版,总参数1.6T,激活参数49B;V4-Flash 为轻量版,总参数284B,激活参数13B。

V4最核心之技艺改动于注意力层。

若说 V4展现之为 DeepSeek 仍然有本领于文本模型与 Agent 本领上续往前推,彼么它暂时没有补上之彼一块,也同样说明公司还得于源泉约束下做取舍。

V4此次真正想证验之为,长上下文不必只能做成贵族配置,它可被改造成可供大规模调用之根基本领。

官方也直接说之,“从今始,一百万上下文将为 DeepSeek 所有官方效劳之标配。

博客园。

若说过往外界对 DeepSeek 之期待,为它还能不能再做出一名“廉又强”之模型;彼么 V4给出之回答为:它不仅还于此么做,而且正试图把“廉又强”此件事,进一步做成一种架构性之本领。

于数学、STEM、竞赛型代码之测评中,DeepSeek-V4-Pro 逾越当前所有已公开评测之开源模型,取得之比肩全球顶级闭源模型之优异成绩。

Architecture。

“通过参赛,吾等想传递之讯息为,伊朗者民支和、遵守章法、支亚洲之团结。

第一步,针对数学、代码、Agent、指令跟随等不同领域,每名领域单独操练一名专家模型——先用该领域高品质数据做督察微调,再用 GRPO 算法做强化修习,于各自之细分赛道上跑到最优。

先天下之忧而忧,后天下之乐而乐。

两者皆原生支1M 上下文,同时支非思考模式与思考模式。

两种交替叠起来,再加一名滑动窗口分支办理近距离 token 之间之细节依赖。

大巧若拙。

彼 V4于做什么。

DeepSeek-V4,终于来之。

监督者。

把此套预案放进 DeepSeek 过往两年之技艺脉络里,变化就甚清晰。

V4之本领不再靠一名模型从头学到底,而为先让不同专家于各自赛道跑到顶,再把它们收编进同一套权重。

换句话说,虽上下文从128K 拉到之1M,理论上放大接近8倍,但单 token 之推演本金并没有跟之爆炸,反而被打之下来。

第一,DeepSeek 此次确实已把国产算力协同放进正式路线里之。

一句话:它把长上下文之本金架构彻底重写之一遍。

第二,它此次到底拿出之什么新东西。

载人飞船

DeepSeek-V4-Pro 于全球学识测评中,大幅居先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

此套流程之营造难度极高:同时加载十多名万亿参数级之教师模型做于线推演不现状。

第二,V4当前之本领释放,还没有完全到位,背后依然受制于算力供给。

DeepSeek 之做法为把所有教师权重一统卸载到分布式存储,只缓存每名教师最后一层之 hidden state,操练时按教师索引排序样本,保证任意时刻 GPU 显存里只驻留一名 teacher head。

既压缩之"要看之实质",又只挑"值得看之"去算。

”伊朗奥委会秘书长迈赫迪·阿里内贾德说,“吾等来之,向大家展示伊朗还活之,吾等之运动员依然能比赛。

DeepSeek 于说明里提到,受限于高端算力,当前 Pro 之效劳吞吐仍然有尽,预计下半年昇腾950超节点批量上市之后,Pro 之价码还会进一步大幅下调。

V4针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 货品进行之适配改良,于代码差事与文档生成差事上均有提升。

” 于 Agent 方位,V4做之几处专项改良:后操练阶段把 Agent 作为与数学、代码并列之独力专家方位单独操练;器物调用格式从 JSON 换成带特殊 token 之 XML 架构,降低转义过失;跨轮次推演痕迹于器物调用场景下完整保留,不再像 V3.2彼样每轮清空。

此点于多模态上体现得尤其明显。

此为一次根基设施级别之发布,为下一阶段之 test-time scaling 与长程 Agent 差事铺路。

因过往甚长一段光阴,长上下文始终皆更像一种本领展示:窗口越写越长,但真到实际调用时,价码、延迟、显存压力皆甚难看。

于Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并于其他Agent 相关评测中同样表现优异。

更进一步,每名模型又分成三档推演强度:Non-think、Think High、Think Max。

Techno-pessimism。

”此句话表面上为于强调上下文长度,实际上更重要之为它背后之意思:DeepSeek 不为想把1M 当成一名展示参数,而为想把它做成标准配置。

此次 V4最值得注意之地方,也正为于本金曲线。

此段光阴,行业节奏已快到有些失真。

技艺上动之三刀:注意力、残差、后操练 昇腾表示,其始终齐步支DeepSeek系列模型,本次通过双方芯模技艺紧密协同,实现昇腾超节点全系列货品支DeepSeek V4系列模型。

通俗地讲,就为把一堆尖子生之本事蒸馏进同一名者脑袋里。

官方表示,相比前代模型,DeepSeek-V4-Pro之Agent本领显著增强。

V4换成之"分化再一统"之两步走。

帕尔马足球会

此一点于价码上体现得极其直接。

目前DeepSeek-V4已成为公司内部员工用之Agentic Coding 模型,据评测回馈用体验优于Sonnet 4.5,交付品质接近 Opus 4.6非思考模式,但仍与 Opus 4.6思考模式存必差距。

旧俗 Transformer 之注意力机制里,每名 token 要与前面所有 token 算一遍相似度。

4月24日,DeepSeek-V4预览版官宣上线,齐步开源。

此名价码一出来,基本上还为彼名熟悉之 DeepSeek 风格。

V4于此之外又开之一条上下文稀疏化之路,KV 压缩、top-k 选择、分层压缩率。

V4此次发布,另一名绕不开之话题,为算力。

快船队

也就为说,此次 DeepSeek 给出之不只为两名模型,而为一整套可按场景分层调用之本领架构。

DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS。

越为于此种密集更新里,DeepSeek之沉默就越易被放大。

DeepSeek 还自建之一套名为 DSec 之沙箱平台,单集群可并发管数十万名沙箱实例,专门支撑 Agent 强化修习操练与评测。

出品 | 《态度》栏目 故,怎么体谅此次 V4。

因当模型行业进入更高密度之角逐之后,技艺路线再强,也甚难脱离算力、贤才与现金流去单独讨论。

家庭。

此种思路绕开之旧俗混合 RL 易导致之本领互相干扰疑难。

除之注意力层,V4还改之两处之前没动过之地方。

国际油价

第一,DeepSeek还于不于第一梯队里。

V2、V3走之为参数稀疏化,总参数甚大,但每 token 只激活一小部分专家。

此次 V4一共两名版本。

一为把旧俗残差连接晋级为 mHC(流形约束超连接),通过数学约束让深层网络之前向与反向传播更稳固;二为用 Muon 改良器替代大部分模块原本用之 AdamW,收敛更快,操练更稳。

此前有消息称,DeepSeek 正以超过100亿美元估值寻求外部融资,谋划募集不少于3亿美元资金。

100万 token 上下文成为标配,但单 token 之算力消耗反而大幅降。

先说断语:V4不为一代靠“本领全面跃升”来定义自己之模型。

故,V4此次上线,大家真正想知道之其实为两件事: 今日下午,16点,华为昇腾还将于B站直播DeepSeek V4于其平台之首发。

两名版本、百万上下文、三档推演,DeepSeek此次最狠之还为价码 此一点其实比“百万上下文”本身更枢纽。

从货品上看,此名思路已甚明确之:Pro 负责冲本领上限,Flash 负责铺性价比;非思考负责效能,Max 负责榨干推演本领。

一个中国原则。

它基本等于确认之两件事。

融资、算力、昇腾,V4背后还有DeepSeek之下一道现状题 从此名角度看,V4其实也暴露出 DeepSeek 当前所处之位置:它于模型本领上仍然保强角逐力,尤其于开源与高性价比此条线上依然极其突出;但与此同时,它也已进入一名须更现状地办理算力与源泉配置之疑难阶段。

上下文从10万拉到100万,计算量增益之不为10倍,为100倍。

按照官方披露之数据,于1M 上下文设置下,V4-Pro 之单 token 推演 FLOPs 只有 V3.2之27%,KV Cache 只有10%;V4-Flash 更急进,分别压到10% 与7%。

V4-Pro 每百万 token 输入价码为1元,输出为12元;V4-Flash 每百万 token 输入0.2元,输出2元。

比架构改动更值得注意之为后操练法门之切换。

Computer Networks。
教训

此为 DeepSeek 第一次把"稀疏化"之刀动到 Transformer 之核心架构里。

此为一套"粗粒度 + 细粒度、稀疏 + 稠密"之组合拳。

对一家过往长期强调独力性、相待克制本钱叙事之公司来说,此种变化本身就甚值得玩味。

新模型一波接一波,参数、榜单、价码、长上下文、Agent、推演强度,几乎每隔几天就要重排一次座次。

另一种叫 HCA(重压缩注意力),压缩率更急进,把每128名 token 合并成一条,但对剩下之摘要做稠密注意力,不做稀疏挑选。

V3.2用之为"混合 RL",一次性用强化修习改良多名宗旨。

TCP/IP。

也难怪不少用户第一反应还为彼句老话:廉,而且强。

谢周三足球俱乐部

同时动注意力、残差、改良器三处核心架构,于 DeepSeek 之史册上为第一次。

培训。

第二步,用 On-Policy Distillation(OPD,于计策蒸馏)把十多名领域专家"合成"回一名一统之学生模型。

赵霞

基于DeepSeek V4-Pro模型,于8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。

小米汽车

学生自己生成回答,然后对每名回答,去匹配"最懂此名疑难"之专家之输出分布,通过 logit 级对齐把本领吸收进来。

而标准配置能不能成立,枢纽从来皆不为“写没写支1M”,而为本金。

V4之做法为把注意力拆成两种,交替叠用。

一种叫 CSA(压缩稀疏注意力),先把每4名 token 之 KV 缓存合并成一条摘要,再让每名 query 只于此些摘要里挑出最相关之 top-k 条去算。

Hard Tech。

上一篇:华夏载者登月进展--中美此次谁先载者登月仍然不好说 下一篇:卡福盛赞拜仁:“足球风雅之典范”

Peace。