当前位置:主页 > 动态 >

Yifan Zhang披露DeepSeek V4完整技术规格:1.6T参数、384专家激活6个

时间:2026-04-22 22:47:21

  消息,4 月 22 日,据 动察 Beating 监测,普林斯顿博士生 Yifan Zhang 在 X 更新了 DeepSeek V4 的技术细节。他 4 月 19 日预告「V4 下周」并列出三个架构组件名称,今晚给出了完整参数表,同时首次披露存在一个 285B 参数的轻量版 V4-Lite。 V4 总参 1.6T。注意力机制为 DSA2,组合了 DeepSeek 此前在 V3.2 中使用的 DSA和今年初论文提出的 NSA两种稀疏注意力方案,head-dim 512,配合 Sparse MQA 和 SWA。MoE 层共 384 个专家,每次激活 6 个,使用 Fused MoE Mega-Kernel。残差连接沿用 Hyper-Connections。 训练端首次披露的细节包括:优化器用 Muon,预训练上下文长度 32K,强化学习阶段用 GRPO 并加入 KL 散度校正。最终上下文长度扩展至 1M。模态为纯文本。 Zhang 不在 DeepSeek 任职,DeepSeek 官方未对上述信息做出回应。

热点推荐
1 美股暴跌,AI不确定性与加密货币爆仓成

消息,纳斯达克100指数在27分钟内暴跌1000点,标普500抹去1万亿美元市值,开盘后从上涨1%转为...

2 分析师:比特币价格跌破6万美元,形成

消息,比特币价格在卖方压力下跌破关键心理关口6万美元,形成了100亿美元的期权陷阱。此举...

3 美国众议院共和党人提出法案要求AI公司

美国众议院共和党人近日提出一项法案,要求人工智能公司在发生重大事件、模型违规及危险...

4 ETF资金流出:BTC、ETH近一周净流出

消息,据Lookonchain数据,6月25日更新显示,ETF资金流出情况为:比特币在过去1天净流出7,439枚,...

5 Kraken:NOCK现已上线交易

消息,Kraken宣布NOCK代币自2026年6月26日起可进行交易。用户可通过资金页面选择NOCK进行存款,...

6 麻吉黄立成:ETH多单减持554.48枚,当前盈

消息,麻吉黄立成在ETH多单上减持554.48枚,约合950,467.08美元。当前持仓规模为1,115,660.00美元,...

7 XBIT DEX:德国胜厄瓜多尔概率暂报65%,冲

消息,XBIT DEX预测市场数据显示,6月26日世界杯小组赛厄瓜多尔对阵德国,德国获胜概率暂报...

8 俄称乌军袭击克里米亚,乌克兰称多州遭

消息,克里米亚地区行政长官谢尔盖阿克肖诺夫25日在社交媒体发布通报称,乌克兰武装部队...

9 波兰警方突袭涉嫌加密SIM卡交换团伙,逮

消息,波兰警方在FBI的支持下突袭了一个涉嫌加密SIM卡交换的团伙,逮捕了4名嫌疑人。波兰网...

10 以色列无人机在黎巴嫩南部对一辆汽车实

消息,医疗和安全消息来源称,以色列无人机在黎巴嫩南部对一辆汽车实施空袭,造成两人死...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。