兴中资讯

推荐

DeepSeek引硅谷恐慌,中国工程院院士揭秘其优势

时间:2025-01-30 12:35

  DeepSeek在AI领域的影响力巨大。中国工程院院士、清华大学计算机系教授郑纬民指出其成功的关键。

  DeepSeek的两大模型DeepSeek-V3和DeepSeek-R1,技术能力与OpenAI的4o和o1模型相当,但成本仅为十分之一。

  更重要的是,DeepSeek开源了这两大模型的技术,促进了AI原生应用的开发。

  
 

  DeepSeek通过自研的MLA和MOE架构,降低了模型训练成本。MLA架构优化了注意力算子,配合DeepSeek-V3模型中FFN层的改造,实现了稀疏MoE层,这是训练成本低的关键。

  同时,DeepSeek还解决了大且稀疏的MoE模型使用的性能难题。

  
 

  图灵奖得主杨立昆认为,DeepSeek的成功显示了开源模型的价值,而非中国对美国的威胁。他强调,“开源模型正超越专有模型”。