江苏农林职业技术学院电子阅览室

揭秘DeepSeek 一个更极致的中国技术理想主义故事-科学大观园2025年05期

揭秘DeepSeek 一个更极致的中国技术理想主义故事

作者：于丽丽字体：小中大

打印

DeepSeek 对模型架构进行了全方位创新。它提出的一种崭新的MLA（一种新的多头潜在注意力机制）架构，把显存占用降到了过去最常用的MHA 架构的5%～13%，同时，它独创的DeepSeekMoESparse结构，也把计算量降到极致，所（试读）...

科学大观园

2025年第05期

期刊目录