#国产GPU进展
910C算力接近H100的80-90%,带宽有提升,测试还没到集群级别。预计明年40-60w出货。
寒武纪对矩阵、矢量运算做的比较好,在difussion或者Resnet方面优于A100。
海光深算3号业内在测,性能确实还不错,比A100强一些,有望实现千卡集群。
天数、沐曦等一般在党政有用,商业化项目很少见。
#ASIC/TPU vs GPGPU
短中期优化方式来看通用还是会增长,但往更长期看,o1会引领推理侧发展,长期看还是需要专有设计才能更往前走。业内去年中旬到今年5月份,针对大模型推理侧成本优化,成本降到去年的1/20,这里面很大一部分是去在推理侧做专门的计算。国内幻方、Kimi、字节降价,背后都是针对缓存、KV Cache做了专门的软件算子上的优化,那么从硬件上以矩阵的方式做专门优化,这块空间比通用GPU好很多。
#国产GPU软件侧排名
华为最强,寒武纪19年开始和互联网合作,PyTorch只需要改编2行代码(import+入口)就可以一键迁移,海光略一般。
#政府运营商市场
部委&地方政府国产化比例从50-100%不等;份额上,华为80-85%,剩下海光、寒武纪10%+,天数、沐曦加起来不超过1-2%;空间上,今年落地3000-4000P,华为占绝大部分,海光次之,二者占90%,北京后续规划有7000-8000P(国产占2000-3000P),其他一线城市的规划,上海(比北京多),深圳、广州(比北京少)。
中国移动全年有200亿*20%投入(CPU+GPU+软件+系统),纯看GPU国产化率占比可能低于50%,其中海光/鲲鹏CPU+英伟达GPU两种搭配占国产中的70%。