
发布日期:2024-09-02 08:34 点击次数:165
2月26日音尘,DeepSeek公司在开源周时代延续鼓吹其技能绽开筹备。在早前通知开源MLA解码核FlashMLA以及DeepEP两款代码库之后,该公司于第三天肃肃绽开了DeepGEMM代码库。
据先容,DeepGEMM是一款专注于已毕高效FP8通用矩阵乘法(GEMM)的器用库,其假想决策是为V3/R1磨练和推理任务提供渊博的扶持。该库同期兼容泛泛矩阵运算和群众搀和(MoE)分组的GEMM运算,并禁受CUDA道话编写。在安设经过中无需进行编译操作,而是通过初始时的轻量级即时编译模块动态生成通盘内核代码。
现在,DeepGEMM仅适用于英伟达Hopper架构的硬件环境。为贬责FP8张量中枢累加经过中可能出现的精度问题,该库禁受了两级累加法度以充分欺诈CUDA中枢肠能。此外,DeepGEMM的假想极其精简,通盘这个词代码库的中枢功能聚首在一个内核函数中,总代码量约为300行。
尽管体积工致,ag百家乐网址入口但DeepGEMM在不同矩阵形势下的诡计性能推崇优异,简略与经过深度优化的专科库相忘形甚而高出。说明DeepSeek团队的测试数据,在H800GPU上使用NVCC12.8编译器对可能用于DeepSeek-V3/R1推理的各式矩阵形势(包括预填充妥协码阶段,但不波及张量并行)进行了全面评估。测试成果透露,DeepGEMM的诡计性能最高可达1358TFLOPS,内存带宽峰值为2668GB/s。比较基于CUTLASS3.6的优化已毕,其性能升迁幅度最高可达2.7倍。在分组GEMM(MoE模子)的流畅性布局和掩码布局下,DeepGEMM的性能升迁也可达到1.2倍以上。
需要稳定的是ag百家乐能赢吗,使用DeepGEMM需要得志以下环境条款:硬件需扶持Hopper架构(sm_90a),操作系统需安设Python3.8或更高版块,CUDA版块需为12.3及以上(保举使用12.8),同期需配备PyTorch2.1及以上版块以及CUTLASS3.6及以上版块。