草庐IT

cutlass入门: 调用cutlass做通用矩阵乘法Gemm(附代码)

cutlass是CUDAC++模板抽象的集合,用于实现CUDA中所有级别和规模的高性能矩阵乘法(GEMM)和相关计算。相较于cuBLAS和cuDNN,cutlass中包含了更多可重用的模块化软件组件,这使得cutlass相较于前两者更为灵活。cutlass项目官方网站:GitHub-NVIDIA/cutlass:CUDATemplatesforLinearAlgebraSubroutines本文将展示如何用cutlass实现最基本的矩阵计算。cutlass的使用流程与普通kernel大致相同:先在host端分配空间生成数据,再将host端的数据传入device端的buffer中,输入参数调用c