本文对商汤 OpenPPL 和 英伟达 TensorRT7、TensorRT8 在 T4 平台上对一些经典网络进行了性能测试对比。
商汤 OpenPPL 传送:点击到达OpenPPL
英伟达 TensorRT 传送:点击到达TensorRT
我的测试环境:NVIDIA TESLA T4、CUDA11.3、Cudnn8.2.1
关于 ppl.nn 的量化说几句,查阅 github 上沟通得到信息:ppl.nn 输入 onnx model 精度为 fp32,执行前会自动进行精度转换,目前在 CUDA 上仅支持 fp16(也只是针对 conv 和 gemm),所以意思是我们在执行 ./pplnn
传参时不需要传精度相关的配置。不过这里有一点比较迷,看 pplnn.cc 源码中对于 ./pplnn
的传参保留有 --quantization
,猜测可能用于Int8量化,传送类似 TRT int8 校准表的东西吧。