English | 简体中文
这是一个使用 TensorRT 进行快速 PTQ(Post Training Quantization)INT8 量化的脚本,支持动态和静态 Batch。
首先,在 calibration.yaml
中配置你要量化的模型。
calibrator.data
是用于校准的数据路径,而 calibrator.cache
则是保存生成的校准文件的位置。
如果你选择 动态 Batch,务必确保
batch_shape
的维度与shapes.opt
一致;如果你选择 静态 Batch,将dynamic
设为False
,并忽略shapes
。
配置好 calibration.yaml
后,运行以下命令进行量化:
cd tools
python ptq_calibration.py
PTQ 量化后的精度与延时因模型而异,如果追求最高精度,建议使用 QAT 量化。