quantized models #14

marsupialtail · 2021-02-24T20:49:15Z

Does this support quantized models by any chance?

priyanksonis · 2021-06-14T17:16:17Z

@marsupialtail yes, I tried , you can quantize the onnx models like this, then use quantized model for inference

from onnxruntime.quantization import quantize_dynamic, QuantType

#quantize encoder
model_input = "temp1/t5-own--encoder.onnx"
model_output = "temp1_compressed_onnxruntime/t5-own--encoder.onnx"

quantize_dynamic(model_input, model_output, weight_type=QuantType.QInt8)

#quantize decoder
model_input = "temp1/t5-own--decoder-with-lm-head.onnx"
model_output = "temp1_compressed_onnxruntime/t5-own--decoder-with-lm-head.onnx"

quantize_dynamic(model_input, model_output, weight_type=QuantType.QInt8)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

quantized models #14

quantized models #14

marsupialtail commented Feb 24, 2021

priyanksonis commented Jun 14, 2021

quantized models #14

quantized models #14

Comments

marsupialtail commented Feb 24, 2021

priyanksonis commented Jun 14, 2021