vllm-project · mgoin · Sep 5, 2024 · Sep 4, 2024
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -51,10 +51,6 @@ def __init__(self, weight_bits: int, group_size: int, desc_act: bool,
 
         self.quant_type = self.TYPE_MAP[(weight_bits, is_sym)]
 
-        # Verify supported on platform.
-        verify_marlin_supported(quant_type=self.quant_type,
-                                group_size=self.group_size)
-
     def __repr__(self) -> str:
         return (f"GPTQMarlinConfig(quant_type={self.quant_type}, "
                 f"group_size={self.group_size}, "
@@ -153,6 +149,10 @@ class GPTQMarlinLinearMethod(LinearMethodBase):
     def __init__(self, quant_config: GPTQMarlinConfig) -> None:
         self.quant_config = quant_config
 
+        # Verify supported on platform.
+        verify_marlin_supported(quant_type=self.quant_config.quant_type,
+                                group_size=self.quant_config.group_size)
+
     def create_weights(
         self,
         layer: torch.nn.Module,