huggingface · echarlaix · Feb 21, 2024 · Feb 19, 2024 · Feb 19, 2024 · Feb 20, 2024
diff --git a/optimum/intel/openvino/modeling_decoder.py b/optimum/intel/openvino/modeling_decoder.py
@@ -592,7 +592,9 @@ def _from_pretrained(
         else:
             init_cls = cls
 
-        causal_model = init_cls(model=model, config=config, model_save_dir=model_cache_path.parent, **kwargs)
+        causal_model = init_cls(
+            model=model, config=config, model_save_dir=model_cache_path.parent, compile=not load_in_4bit, **kwargs
+        )
 
         if load_in_4bit:
             if not is_nncf_available():
@@ -609,6 +611,7 @@ def _from_pretrained(
                 )
 
             _weight_only_quantization(causal_model, quantization_config)
+            causal_model.request = None
         return causal_model