UKPLab · tomaarsen · Apr 17, 2024 · Apr 17, 2024
diff --git a/sentence_transformers/models/CLIPModel.py b/sentence_transformers/models/CLIPModel.py
@@ -63,14 +63,16 @@ def tokenize(self, texts, padding: Union[str, bool] = True):
                 texts_values.append(data)
                 image_text_info.append(1)
 
-        if len(texts_values) == 0:
-            texts_values = None
-        if len(images) == 0:
-            images = None
-
-        inputs = self.processor(text=texts_values, images=images, return_tensors="pt", padding=padding)
-        inputs["image_text_info"] = image_text_info
-        return inputs
+        encoding = {}
+        if len(texts_values):
+            encoding = self.processor.tokenizer(texts_values, return_tensors="pt", padding=padding)
+
+        if len(images):
+            image_features = self.processor.image_processor(images, return_tensors="pt")
+            encoding["pixel_values"] = image_features.pixel_values
+
+        encoding["image_text_info"] = image_text_info
+        return encoding
 
     def save(self, output_path: str):
         self.model.save_pretrained(output_path)