FIX: move max_new_tokens to generate_kwargs

xorbitsai · qinxuye · Jan 14, 2025 · Jan 10, 2025 · Jan 10, 2025 · Jan 13, 2025
commit 95ec81b39b4e3ee902d1a1a895fb6e147ce52326
diff --git a/xinference/model/audio/whisper.py b/xinference/model/audio/whisper.py
@@ -98,7 +98,6 @@ def load(self):
             model=model,
             tokenizer=processor.tokenizer,
             feature_extractor=processor.feature_extractor,
-            max_new_tokens=self._max_new_tokens,
             chunk_length_s=self._model_config.get("chunk_length_s"),
             stride_length_s=self._model_config.get("stride_length_s"),
             return_timestamps=self._model_config.get("return_timestamps"),
@@ -209,13 +208,13 @@ def transcriptions(
             logger.warning(
                 "Prompt for whisper transcriptions will be ignored: %s", prompt
             )
+        generate_kwargs = {"max_new_tokens": self._max_new_tokens, "task": "transcribe"}
+        if language is not None:
+            generate_kwargs["language"] = language
+
         return self._call_model(
             audio=audio,
-            generate_kwargs=(
-                {"language": language, "task": "transcribe"}
-                if language is not None
-                else {"task": "transcribe"}
-            ),
+            generate_kwargs=generate_kwargs,
             response_format=response_format,
             temperature=temperature,
             timestamp_granularities=timestamp_granularities,