Lightning-Universe · ethanwharris · Dec 15, 2021 · Dec 15, 2021 · Dec 15, 2021 · Dec 15, 2021
@@ -12,6 +12,8 @@ The format is based on [Keep a Changelog](http://keepachangelog.com/en/1.0.0/).
 
 ### Changed
 
+- Changed `Wav2Vec2Processor` to `AutoProcessor` and seperate it from backbone [optional] ([#1075](https://github.com/PyTorchLightning/lightning-flash/pull/1075))
+
 ### Deprecated
 
 ### Fixed

@@ -41,7 +41,7 @@
 )
 
 if _AUDIO_AVAILABLE:
-    from transformers import Wav2Vec2Processor
+    from transformers import AutoProcessor
 
 
 class SpeechRecognition(Task):
@@ -64,6 +64,7 @@ class SpeechRecognition(Task):
     def __init__(
         self,
         backbone: str = "facebook/wav2vec2-base-960h",
+        processor_backbone: str = None,
         optimizer: OPTIMIZER_TYPE = "Adam",
         lr_scheduler: LR_SCHEDULER_TYPE = None,
         learning_rate: float = 1e-5,
@@ -89,7 +90,15 @@ def __init__(
         self.save_hyperparameters()
 
         self.set_state(SpeechRecognitionBackboneState(backbone))
-        self.set_state(CollateFn(DataCollatorCTCWithPadding(Wav2Vec2Processor.from_pretrained(backbone))))
+        self.set_state(
+            CollateFn(
+                DataCollatorCTCWithPadding(
+                    AutoProcessor.from_pretrained(backbone)
+                    if processor_backbone is None
+                    else AutoProcessor.from_pretrained(processor_backbone)
+                )
+            )
+        )
 
     def forward(self, batch: Dict[str, torch.Tensor]):
         return self.model(batch["input_values"])

@@ -1,4 +1,4 @@
 torchaudio
 librosa>=0.8.1
-transformers>=4.11.0
-datasets>=1.8
+transformers>=4.13.0
+datasets>=1.16.1
@@ -2,5 +2,5 @@ sentencepiece>=0.1.95
 filelock
 transformers>=4.5
 torchmetrics[text]>=0.5.1
-datasets>=1.8,<1.13
+datasets>=1.8
 sentence-transformers