Lightning-Universe · ethanwharris · Dec 15, 2021 · Dec 15, 2021 · Dec 15, 2021 · Dec 15, 2021
@@ -41,7 +41,7 @@
 )
 
 if _AUDIO_AVAILABLE:
-    from transformers import Wav2Vec2Processor
+    from transformers import AutoProcessor
 
 
 class SpeechRecognition(Task):
@@ -64,6 +64,7 @@ class SpeechRecognition(Task):
     def __init__(
         self,
         backbone: str = "facebook/wav2vec2-base-960h",
+        processor_backbone: str = None,
         optimizer: OPTIMIZER_TYPE = "Adam",
         lr_scheduler: LR_SCHEDULER_TYPE = None,
         learning_rate: float = 1e-5,
@@ -89,7 +90,15 @@ def __init__(
         self.save_hyperparameters()
 
         self.set_state(SpeechRecognitionBackboneState(backbone))
-        self.set_state(CollateFn(DataCollatorCTCWithPadding(Wav2Vec2Processor.from_pretrained(backbone))))
+        self.set_state(
+            CollateFn(
+                DataCollatorCTCWithPadding(
+                    AutoProcessor.from_pretrained(backbone)
+                    if processor_backbone is None
+                    else AutoProcessor.from_pretrained(processor_backbone)
+                )
+            )
+        )
 
     def forward(self, batch: Dict[str, torch.Tensor]):
         return self.model(batch["input_values"])

diff --git a/flash/image/detection/data.py b/flash/image/detection/data.py
@@ -153,6 +153,7 @@ def from_voc(
     ) -> "ObjectDetectionData":
         """Creates a :class:`~flash.image.detection.data.ObjectDetectionData` object from the given data folders
         and annotation files in the `PASCAL VOC (Visual Obect Challenge)
+
         <http://host.robots.ox.ac.uk/pascal/VOC/>`_ XML format.
 
         Args: