From 6e01f46dead6f5252b1eb03aa62903ccf8248c76 Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Thu, 5 Jan 2023 10:28:28 +0100
Subject: [PATCH 01/12] test all architectures for ortmodel

---
 optimum/exporters/tasks.py         |   8 +
 tests/onnxruntime/test_modeling.py | 282 +++++++++++++++++++++++++----
 2 files changed, 253 insertions(+), 37 deletions(-)

diff --git a/optimum/exporters/tasks.py b/optimum/exporters/tasks.py
index 07256b8de8..c760c7de3b 100644
--- a/optimum/exporters/tasks.py
+++ b/optimum/exporters/tasks.py
@@ -716,6 +716,14 @@ def get_supported_tasks_for_model_type(
         else:
             return TasksManager._SUPPORTED_MODEL_TYPE[model_type][exporter]
 
+    @staticmethod
+    def get_supported_model_type_for_task(task: str, exporter: str):
+        return [
+            model_type.replace("-", "_")
+            for model_type in TasksManager._SUPPORTED_MODEL_TYPE
+            if task in TasksManager._SUPPORTED_MODEL_TYPE[model_type][exporter]
+        ]
+
     @staticmethod
     def format_task(task: str) -> str:
         return task.replace("-with-past", "")
diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index 64b17c47c6..01c5d3d680 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -46,6 +46,7 @@
 import onnxruntime
 import requests
 from huggingface_hub.constants import default_cache_path
+from optimum.exporters import TasksManager
 from optimum.onnxruntime import (
     ONNX_DECODER_NAME,
     ONNX_DECODER_WITH_PAST_NAME,
@@ -95,6 +96,74 @@
     "whisper": "openai/whisper-tiny.en",
 }
 
+MODEL_NAMES = {
+    "albert": "hf-internal-testing/tiny-random-AlbertModel",
+    "beit": "hf-internal-testing/tiny-random-BeitForImageClassification",
+    "bert": "hf-internal-testing/tiny-random-BertModel",
+    "bart": "hf-internal-testing/tiny-random-bart",
+    "big-bird": "hf-internal-testing/tiny-random-BigBirdModel",
+    "bigbird-pegasus": "hf-internal-testing/tiny-random-bigbird_pegasus",
+    "blenderbot-small": "hf-internal-testing/tiny-random-BlenderbotModel",
+    "blenderbot": "hf-internal-testing/tiny-random-BlenderbotModel",
+    "bloom": "hf-internal-testing/tiny-random-BloomModel",
+    "camembert": "hf-internal-testing/tiny-random-camembert",
+    "clip": "hf-internal-testing/tiny-random-CLIPModel",
+    "convbert": "hf-internal-testing/tiny-random-ConvBertModel",
+    "codegen": "hf-internal-testing/tiny-random-CodeGenModel",
+    "data2vec-text": "hf-internal-testing/tiny-random-Data2VecTextModel",
+    "data2vec-vision": "hf-internal-testing/tiny-random-Data2VecVisionModel",
+    "data2vec-audio": "hf-internal-testing/tiny-random-Data2VecAudioModel",
+    "deberta": "hf-internal-testing/tiny-random-DebertaModel",
+    "deberta-v2": "hf-internal-testing/tiny-random-DebertaV2Model",
+    "deit": "hf-internal-testing/tiny-random-DeiTModel",
+    "convnext": "hf-internal-testing/tiny-random-convnext",
+    "detr": "hf-internal-testing/tiny-random-detr",
+    "distilbert": "hf-internal-testing/tiny-random-DistilBertModel",
+    "electra": "hf-internal-testing/tiny-random-ElectraModel",
+    "flaubert": "hf-internal-testing/tiny-random-flaubert",
+    "gpt2": "hf-internal-testing/tiny-random-gpt2",
+    "gpt-neo": "hf-internal-testing/tiny-random-GPTNeoModel",
+    "gptj": "hf-internal-testing/tiny-random-GPTJModel",
+    "groupvit": "hf-internal-testing/tiny-random-groupvit",
+    "ibert": "hf-internal-testing/tiny-random-IBertModel",
+    "levit": "hf-internal-testing/tiny-random-LevitModel",
+    "layoutlm": "hf-internal-testing/tiny-random-LayoutLMModel",
+    "layoutlmv3": "hf-internal-testing/tiny-random-LayoutLMv3Model",
+    "longt5": "hf-internal-testing/tiny-random-LongT5Model",
+    "m2m-100": "hf-internal-testing/tiny-random-m2m_100",
+    "marian": "sshleifer/tiny-marian-en-de",  # hf-internal-testing ones are broken
+    "mbart": "hf-internal-testing/tiny-random-mbart",
+    "mobilebert": "hf-internal-testing/tiny-random-MobileBertModel",
+    "mobilenet-v2": "hf-internal-testing/tiny-random-MobileNetV2Model",
+    "mobilenet-v1": "google/mobilenet_v1_0.75_192",
+    "mobilevit": "hf-internal-testing/tiny-random-mobilevit",
+    "mt5": "lewtun/tiny-random-mt5",
+    "pegasus": "hf-internal-testing/tiny-random-PegasusModel",
+    "poolformer": "hf-internal-testing/tiny-random-PoolFormerModel",
+    "resnet": "hf-internal-testing/tiny-random-resnet",
+    "roberta": "hf-internal-testing/tiny-random-RobertaModel",
+    "roformer": "hf-internal-testing/tiny-random-RoFormerModel",
+    "segformer": "hf-internal-testing/tiny-random-SegformerModel",
+    "squeezebert": "hf-internal-testing/tiny-random-SqueezeBertModel",
+    "swin": "hf-internal-testing/tiny-random-SwinModel",
+    "t5": "hf-internal-testing/tiny-random-t5",
+    "vit": "hf-internal-testing/tiny-random-vit",
+    "yolos": "hf-internal-testing/tiny-random-YolosModel",
+    "whisper": "openai/whisper-tiny.en",  # hf-internal-testing ones are broken
+    "hubert": "hf-internal-testing/tiny-random-HubertModel",
+    "wav2vec2": "hf-internal-testing/tiny-random-Wav2Vec2Model",
+    "wav2vec2-conformer": "hf-internal-testing/tiny-random-wav2vec2-conformer",
+    "wavlm": "hf-internal-testing/tiny-random-wavlm",
+    "sew": "hf-internal-testing/tiny-random-SEWModel",
+    "sew-d": "hf-internal-testing/tiny-random-SEWDModel",
+    "unispeech": "hf-internal-testing/tiny-random-unispeech",
+    "unispeech-sat": "hf-internal-testing/tiny-random-unispeech-sat",
+    "audio-spectrogram-transformer": "Ericwang/tiny-random-ast",
+    "speech-to-text": "hf-internal-testing/tiny-random-Speech2TextModel",
+    "xlm": "hf-internal-testing/tiny-random-XLMModel",
+    "xlm-roberta": "hf-internal-testing/tiny-xlm-roberta",
+}
+
 SEED = 42
 
 
@@ -707,6 +776,21 @@ class ORTModelForQuestionAnsweringIntegrationTest(unittest.TestCase):
         "albert",
         "bart",
         "mbart",
+        "flaubert",
+        "mobilebert",
+        "roformer",
+        "deberta",
+        "ibert",
+        "bigbird_pegasus",
+        "xlm",
+        "xlm_roberta",
+        "layoutlmv3",
+        "data2vec_text",
+        "big_bird",
+        "gptj",
+        "convbert",
+        "deberta_v2",
+        "squeezebert",
     )
 
     def test_load_vanilla_transformers_which_is_not_supported(self):
@@ -828,8 +912,32 @@ class ORTModelForSequenceClassificationIntegrationTest(unittest.TestCase):
         "albert",
         "bart",
         "mbart",
+        "flaubert",
+        "mobilebert",
+        "ibert",
+        "bigbird_pegasus",
+        "xlm",
+        "gptj",
+        "layoutlm",
+        "deberta",
+        "layoutlmv3",
+        "convbert",
+        "perceiver",
+        "gpt_neo",
+        "deberta_v2",
+        "squeezebert",
+        "roformer",
+        "bloom",
+        "gpt2",
+        "xlm_roberta",
+        "data2vec_text",
+        "big_bird",
     )
 
+    ARCH_MODEL_MAP = {
+        "perceiver": "hf-internal-testing/tiny-random-language_perceiver",
+    }
+
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
             _ = ORTModelForSequenceClassification.from_pretrained(MODEL_NAMES["t5"], from_transformers=True)
@@ -838,7 +946,7 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
-        model_id = MODEL_NAMES[model_arch]
+        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForSequenceClassification.from_pretrained(model_id, from_transformers=True)
 
@@ -864,7 +972,7 @@ def test_compare_to_transformers(self, model_arch):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
-        model_id = MODEL_NAMES[model_arch]
+        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         onnx_model = ORTModelForSequenceClassification.from_pretrained(model_id, from_transformers=True)
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("text-classification", model=onnx_model, tokenizer=tokenizer)
@@ -890,7 +998,7 @@ def test_pipeline_model_is_none(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
-        model_id = MODEL_NAMES[model_arch]
+        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         onnx_model = ORTModelForSequenceClassification.from_pretrained(model_id, from_transformers=True)
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("text-classification", model=onnx_model, tokenizer=tokenizer, device=0)
@@ -924,7 +1032,7 @@ def test_pipeline_zero_shot_classification(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_arch):
-        model_id = MODEL_NAMES[model_arch]
+        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForSequenceClassification.from_pretrained(
             model_id, from_transformers=True, use_io_binding=False
@@ -957,6 +1065,22 @@ class ORTModelForTokenClassificationIntegrationTest(unittest.TestCase):
         "xlm-roberta",
         "electra",
         "albert",
+        "flaubert",
+        "mobilebert",
+        "roformer",
+        "deberta",
+        "ibert",
+        "bloom",
+        "gpt2",
+        "xlm",
+        "xlm_roberta",
+        "layoutlmv3",
+        "data2vec_text",
+        "big_bird",
+        "convbert",
+        "deberta_v2",
+        "layoutlm",
+        "squeezebert",
     )
 
     def test_load_vanilla_transformers_which_is_not_supported(self):
@@ -1164,6 +1288,27 @@ def test_compare_to_io_binding(self, model_arch):
 class ORTModelForMultipleChoiceIntegrationTest(unittest.TestCase):
     # Multiple Choice tests are conducted on different models due to mismatch size in model's classifier
     SUPPORTED_ARCHITECTURES = (
+        "bert",
+        "camembert",
+        "xlm-roberta",
+        "albert",
+        "electra",
+        "distilbert",
+        "roberta",
+        "flaubert",
+        "mobilebert",
+        "roformer",
+        "ibert",
+        "xlm",
+        "xlm_roberta",
+        "data2vec_text",
+        "big_bird",
+        "convbert",
+        "deberta_v2",
+        "squeezebert",
+    )
+
+    MODEL_IDS = (
         "hf-internal-testing/tiny-bert",
         "hf-internal-testing/tiny-random-camembert",
         "hf-internal-testing/tiny-xlm-roberta",
@@ -1173,7 +1318,10 @@ class ORTModelForMultipleChoiceIntegrationTest(unittest.TestCase):
         "haisongzhang/roberta-tiny-cased",
     )
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    def test_match_size(self):
+        self.assertTrue(len(self.SUPPORTED_ARCHITECTURES) == len(self.MODEL_IDS), "Missing model id")
+
+    @parameterized.expand(MODEL_IDS)
     def test_compare_to_transformers(self, model_id):
         set_seed(SEED)
         onnx_model = ORTModelForMultipleChoice.from_pretrained(model_id, from_transformers=True)
@@ -1208,7 +1356,7 @@ def test_compare_to_transformers(self, model_id):
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(MODEL_IDS)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_id):
         set_seed(SEED)
@@ -1242,7 +1390,20 @@ def test_compare_to_io_binding(self, model_id):
 
 
 class ORTModelForCausalLMIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = ("gpt2",)
+    SUPPORTED_ARCHITECTURES = (
+        "gpt2",
+        "bloom",
+        "codegen",
+        "bigbird_pegasus",
+        "bart",
+        "blenderbot",
+        "blenderbot_small",
+        "mbart",
+        "gptj",
+        "pegasus",
+        "gpt_neo",
+        "marian",
+    )
 
     FULL_GRID = {
         "model_arch": SUPPORTED_ARCHITECTURES,
@@ -1403,8 +1564,25 @@ def test_compare_generation_to_io_binding(self, model_arch):
 
 
 class ORTModelForImageClassificationIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES_WITH_MODEL_ID = {
-        "vit": "hf-internal-testing/tiny-random-vit",
+    SUPPORTED_ARCHITECTURES = (
+        "vit",
+        "poolformer",
+        "deit",
+        "segformer",
+        "resnet",
+        "perceiver",
+        "swin",
+        "data2vec_vision",
+        "levit",
+        "mobilenet_v1",
+        "convnext",
+        "mobilevit",
+        "beit",
+        "mobilenet_v2",
+    )
+
+    ARCH_MODEL_MAP = {
+        "perceiver": "hf-internal-testing/tiny-random-vision_perceiver_conv",
     }
 
     def test_load_vanilla_transformers_which_is_not_supported(self):
@@ -1413,9 +1591,9 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
         self.assertIn("Unrecognized configuration class", str(context.exception))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_MODEL_ID.items())
-    def test_compare_to_transformers(self, *args, **kwargs):
-        model_arch, model_id = args
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    def test_compare_to_transformers(self, model_arch):
+        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForImageClassification.from_pretrained(model_id, from_transformers=True)
 
@@ -1441,9 +1619,9 @@ def test_compare_to_transformers(self, *args, **kwargs):
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_MODEL_ID.items())
-    def test_pipeline_ort_model(self, *args, **kwargs):
-        model_arch, model_id = args
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    def test_pipeline_ort_model(self, model_arch):
+        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         onnx_model = ORTModelForImageClassification.from_pretrained(model_id, from_transformers=True)
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-classification", model=onnx_model, feature_extractor=preprocessor)
@@ -1466,10 +1644,10 @@ def test_pipeline_model_is_none(self):
         self.assertGreaterEqual(outputs[0]["score"], 0.0)
         self.assertTrue(isinstance(outputs[0]["label"], str))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_MODEL_ID.items())
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
-    def test_pipeline_on_gpu(self, *args, **kwargs):
-        model_arch, model_id = args
+    def test_pipeline_on_gpu(self, model_arch):
+        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         onnx_model = ORTModelForImageClassification.from_pretrained(model_id, from_transformers=True)
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-classification", model=onnx_model, feature_extractor=preprocessor, device=0)
@@ -1484,10 +1662,10 @@ def test_pipeline_on_gpu(self, *args, **kwargs):
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_MODEL_ID.items())
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
-    def test_compare_to_io_binding(self, *args, **kwargs):
-        model_arch, model_id = args
+    def test_compare_to_io_binding(self, model_arch):
+        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForImageClassification.from_pretrained(
             model_id, from_transformers=True, use_io_binding=False
@@ -1514,9 +1692,7 @@ def test_compare_to_io_binding(self, *args, **kwargs):
 
 
 class ORTModelForSemanticSegmentationIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES_WITH_MODEL_ID = {
-        "segformer": "hf-internal-testing/tiny-random-SegformerForSemanticSegmentation",
-    }
+    SUPPORTED_ARCHITECTURES = ("segformer",)
 
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
@@ -1524,9 +1700,9 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
         self.assertIn("Unrecognized configuration class", str(context.exception))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_MODEL_ID.items())
-    def test_compare_to_transformers(self, *args, **kwargs):
-        model_arch, model_id = args
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    def test_compare_to_transformers(self, model_arch):
+        model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(model_id, from_transformers=True)
 
@@ -1552,9 +1728,9 @@ def test_compare_to_transformers(self, *args, **kwargs):
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_MODEL_ID.items())
-    def test_pipeline_ort_model(self, *args, **kwargs):
-        model_arch, model_id = args
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    def test_pipeline_ort_model(self, model_arch):
+        model_id = MODEL_NAMES[model_arch]
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(model_id, from_transformers=True)
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-segmentation", model=onnx_model, feature_extractor=preprocessor)
@@ -1576,10 +1752,10 @@ def test_pipeline_model_is_none(self):
         self.assertTrue(outputs[0]["mask"] is not None)
         self.assertTrue(isinstance(outputs[0]["label"], str))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_MODEL_ID.items())
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
-    def test_pipeline_on_gpu(self, *args, **kwargs):
-        model_arch, model_id = args
+    def test_pipeline_on_gpu(self, model_arch):
+        model_id = MODEL_NAMES[model_arch]
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(model_id, from_transformers=True)
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-segmentation", model=onnx_model, feature_extractor=preprocessor, device=0)
@@ -1594,10 +1770,10 @@ def test_pipeline_on_gpu(self, *args, **kwargs):
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_MODEL_ID.items())
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
-    def test_compare_to_io_binding(self, *args, **kwargs):
-        model_arch, model_id = args
+    def test_compare_to_io_binding(self, model_arch):
+        model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(
             model_id, from_transformers=True, use_io_binding=False
@@ -1631,6 +1807,11 @@ class ORTModelForSeq2SeqLMIntegrationTest(unittest.TestCase):
         "marian",
         "m2m_100",
         "bigbird_pegasus",
+        "blenderbot",
+        "mt5",
+        "blenderbot_small",
+        "pegasus",
+        "longt5",
     )
 
     FULL_GRID = {
@@ -1821,7 +2002,7 @@ def test_compare_generation_to_io_binding(self, model_arch):
 
 
 class ORTModelForSpeechSeq2SeqIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = ("whisper",)
+    SUPPORTED_ARCHITECTURES = ("whisper", "speech_to_text")
 
     FULL_GRID = {
         "model_arch": SUPPORTED_ARCHITECTURES,
@@ -2064,3 +2245,30 @@ def test_compare_to_io_binding(self, *args, **kwargs):
         self.assertTrue(torch.equal(onnx_outputs.pooler_output, io_outputs.pooler_output))
 
         gc.collect()
+
+
+class TestBothExportersORTModel(unittest.TestCase):
+    @parameterized.expand(
+        [
+            ["question-answering", ORTModelForQuestionAnsweringIntegrationTest],
+            ["sequence-classification", ORTModelForSequenceClassificationIntegrationTest],
+            ["token-classification", ORTModelForTokenClassificationIntegrationTest],
+            ["default", ORTModelForFeatureExtractionIntegrationTest],
+            ["multiple-choice", ORTModelForMultipleChoiceIntegrationTest],
+            ["causal-lm", ORTModelForCausalLMIntegrationTest],
+            ["image-classification", ORTModelForImageClassificationIntegrationTest],
+            ["semantic-segmentation", ORTModelForSemanticSegmentationIntegrationTest],
+            ["seq2seq-lm", ORTModelForSeq2SeqLMIntegrationTest],
+            ["speech2seq-lm", ORTModelForSpeechSeq2SeqIntegrationTest],
+        ]
+    )
+    @unittest.skipIf(int(os.environ.get("TEST_LEVEL", 0)) < 1, reason="disabled by default")
+    def test_find_untested_architectures(self, task: str, test_class):
+        supported_export_models = TasksManager.get_supported_model_type_for_task(task=task, exporter="onnx")
+        tested_architectures = set(test_class.SUPPORTED_ARCHITECTURES)
+
+        untested_architectures = set(supported_export_models) - tested_architectures
+        if len(untested_architectures) > 0:
+            self.fail(
+                f"For the task {task}, the ONNX export supports {supported_export_models}, but only {tested_architectures} are tested.\nMissing {untested_architectures}."
+            )

From f1a14005028e5dcd8d76b7eadc754f238e893407 Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Thu, 5 Jan 2023 10:32:06 +0100
Subject: [PATCH 02/12] add docstring

---
 optimum/exporters/tasks.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/optimum/exporters/tasks.py b/optimum/exporters/tasks.py
index c760c7de3b..6c60f7a5ac 100644
--- a/optimum/exporters/tasks.py
+++ b/optimum/exporters/tasks.py
@@ -718,6 +718,9 @@ def get_supported_tasks_for_model_type(
 
     @staticmethod
     def get_supported_model_type_for_task(task: str, exporter: str):
+        """
+        Returns the list of supported architectures by the exporter for a given task.
+        """
         return [
             model_type.replace("-", "_")
             for model_type in TasksManager._SUPPORTED_MODEL_TYPE

From 20220fdb027e904328ecc9efc3a87335f61d25fe Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Fri, 13 Jan 2023 09:55:10 +0100
Subject: [PATCH 03/12] fix test

---
 tests/onnxruntime/test_modeling.py | 373 ++++++++++++++---------------
 1 file changed, 183 insertions(+), 190 deletions(-)

diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index 01c5d3d680..134a3e2033 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -69,40 +69,20 @@
 from optimum.onnxruntime.modeling_seq2seq import ORTDecoder as ORTSeq2SeqDecoder
 from optimum.onnxruntime.modeling_seq2seq import ORTEncoder
 from optimum.pipelines import pipeline
-from optimum.utils import CONFIG_NAME
+from optimum.utils import CONFIG_NAME, logging
 from optimum.utils.testing_utils import grid_parameters, require_hf_token
 from parameterized import parameterized
 
 
-MODEL_NAMES = {
-    "distilbert": "hf-internal-testing/tiny-random-distilbert",
-    "bert": "hf-internal-testing/tiny-random-bert",
-    # FIXME: Error: ONNX export failed: Couldn't export Python operator SymmetricQuantFunction
-    # "ibert": "hf-internal-testing/tiny-random-ibert",
-    "camembert": "hf-internal-testing/tiny-random-camembert",
-    "roberta": "hf-internal-testing/tiny-random-roberta",
-    "xlm-roberta": "hf-internal-testing/tiny-xlm-roberta",
-    "electra": "hf-internal-testing/tiny-random-electra",
-    "albert": "hf-internal-testing/tiny-random-albert",
-    "bart": "hf-internal-testing/tiny-random-bart",
-    "mbart": "hf-internal-testing/tiny-random-mbart",
-    "t5": "hf-internal-testing/tiny-random-t5",
-    "marian": "sshleifer/tiny-marian-en-de",
-    "m2m_100": "valhalla/m2m100_tiny_random",
-    "bigbird_pegasus": "hf-internal-testing/tiny-random-bigbird_pegasus",
-    "gpt2": "hf-internal-testing/tiny-random-gpt2",
-    "vit": "hf-internal-testing/tiny-random-vit",
-    "segformer": "hf-internal-testing/tiny-random-SegformerForSemanticSegmentation",
-    "whisper": "openai/whisper-tiny.en",
-}
+logger = logging.get_logger()
 
 MODEL_NAMES = {
     "albert": "hf-internal-testing/tiny-random-AlbertModel",
     "beit": "hf-internal-testing/tiny-random-BeitForImageClassification",
     "bert": "hf-internal-testing/tiny-random-BertModel",
     "bart": "hf-internal-testing/tiny-random-bart",
-    "big-bird": "hf-internal-testing/tiny-random-BigBirdModel",
-    "bigbird-pegasus": "hf-internal-testing/tiny-random-bigbird_pegasus",
+    "big_bird": "hf-internal-testing/tiny-random-BigBirdModel",
+    "bigbird_pegasus": "hf-internal-testing/tiny-random-bigbird_pegasus",
     "blenderbot-small": "hf-internal-testing/tiny-random-BlenderbotModel",
     "blenderbot": "hf-internal-testing/tiny-random-BlenderbotModel",
     "bloom": "hf-internal-testing/tiny-random-BloomModel",
@@ -110,11 +90,11 @@
     "clip": "hf-internal-testing/tiny-random-CLIPModel",
     "convbert": "hf-internal-testing/tiny-random-ConvBertModel",
     "codegen": "hf-internal-testing/tiny-random-CodeGenModel",
-    "data2vec-text": "hf-internal-testing/tiny-random-Data2VecTextModel",
-    "data2vec-vision": "hf-internal-testing/tiny-random-Data2VecVisionModel",
-    "data2vec-audio": "hf-internal-testing/tiny-random-Data2VecAudioModel",
+    "data2vec_text": "hf-internal-testing/tiny-random-Data2VecTextModel",
+    "data2vec_vision": "hf-internal-testing/tiny-random-Data2VecVisionModel",
+    "data2vec_audio": "hf-internal-testing/tiny-random-Data2VecAudioModel",
     "deberta": "hf-internal-testing/tiny-random-DebertaModel",
-    "deberta-v2": "hf-internal-testing/tiny-random-DebertaV2Model",
+    "deberta_v2": "hf-internal-testing/tiny-random-DebertaV2Model",
     "deit": "hf-internal-testing/tiny-random-DeiTModel",
     "convnext": "hf-internal-testing/tiny-random-convnext",
     "detr": "hf-internal-testing/tiny-random-detr",
@@ -122,7 +102,7 @@
     "electra": "hf-internal-testing/tiny-random-ElectraModel",
     "flaubert": "hf-internal-testing/tiny-random-flaubert",
     "gpt2": "hf-internal-testing/tiny-random-gpt2",
-    "gpt-neo": "hf-internal-testing/tiny-random-GPTNeoModel",
+    "gpt_neo": "hf-internal-testing/tiny-random-GPTNeoModel",
     "gptj": "hf-internal-testing/tiny-random-GPTJModel",
     "groupvit": "hf-internal-testing/tiny-random-groupvit",
     "ibert": "hf-internal-testing/tiny-random-IBertModel",
@@ -130,7 +110,7 @@
     "layoutlm": "hf-internal-testing/tiny-random-LayoutLMModel",
     "layoutlmv3": "hf-internal-testing/tiny-random-LayoutLMv3Model",
     "longt5": "hf-internal-testing/tiny-random-LongT5Model",
-    "m2m-100": "hf-internal-testing/tiny-random-m2m_100",
+    "m2m_100": "hf-internal-testing/tiny-random-m2m_100",
     "marian": "sshleifer/tiny-marian-en-de",  # hf-internal-testing ones are broken
     "mbart": "hf-internal-testing/tiny-random-mbart",
     "mobilebert": "hf-internal-testing/tiny-random-MobileBertModel",
@@ -155,13 +135,13 @@
     "wav2vec2-conformer": "hf-internal-testing/tiny-random-wav2vec2-conformer",
     "wavlm": "hf-internal-testing/tiny-random-wavlm",
     "sew": "hf-internal-testing/tiny-random-SEWModel",
-    "sew-d": "hf-internal-testing/tiny-random-SEWDModel",
+    "sew_d": "hf-internal-testing/tiny-random-SEWDModel",
     "unispeech": "hf-internal-testing/tiny-random-unispeech",
-    "unispeech-sat": "hf-internal-testing/tiny-random-unispeech-sat",
-    "audio-spectrogram-transformer": "Ericwang/tiny-random-ast",
-    "speech-to-text": "hf-internal-testing/tiny-random-Speech2TextModel",
+    "unispeech_sat": "hf-internal-testing/tiny-random-unispeech-sat",
+    "audio_spectrogram_transformer": "Ericwang/tiny-random-ast",
+    "speech_to-text": "hf-internal-testing/tiny-random-Speech2TextModel",
     "xlm": "hf-internal-testing/tiny-random-XLMModel",
-    "xlm-roberta": "hf-internal-testing/tiny-xlm-roberta",
+    "xlm_roberta": "hf-internal-testing/tiny-xlm-roberta",
 }
 
 SEED = 42
@@ -766,32 +746,31 @@ def test_push_seq2seq_model_with_external_data_to_hub(self):
 
 
 class ORTModelForQuestionAnsweringIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = (
-        "distilbert",
+    SUPPORTED_ARCHITECTURES = [
+        "albert",
+        "bart",
         "bert",
+        "big_bird",
+        "bigbird_pegasus",
         "camembert",
-        "roberta",
-        "xlm-roberta",
+        "convbert",
+        "data2vec_text",
+        "deberta",
+        "deberta_v2",
+        "distilbert",
         "electra",
-        "albert",
-        "bart",
-        "mbart",
         "flaubert",
+        "gptj",
+        "ibert",
+        "layoutlmv3",
+        "mbart",
         "mobilebert",
+        "roberta",
         "roformer",
-        "deberta",
-        "ibert",
-        "bigbird_pegasus",
+        "squeezebert",
         "xlm",
         "xlm_roberta",
-        "layoutlmv3",
-        "data2vec_text",
-        "big_bird",
-        "gptj",
-        "convbert",
-        "deberta_v2",
-        "squeezebert",
-    )
+    ]
 
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
@@ -879,10 +858,12 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForQuestionAnswering.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
-        io_model = ORTModelForQuestionAnswering.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForQuestionAnswering.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         tokenizer = get_preprocessor(model_id)
         tokens = tokenizer(["This is a sample output"] * 2, return_tensors="pt")
@@ -902,37 +883,36 @@ def test_compare_to_io_binding(self, model_arch):
 
 
 class ORTModelForSequenceClassificationIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = (
-        "distilbert",
+    SUPPORTED_ARCHITECTURES = [
+        "albert",
+        "bart",
         "bert",
+        "big_bird",
+        "bigbird_pegasus",
+        "bloom",
         "camembert",
-        "roberta",
-        "xlm-roberta",
+        "convbert",
+        "data2vec_text",
+        "deberta",
+        "deberta_v2",
+        "distilbert",
         "electra",
-        "albert",
-        "bart",
-        "mbart",
         "flaubert",
-        "mobilebert",
-        "ibert",
-        "bigbird_pegasus",
-        "xlm",
+        "gpt2",
+        "gpt_neo",
         "gptj",
+        "ibert",
         "layoutlm",
-        "deberta",
         "layoutlmv3",
-        "convbert",
+        "mbart",
+        "mobilebert",
         "perceiver",
-        "gpt_neo",
-        "deberta_v2",
-        "squeezebert",
+        "roberta",
         "roformer",
-        "bloom",
-        "gpt2",
+        "squeezebert",
+        "xlm",
         "xlm_roberta",
-        "data2vec_text",
-        "big_bird",
-    )
+    ]
 
     ARCH_MODEL_MAP = {
         "perceiver": "hf-internal-testing/tiny-random-language_perceiver",
@@ -1035,11 +1015,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForSequenceClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForSequenceClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
@@ -1057,31 +1037,30 @@ def test_compare_to_io_binding(self, model_arch):
 
 
 class ORTModelForTokenClassificationIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = (
-        "distilbert",
+    SUPPORTED_ARCHITECTURES = [
+        "albert",
         "bert",
+        "big_bird",
+        "bloom",
         "camembert",
-        "roberta",
-        "xlm-roberta",
+        "convbert",
+        "data2vec_text",
+        "deberta",
+        "deberta_v2",
+        "distilbert",
         "electra",
-        "albert",
         "flaubert",
+        "gpt2",
+        "ibert",
+        "layoutlm",
+        "layoutlmv3",
         "mobilebert",
+        "roberta",
         "roformer",
-        "deberta",
-        "ibert",
-        "bloom",
-        "gpt2",
+        "squeezebert",
         "xlm",
         "xlm_roberta",
-        "layoutlmv3",
-        "data2vec_text",
-        "big_bird",
-        "convbert",
-        "deberta_v2",
-        "layoutlm",
-        "squeezebert",
-    )
+    ]
 
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
@@ -1160,11 +1139,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForTokenClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForTokenClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
@@ -1182,15 +1161,7 @@ def test_compare_to_io_binding(self, model_arch):
 
 
 class ORTModelForFeatureExtractionIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = (
-        "distilbert",
-        "bert",
-        "camembert",
-        "roberta",
-        "xlm-roberta",
-        "electra",
-        "albert",
-    )
+    SUPPORTED_ARCHITECTURES = ["albert", "bert", "camembert", "distilbert", "electra", "roberta", "xlm_roberta"]
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
@@ -1266,10 +1237,12 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForFeatureExtraction.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
-        io_model = ORTModelForFeatureExtraction.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForFeatureExtraction.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         tokenizer = get_preprocessor(model_id)
         tokens = tokenizer(["This is a sample output"] * 2, return_tensors="pt")
@@ -1287,42 +1260,29 @@ def test_compare_to_io_binding(self, model_arch):
 
 class ORTModelForMultipleChoiceIntegrationTest(unittest.TestCase):
     # Multiple Choice tests are conducted on different models due to mismatch size in model's classifier
-    SUPPORTED_ARCHITECTURES = (
+    SUPPORTED_ARCHITECTURES = [
+        "albert",
         "bert",
+        "big_bird",
         "camembert",
-        "xlm-roberta",
-        "albert",
-        "electra",
+        "convbert",
+        "data2vec_text",
+        "deberta_v2",
         "distilbert",
-        "roberta",
+        "electra",
         "flaubert",
+        "ibert",
         "mobilebert",
+        "roberta",
         "roformer",
-        "ibert",
+        "squeezebert",
         "xlm",
         "xlm_roberta",
-        "data2vec_text",
-        "big_bird",
-        "convbert",
-        "deberta_v2",
-        "squeezebert",
-    )
-
-    MODEL_IDS = (
-        "hf-internal-testing/tiny-bert",
-        "hf-internal-testing/tiny-random-camembert",
-        "hf-internal-testing/tiny-xlm-roberta",
-        "hf-internal-testing/tiny-albert",
-        "hf-internal-testing/tiny-electra",
-        "distilbert-base-uncased",
-        "haisongzhang/roberta-tiny-cased",
-    )
-
-    def test_match_size(self):
-        self.assertTrue(len(self.SUPPORTED_ARCHITECTURES) == len(self.MODEL_IDS), "Missing model id")
+    ]
 
-    @parameterized.expand(MODEL_IDS)
-    def test_compare_to_transformers(self, model_id):
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    def test_compare_to_transformers(self, model_arch):
+        model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForMultipleChoice.from_pretrained(model_id, from_transformers=True)
 
@@ -1356,13 +1316,18 @@ def test_compare_to_transformers(self, model_id):
 
         gc.collect()
 
-    @parameterized.expand(MODEL_IDS)
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
-    def test_compare_to_io_binding(self, model_id):
+    def test_compare_to_io_binding(self, model_arch):
+        model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForMultipleChoice.from_pretrained(model_id, from_transformers=True, use_io_binding=False)
+        onnx_model = ORTModelForMultipleChoice.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+        )
         set_seed(SEED)
-        io_model = ORTModelForMultipleChoice.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForMultipleChoice.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         tokenizer = get_preprocessor(model_id)
         num_choices = 4
@@ -1390,20 +1355,20 @@ def test_compare_to_io_binding(self, model_id):
 
 
 class ORTModelForCausalLMIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = (
-        "gpt2",
-        "bloom",
-        "codegen",
-        "bigbird_pegasus",
+    SUPPORTED_ARCHITECTURES = [
         "bart",
+        "bigbird_pegasus",
         "blenderbot",
         "blenderbot_small",
-        "mbart",
-        "gptj",
-        "pegasus",
+        "bloom",
+        "codegen",
+        "gpt2",
         "gpt_neo",
+        "gptj",
         "marian",
-    )
+        "mbart",
+        "pegasus",
+    ]
 
     FULL_GRID = {
         "model_arch": SUPPORTED_ARCHITECTURES,
@@ -1526,9 +1491,13 @@ def test_compare_with_and_without_past_key_values_model_outputs(self, model_arch
     def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True, use_io_binding=False)
+        onnx_model = ORTModelForCausalLM.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+        )
         set_seed(SEED)
-        io_model = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForCausalLM.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         tokenizer = get_preprocessor(model_id)
         tokens = tokenizer(["This is a sample output"] * 2, return_tensors="pt")
@@ -1548,9 +1517,13 @@ def test_compare_to_io_binding(self, model_arch):
     def test_compare_generation_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True, use_io_binding=False)
+        onnx_model = ORTModelForCausalLM.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+        )
         set_seed(SEED)
-        io_model = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForCausalLM.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         tokenizer = get_preprocessor(model_id)
         tokens = tokenizer("This is a sample output", return_tensors="pt")
@@ -1564,22 +1537,22 @@ def test_compare_generation_to_io_binding(self, model_arch):
 
 
 class ORTModelForImageClassificationIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = (
-        "vit",
-        "poolformer",
-        "deit",
-        "segformer",
-        "resnet",
-        "perceiver",
-        "swin",
+    SUPPORTED_ARCHITECTURES = [
+        "beit",
+        "convnext",
         "data2vec_vision",
+        "deit",
         "levit",
         "mobilenet_v1",
-        "convnext",
-        "mobilevit",
-        "beit",
         "mobilenet_v2",
-    )
+        "mobilevit",
+        "perceiver",
+        "poolformer",
+        "resnet",
+        "segformer",
+        "swin",
+        "vit",
+    ]
 
     ARCH_MODEL_MAP = {
         "perceiver": "hf-internal-testing/tiny-random-vision_perceiver_conv",
@@ -1668,11 +1641,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForImageClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForImageClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         preprocessor = get_preprocessor(model_id)
@@ -1776,11 +1749,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForSemanticSegmentation.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         preprocessor = get_preprocessor(model_id)
@@ -1800,19 +1773,19 @@ def test_compare_to_io_binding(self, model_arch):
 
 
 class ORTModelForSeq2SeqLMIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = (
-        "t5",
+    SUPPORTED_ARCHITECTURES = [
         "bart",
-        "mbart",
-        "marian",
-        "m2m_100",
         "bigbird_pegasus",
         "blenderbot",
-        "mt5",
         "blenderbot_small",
-        "pegasus",
         "longt5",
-    )
+        "m2m_100",
+        "marian",
+        "mbart",
+        "mt5",
+        "pegasus",
+        "t5",
+    ]
 
     FULL_GRID = {
         "model_arch": SUPPORTED_ARCHITECTURES,
@@ -1961,9 +1934,13 @@ def test_compare_with_and_without_past_key_values_model_outputs(self):
     def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True, use_io_binding=False)
+        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+        )
         set_seed(SEED)
-        io_model = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForSeq2SeqLM.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         tokenizer = get_preprocessor(model_id)
         tokens = tokenizer(["This is a sample output"] * 2, return_tensors="pt")
@@ -1986,9 +1963,13 @@ def test_compare_to_io_binding(self, model_arch):
     def test_compare_generation_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True, use_io_binding=False)
+        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+        )
         set_seed(SEED)
-        io_model = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForSeq2SeqLM.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         tokenizer = get_preprocessor(model_id)
         tokens = tokenizer("This is a sample output", return_tensors="pt")
@@ -2002,7 +1983,7 @@ def test_compare_generation_to_io_binding(self, model_arch):
 
 
 class ORTModelForSpeechSeq2SeqIntegrationTest(unittest.TestCase):
-    SUPPORTED_ARCHITECTURES = ("whisper", "speech_to_text")
+    SUPPORTED_ARCHITECTURES = ["speech_to_text", "whisper"]
 
     FULL_GRID = {
         "model_arch": SUPPORTED_ARCHITECTURES,
@@ -2131,9 +2112,13 @@ def test_compare_with_and_without_past_key_values_model_outputs(self):
     def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True, use_io_binding=False)
+        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+        )
         set_seed(SEED)
-        io_model = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForSpeechSeq2Seq.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         processor = get_preprocessor(model_id)
 
@@ -2159,9 +2144,13 @@ def test_compare_to_io_binding(self, model_arch):
     def test_compare_generation_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True, use_io_binding=False)
+        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+        )
         set_seed(SEED)
-        io_model = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True, use_io_binding=True)
+        io_model = ORTModelForSpeechSeq2Seq.from_pretrained(
+            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
 
         processor = get_preprocessor(model_id)
 
@@ -2230,9 +2219,13 @@ def test_default_pipeline_and_model_device(self, *args, **kwargs):
     def test_compare_to_io_binding(self, *args, **kwargs):
         model_arch, model_id = args
         set_seed(SEED)
-        onnx_model = ORTModelForCustomTasks.from_pretrained(model_id, use_io_binding=False)
+        onnx_model = ORTModelForCustomTasks.from_pretrained(
+            model_id, use_io_binding=False, provider="CUDAExecutionProvider"
+        )
         set_seed(SEED)
-        io_model = ORTModelForCustomTasks.from_pretrained(model_id, use_io_binding=True)
+        io_model = ORTModelForCustomTasks.from_pretrained(
+            model_id, use_io_binding=True, provider="CUDAExecutionProvider"
+        )
         tokenizer = get_preprocessor(model_id)
         tokens = tokenizer("This is a sample output", return_tensors="pt")
         onnx_outputs = onnx_model(**tokens)
@@ -2262,13 +2255,13 @@ class TestBothExportersORTModel(unittest.TestCase):
             ["speech2seq-lm", ORTModelForSpeechSeq2SeqIntegrationTest],
         ]
     )
-    @unittest.skipIf(int(os.environ.get("TEST_LEVEL", 0)) < 1, reason="disabled by default")
     def test_find_untested_architectures(self, task: str, test_class):
         supported_export_models = TasksManager.get_supported_model_type_for_task(task=task, exporter="onnx")
         tested_architectures = set(test_class.SUPPORTED_ARCHITECTURES)
 
         untested_architectures = set(supported_export_models) - tested_architectures
         if len(untested_architectures) > 0:
-            self.fail(
-                f"For the task {task}, the ONNX export supports {supported_export_models}, but only {tested_architectures} are tested.\nMissing {untested_architectures}."
+            logger.warning(
+                f"For the task `{task}`, the ONNX export supports {supported_export_models}, but only {tested_architectures} are tested.\n"
+                f"    Missing {untested_architectures}."
             )

From 0c04549a8f0a0828f107a719f892bce67015bf2c Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Fri, 13 Jan 2023 10:58:37 +0100
Subject: [PATCH 04/12] avoid reexporting models to onnx

---
 tests/onnxruntime/test_modeling.py | 172 +++++++++++++++++++++--------
 1 file changed, 129 insertions(+), 43 deletions(-)

diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index 134a3e2033..19fc2f88dc 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -17,6 +17,7 @@
 import shutil
 import tempfile
 import unittest
+from typing import Dict
 
 import numpy as np
 import pytest
@@ -147,6 +148,35 @@
 SEED = 42
 
 
+class ORTModelTestMixin(unittest.TestCase):
+    @classmethod
+    def _setup(self, model_args: Dict):
+        """
+        Export the PyTorch models to ONNX ahead of time to avoid multiple exports during the tests.
+        """
+        self.onnx_model_dirs = {}
+        model_arch = model_args["model_arch"]
+
+        if model_arch not in self.onnx_model_dirs:
+            model_arch_and_params = model_args["test_name"]
+
+            # model_args will contain kwargs to pass to ORTModel.from_pretrained()
+            model_args.pop("test_name")
+            model_args.pop("model_arch")
+
+            model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+            onnx_model = self.ORTMODEL_CLASS.from_pretrained(model_id, **model_args, from_transformers=True)
+
+            model_dir = tempfile.mkdtemp(prefix=f"{model_arch_and_params}_{self.TASK}_")
+            onnx_model.save_pretrained(model_dir)
+            self.onnx_model_dirs[model_arch] = model_dir
+
+    @classmethod
+    def tearDown(self):
+        for _, dir_path in self.onnx_model_dirs.items():
+            shutil.rmtree(dir_path)
+
+
 class ORTModelIntegrationTest(unittest.TestCase):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
@@ -745,7 +775,7 @@ def test_push_seq2seq_model_with_external_data_to_hub(self):
             os.environ.pop("FORCE_ONNX_EXTERNAL_DATA")
 
 
-class ORTModelForQuestionAnsweringIntegrationTest(unittest.TestCase):
+class ORTModelForQuestionAnsweringIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
         "albert",
         "bart",
@@ -772,6 +802,10 @@ class ORTModelForQuestionAnsweringIntegrationTest(unittest.TestCase):
         "xlm_roberta",
     ]
 
+    FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
+    ORTMODEL_CLASS = ORTModelForQuestionAnswering
+    TASK = "question-answering"
+
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
             _ = ORTModelForQuestionAnswering.from_pretrained(MODEL_NAMES["t5"], from_transformers=True)
@@ -780,9 +814,12 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForQuestionAnswering.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForQuestionAnswering.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
         self.assertIsInstance(onnx_model.config, PretrainedConfig)
@@ -809,8 +846,11 @@ def test_compare_to_transformers(self, model_arch):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForQuestionAnswering.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForQuestionAnswering.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("question-answering", model=onnx_model, tokenizer=tokenizer)
         question = "Whats my name?"
@@ -837,8 +877,11 @@ def test_pipeline_model_is_none(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForQuestionAnswering.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForQuestionAnswering.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("question-answering", model=onnx_model, tokenizer=tokenizer, device=0)
         question = "Whats my name?"
@@ -855,14 +898,17 @@ def test_pipeline_on_gpu(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForQuestionAnswering.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForQuestionAnswering.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
@@ -882,7 +928,7 @@ def test_compare_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForSequenceClassificationIntegrationTest(unittest.TestCase):
+class ORTModelForSequenceClassificationIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
         "albert",
         "bart",
@@ -918,6 +964,10 @@ class ORTModelForSequenceClassificationIntegrationTest(unittest.TestCase):
         "perceiver": "hf-internal-testing/tiny-random-language_perceiver",
     }
 
+    FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
+    ORTMODEL_CLASS = ORTModelForSequenceClassification
+    TASK = "sequence-classification"
+
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
             _ = ORTModelForSequenceClassification.from_pretrained(MODEL_NAMES["t5"], from_transformers=True)
@@ -928,7 +978,7 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
     def test_compare_to_transformers(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForSequenceClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
         self.assertIsInstance(onnx_model.config, PretrainedConfig)
@@ -953,7 +1003,7 @@ def test_compare_to_transformers(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
-        onnx_model = ORTModelForSequenceClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("text-classification", model=onnx_model, tokenizer=tokenizer)
         text = "My Name is Philipp and i live in Germany."
@@ -979,7 +1029,7 @@ def test_pipeline_model_is_none(self):
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
-        onnx_model = ORTModelForSequenceClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("text-classification", model=onnx_model, tokenizer=tokenizer, device=0)
         text = "My Name is Philipp and i live in Germany."
@@ -1015,11 +1065,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForSequenceClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForSequenceClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
@@ -1036,7 +1086,7 @@ def test_compare_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForTokenClassificationIntegrationTest(unittest.TestCase):
+class ORTModelForTokenClassificationIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
         "albert",
         "bert",
@@ -1062,6 +1112,10 @@ class ORTModelForTokenClassificationIntegrationTest(unittest.TestCase):
         "xlm_roberta",
     ]
 
+    FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
+    ORTMODEL_CLASS = ORTModelForTokenClassification
+    TASK = "token-classification"
+
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
             _ = ORTModelForTokenClassification.from_pretrained(MODEL_NAMES["t5"], from_transformers=True)
@@ -1072,7 +1126,7 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
     def test_compare_to_transformers(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForTokenClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForTokenClassification.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
         self.assertIsInstance(onnx_model.config, PretrainedConfig)
@@ -1097,7 +1151,7 @@ def test_compare_to_transformers(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForTokenClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForTokenClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("token-classification", model=onnx_model, tokenizer=tokenizer)
         text = "My Name is Philipp and i live in Germany."
@@ -1121,7 +1175,7 @@ def test_pipeline_model_is_none(self):
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForTokenClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForTokenClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("token-classification", model=onnx_model, tokenizer=tokenizer, device=0)
         text = "My Name is Philipp and i live in Germany."
@@ -1139,11 +1193,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForTokenClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForTokenClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
@@ -1160,14 +1214,18 @@ def test_compare_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForFeatureExtractionIntegrationTest(unittest.TestCase):
+class ORTModelForFeatureExtractionIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = ["albert", "bert", "camembert", "distilbert", "electra", "roberta", "xlm_roberta"]
 
+    FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
+    ORTMODEL_CLASS = ORTModelForFeatureExtraction
+    TASK = "default"
+
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForFeatureExtraction.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForFeatureExtraction.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
         self.assertIsInstance(onnx_model.config, PretrainedConfig)
@@ -1194,7 +1252,7 @@ def test_compare_to_transformers(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForFeatureExtraction.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForFeatureExtraction.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("feature-extraction", model=onnx_model, tokenizer=tokenizer)
         text = "My Name is Philipp and i live in Germany."
@@ -1219,7 +1277,7 @@ def test_pipeline_model_is_none(self):
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForFeatureExtraction.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForFeatureExtraction.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("feature-extraction", model=onnx_model, tokenizer=tokenizer, device=0)
         text = "My Name is Philipp and i live in Germany."
@@ -1237,11 +1295,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForFeatureExtraction.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForFeatureExtraction.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
@@ -1258,7 +1316,7 @@ def test_compare_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForMultipleChoiceIntegrationTest(unittest.TestCase):
+class ORTModelForMultipleChoiceIntegrationTest(ORTModelTestMixin):
     # Multiple Choice tests are conducted on different models due to mismatch size in model's classifier
     SUPPORTED_ARCHITECTURES = [
         "albert",
@@ -1280,11 +1338,18 @@ class ORTModelForMultipleChoiceIntegrationTest(unittest.TestCase):
         "xlm_roberta",
     ]
 
+    FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
+    ORTMODEL_CLASS = ORTModelForMultipleChoice
+    TASK = "multiple-choice"
+
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForMultipleChoice.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForMultipleChoice.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
         self.assertIsInstance(onnx_model.config, PretrainedConfig)
@@ -1312,6 +1377,7 @@ def test_compare_to_transformers(self, model_arch):
             transformers_outputs = transformers_model(**inputs)
 
         # Compare tensor outputs
+        print(torch.max(torch.abs(onnx_outputs.logits - transformers_outputs.logits)))
         self.assertTrue(torch.allclose(onnx_outputs.logits, transformers_outputs.logits, atol=1e-4))
 
         gc.collect()
@@ -1319,14 +1385,17 @@ def test_compare_to_transformers(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForMultipleChoice.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForMultipleChoice.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
@@ -1354,7 +1423,7 @@ def test_compare_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForCausalLMIntegrationTest(unittest.TestCase):
+class ORTModelForCausalLMIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
         "bart",
         "bigbird_pegasus",
@@ -1375,6 +1444,9 @@ class ORTModelForCausalLMIntegrationTest(unittest.TestCase):
         "use_cache": [False, True],
     }
 
+    ORTMODEL_CLASS = ORTModelForCausalLM
+    TASK = "causal-lm"
+
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
             _ = ORTModelForCausalLM.from_pretrained(MODEL_NAMES["vit"], from_transformers=True)
@@ -1536,7 +1608,7 @@ def test_compare_generation_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForImageClassificationIntegrationTest(unittest.TestCase):
+class ORTModelForImageClassificationIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
         "beit",
         "convnext",
@@ -1558,6 +1630,10 @@ class ORTModelForImageClassificationIntegrationTest(unittest.TestCase):
         "perceiver": "hf-internal-testing/tiny-random-vision_perceiver_conv",
     }
 
+    FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
+    ORTMODEL_CLASS = ORTModelForImageClassification
+    TASK = "image-classification"
+
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
             _ = ORTModelForImageClassification.from_pretrained(MODEL_NAMES["t5"], from_transformers=True)
@@ -1568,7 +1644,7 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
     def test_compare_to_transformers(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForImageClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForImageClassification.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
         self.assertIsInstance(onnx_model.config, PretrainedConfig)
@@ -1595,7 +1671,7 @@ def test_compare_to_transformers(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
-        onnx_model = ORTModelForImageClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForImageClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-classification", model=onnx_model, feature_extractor=preprocessor)
         url = "http://images.cocodataset.org/val2017/000000039769.jpg"
@@ -1621,7 +1697,7 @@ def test_pipeline_model_is_none(self):
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
-        onnx_model = ORTModelForImageClassification.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForImageClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-classification", model=onnx_model, feature_extractor=preprocessor, device=0)
         url = "http://images.cocodataset.org/val2017/000000039769.jpg"
@@ -1641,11 +1717,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForImageClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForImageClassification.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         preprocessor = get_preprocessor(model_id)
@@ -1664,9 +1740,13 @@ def test_compare_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForSemanticSegmentationIntegrationTest(unittest.TestCase):
+class ORTModelForSemanticSegmentationIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = ("segformer",)
 
+    FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
+    ORTMODEL_CLASS = ORTModelForSemanticSegmentation
+    TASK = "semantic-segmentation"
+
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
             _ = ORTModelForSemanticSegmentation.from_pretrained(MODEL_NAMES["t5"], from_transformers=True)
@@ -1677,7 +1757,7 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
     def test_compare_to_transformers(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
-        onnx_model = ORTModelForSemanticSegmentation.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForSemanticSegmentation.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
         self.assertIsInstance(onnx_model.config, PretrainedConfig)
@@ -1704,7 +1784,7 @@ def test_compare_to_transformers(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForSemanticSegmentation.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForSemanticSegmentation.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-segmentation", model=onnx_model, feature_extractor=preprocessor)
         url = "http://images.cocodataset.org/val2017/000000039769.jpg"
@@ -1729,7 +1809,7 @@ def test_pipeline_model_is_none(self):
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForSemanticSegmentation.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForSemanticSegmentation.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-segmentation", model=onnx_model, feature_extractor=preprocessor, device=0)
         url = "http://images.cocodataset.org/val2017/000000039769.jpg"
@@ -1749,11 +1829,11 @@ def test_compare_to_io_binding(self, model_arch):
         model_id = MODEL_NAMES[model_arch]
         set_seed(SEED)
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
         set_seed(SEED)
         io_model = ORTModelForSemanticSegmentation.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         preprocessor = get_preprocessor(model_id)
@@ -1772,7 +1852,7 @@ def test_compare_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForSeq2SeqLMIntegrationTest(unittest.TestCase):
+class ORTModelForSeq2SeqLMIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
         "bart",
         "bigbird_pegasus",
@@ -1792,6 +1872,9 @@ class ORTModelForSeq2SeqLMIntegrationTest(unittest.TestCase):
         "use_cache": [False, True],
     }
 
+    ORTMODEL_CLASS = ORTModelForSeq2SeqLM
+    TASK = "seq2seq-lm"
+
     def test_load_vanilla_transformers_which_is_not_supported(self):
         with self.assertRaises(Exception) as context:
             _ = ORTModelForSeq2SeqLM.from_pretrained(MODEL_NAMES["bert"], from_transformers=True)
@@ -1982,7 +2065,7 @@ def test_compare_generation_to_io_binding(self, model_arch):
         gc.collect()
 
 
-class ORTModelForSpeechSeq2SeqIntegrationTest(unittest.TestCase):
+class ORTModelForSpeechSeq2SeqIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = ["speech_to_text", "whisper"]
 
     FULL_GRID = {
@@ -1990,6 +2073,9 @@ class ORTModelForSpeechSeq2SeqIntegrationTest(unittest.TestCase):
         "use_cache": [False, True],
     }
 
+    ORTMODEL_CLASS = ORTModelForSpeechSeq2Seq
+    TASK = "speech2seq-lm"
+
     def _generate_random_audio_data(self):
         np.random.seed(10)
         t = np.linspace(0, 5.0, int(5.0 * 22050), endpoint=False)

From f1f28d40fbc67430b4dab3e5da55ffb0e85eb082 Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Fri, 13 Jan 2023 12:26:29 +0100
Subject: [PATCH 05/12] fix tests

---
 optimum/exporters/tasks.py         |   1 +
 tests/onnxruntime/test_modeling.py | 344 +++++++++++++++++++----------
 2 files changed, 225 insertions(+), 120 deletions(-)

diff --git a/optimum/exporters/tasks.py b/optimum/exporters/tasks.py
index 6c60f7a5ac..11e1b95a74 100644
--- a/optimum/exporters/tasks.py
+++ b/optimum/exporters/tasks.py
@@ -141,6 +141,7 @@ class TasksManager:
         "stable-diffusion": "diffusers",
     }
 
+    # TODO: some models here support causal-lm export but are not supported in ORTModelForCausalLM
     # Set of model topologies we support associated to the tasks supported by each topology and the factory
     _SUPPORTED_MODEL_TYPE = {
         "audio-spectrogram-transformer": supported_tasks_mapping(
diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index 19fc2f88dc..3220e364fa 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -84,7 +84,7 @@
     "bart": "hf-internal-testing/tiny-random-bart",
     "big_bird": "hf-internal-testing/tiny-random-BigBirdModel",
     "bigbird_pegasus": "hf-internal-testing/tiny-random-bigbird_pegasus",
-    "blenderbot-small": "hf-internal-testing/tiny-random-BlenderbotModel",
+    "blenderbot_small": "hf-internal-testing/tiny-random-BlenderbotModel",
     "blenderbot": "hf-internal-testing/tiny-random-BlenderbotModel",
     "bloom": "hf-internal-testing/tiny-random-BloomModel",
     "camembert": "hf-internal-testing/tiny-random-camembert",
@@ -140,7 +140,7 @@
     "unispeech": "hf-internal-testing/tiny-random-unispeech",
     "unispeech_sat": "hf-internal-testing/tiny-random-unispeech-sat",
     "audio_spectrogram_transformer": "Ericwang/tiny-random-ast",
-    "speech_to-text": "hf-internal-testing/tiny-random-Speech2TextModel",
+    "speech_to_text": "hf-internal-testing/tiny-random-Speech2TextModel",
     "xlm": "hf-internal-testing/tiny-random-XLMModel",
     "xlm_roberta": "hf-internal-testing/tiny-xlm-roberta",
 }
@@ -150,30 +150,33 @@
 
 class ORTModelTestMixin(unittest.TestCase):
     @classmethod
+    def setUpClass(cls):
+        cls.onnx_model_dirs = {}
+
     def _setup(self, model_args: Dict):
         """
         Export the PyTorch models to ONNX ahead of time to avoid multiple exports during the tests.
+        We don't use unittest setUpClass, in order to still be able to run individual tests.
         """
-        self.onnx_model_dirs = {}
         model_arch = model_args["model_arch"]
+        model_arch_and_params = model_args["test_name"]
 
-        if model_arch not in self.onnx_model_dirs:
-            model_arch_and_params = model_args["test_name"]
-
+        if model_arch_and_params not in self.onnx_model_dirs:
             # model_args will contain kwargs to pass to ORTModel.from_pretrained()
             model_args.pop("test_name")
             model_args.pop("model_arch")
 
             model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+            set_seed(SEED)
             onnx_model = self.ORTMODEL_CLASS.from_pretrained(model_id, **model_args, from_transformers=True)
 
             model_dir = tempfile.mkdtemp(prefix=f"{model_arch_and_params}_{self.TASK}_")
             onnx_model.save_pretrained(model_dir)
-            self.onnx_model_dirs[model_arch] = model_dir
+            self.onnx_model_dirs[model_arch_and_params] = model_dir
 
     @classmethod
-    def tearDown(self):
-        for _, dir_path in self.onnx_model_dirs.items():
+    def tearDownClass(cls):
+        for _, dir_path in cls.onnx_model_dirs.items():
             shutil.rmtree(dir_path)
 
 
@@ -818,7 +821,6 @@ def test_compare_to_transformers(self, model_arch):
         self._setup(model_args)
 
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForQuestionAnswering.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
@@ -902,11 +904,9 @@ def test_compare_to_io_binding(self, model_arch):
         self._setup(model_args)
 
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForQuestionAnswering.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForQuestionAnswering.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
@@ -976,8 +976,10 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
@@ -1002,6 +1004,9 @@ def test_compare_to_transformers(self, model_arch):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
@@ -1028,6 +1033,9 @@ def test_pipeline_model_is_none(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
@@ -1062,12 +1070,13 @@ def test_pipeline_zero_shot_classification(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForSequenceClassification.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForSequenceClassification.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
@@ -1124,8 +1133,10 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForTokenClassification.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
@@ -1150,6 +1161,9 @@ def test_compare_to_transformers(self, model_arch):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         onnx_model = ORTModelForTokenClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
@@ -1174,6 +1188,9 @@ def test_pipeline_model_is_none(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         onnx_model = ORTModelForTokenClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
@@ -1190,12 +1207,13 @@ def test_pipeline_on_gpu(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForTokenClassification.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForTokenClassification.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
@@ -1223,8 +1241,10 @@ class ORTModelForFeatureExtractionIntegrationTest(ORTModelTestMixin):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForFeatureExtraction.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
@@ -1251,6 +1271,9 @@ def test_compare_to_transformers(self, model_arch):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         onnx_model = ORTModelForFeatureExtraction.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
@@ -1276,6 +1299,9 @@ def test_pipeline_model_is_none(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         onnx_model = ORTModelForFeatureExtraction.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
@@ -1292,12 +1318,13 @@ def test_pipeline_on_gpu(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForFeatureExtraction.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForFeatureExtraction.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
@@ -1348,7 +1375,6 @@ def test_compare_to_transformers(self, model_arch):
         self._setup(model_args)
 
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForMultipleChoice.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
@@ -1389,11 +1415,9 @@ def test_compare_to_io_binding(self, model_arch):
         self._setup(model_args)
 
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForMultipleChoice.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForMultipleChoice.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
@@ -1425,18 +1449,10 @@ def test_compare_to_io_binding(self, model_arch):
 
 class ORTModelForCausalLMIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
-        "bart",
-        "bigbird_pegasus",
-        "blenderbot",
-        "blenderbot_small",
-        "bloom",
         "codegen",
         "gpt2",
         "gpt_neo",
         "gptj",
-        "marian",
-        "mbart",
-        "pegasus",
     ]
 
     FULL_GRID = {
@@ -1453,10 +1469,13 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
         self.assertIn("Unrecognized configuration class", str(context.exception))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
-    def test_generate_utils(self, model_arch):
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
+    def test_generate_utils(self, test_name: str, model_arch: str, use_cache: str):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        model = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True)
+        model = ORTModelForCausalLM.from_pretrained(self.onnx_model_dirs[test_name])
         tokenizer = get_preprocessor(model_id)
         text = "This is a sample output"
         tokens = tokenizer(text, return_tensors="pt")
@@ -1478,9 +1497,11 @@ def test_generate_utils(self, model_arch):
 
     @parameterized.expand(grid_parameters(FULL_GRID))
     def test_compare_to_transformers(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
-        onnx_model = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True, use_cache=use_cache)
+        onnx_model = ORTModelForCausalLM.from_pretrained(self.onnx_model_dirs[test_name], use_cache=use_cache)
 
         self.assertIsInstance(onnx_model.decoder, ORTDecoder)
         if onnx_model.use_cache is True:
@@ -1506,8 +1527,11 @@ def test_compare_to_transformers(self, test_name: str, model_arch: str, use_cach
 
     @parameterized.expand(grid_parameters(FULL_GRID))
     def test_pipeline_ort_model(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True, use_cache=use_cache)
+        onnx_model = ORTModelForCausalLM.from_pretrained(self.onnx_model_dirs[test_name], use_cache=use_cache)
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("text-generation", model=onnx_model, tokenizer=tokenizer)
         text = "My Name is Philipp and i live"
@@ -1529,11 +1553,15 @@ def test_pipeline_model_is_none(self):
         self.assertIsInstance(outputs[0]["generated_text"], str)
         self.assertTrue(len(outputs[0]["generated_text"]) > len(text))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_pipeline_on_gpu(self, model_arch):
+    def test_pipeline_on_gpu(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForCausalLM.from_pretrained(self.onnx_model_dirs[test_name])
+
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("text-generation", model=onnx_model, tokenizer=tokenizer, device=0)
         text = "My Name is Philipp and i live"
@@ -1548,31 +1576,41 @@ def test_pipeline_on_gpu(self, model_arch):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_with_and_without_past_key_values_model_outputs(self, model_arch):
+        model_args = {"test_name": model_arch + "_False", "model_arch": model_arch, "use_cache": False}
+        self._setup(model_args)
+        model_args = {"test_name": model_arch + "_True", "model_arch": model_arch, "use_cache": True}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         tokenizer = get_preprocessor(model_id)
         text = "My Name is Philipp and i live"
         tokens = tokenizer(text, return_tensors="pt")
-        model_with_pkv = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True, use_cache=True)
+        model_with_pkv = ORTModelForCausalLM.from_pretrained(
+            self.onnx_model_dirs[model_arch + "_True"], use_cache=True
+        )
         outputs_model_with_pkv = model_with_pkv.generate(**tokens)
-        model_without_pkv = ORTModelForCausalLM.from_pretrained(model_id, from_transformers=True, use_cache=False)
+        model_without_pkv = ORTModelForCausalLM.from_pretrained(
+            self.onnx_model_dirs[model_arch + "_False"], use_cache=False
+        )
         outputs_model_without_pkv = model_without_pkv.generate(**tokens)
         self.assertTrue(torch.equal(outputs_model_with_pkv, outputs_model_without_pkv))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_compare_to_io_binding(self, model_arch):
+    def test_compare_to_io_binding(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForCausalLM.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForCausalLM.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
-        tokens = tokenizer(["This is a sample output"] * 2, return_tensors="pt")
+        tokens = tokenizer(["This is a sample output"] * 2, return_tensors="pt").to("cuda")
         onnx_outputs = onnx_model(**tokens)
         io_outputs = io_model(**tokens)
 
@@ -1584,21 +1622,22 @@ def test_compare_to_io_binding(self, model_arch):
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_compare_generation_to_io_binding(self, model_arch):
+    def test_compare_generation_to_io_binding(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForCausalLM.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForCausalLM.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
-        tokens = tokenizer("This is a sample output", return_tensors="pt")
+        tokens = tokenizer("This is a sample output", return_tensors="pt").to("cuda")
         onnx_outputs = onnx_model.generate(**tokens)
         io_outputs = io_model.generate(**tokens)
 
@@ -1642,8 +1681,10 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForImageClassification.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
@@ -1670,6 +1711,9 @@ def test_compare_to_transformers(self, model_arch):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         onnx_model = ORTModelForImageClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
@@ -1696,6 +1740,9 @@ def test_pipeline_model_is_none(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
         onnx_model = ORTModelForImageClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
@@ -1714,12 +1761,13 @@ def test_pipeline_on_gpu(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForImageClassification.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForImageClassification.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
@@ -1755,8 +1803,10 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
@@ -1783,6 +1833,9 @@ def test_compare_to_transformers(self, model_arch):
 
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_pipeline_ort_model(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
@@ -1808,6 +1861,9 @@ def test_pipeline_model_is_none(self):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_pipeline_on_gpu(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
@@ -1826,12 +1882,13 @@ def test_pipeline_on_gpu(self, model_arch):
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     @require_torch_gpu
     def test_compare_to_io_binding(self, model_arch):
+        model_args = {"test_name": model_arch, "model_arch": model_arch}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForSemanticSegmentation.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForSemanticSegmentation.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=True, provider="CUDAExecutionProvider"
         )
@@ -1856,8 +1913,6 @@ class ORTModelForSeq2SeqLMIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
         "bart",
         "bigbird_pegasus",
-        "blenderbot",
-        "blenderbot_small",
         "longt5",
         "m2m_100",
         "marian",
@@ -1881,10 +1936,13 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
         self.assertIn("Unrecognized configuration class", str(context.exception))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
-    def test_generate_utils(self, model_arch):
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
+    def test_generate_utils(self, test_name: str, model_arch: str, use_cache: str):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        model = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True)
+        model = ORTModelForSeq2SeqLM.from_pretrained(self.onnx_model_dirs[test_name])
         tokenizer = get_preprocessor(model_id)
         text = "This is a sample output"
         tokens = tokenizer(text, return_tensors="pt")
@@ -1903,9 +1961,11 @@ def test_generate_utils(self, model_arch):
 
     @parameterized.expand(grid_parameters(FULL_GRID))
     def test_compare_to_transformers(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
-        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True, use_cache=use_cache)
+        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(self.onnx_model_dirs[test_name], use_cache=use_cache)
 
         self.assertIsInstance(onnx_model.encoder, ORTEncoder)
         self.assertIsInstance(onnx_model.decoder, ORTSeq2SeqDecoder)
@@ -1933,8 +1993,11 @@ def test_compare_to_transformers(self, test_name: str, model_arch: str, use_cach
 
     @parameterized.expand(grid_parameters(FULL_GRID))
     def test_pipeline_text_generation(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True, use_cache=use_cache)
+        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(self.onnx_model_dirs[test_name], use_cache=use_cache)
         tokenizer = get_preprocessor(model_id)
 
         # Text2Text generation
@@ -1981,11 +2044,14 @@ def test_pipeline_model_is_none(self):
         # compare model output class
         self.assertIsInstance(outputs[0]["translation_text"], str)
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_pipeline_on_gpu(self, model_arch):
+    def test_pipeline_on_gpu(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForSeq2SeqLM.from_pretrained(self.onnx_model_dirs[test_name])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("translation_en_to_de", model=onnx_model, tokenizer=tokenizer, return_tensors=False, device=0)
         text = "My Name is Philipp and i live"
@@ -2001,32 +2067,45 @@ def test_pipeline_on_gpu(self, model_arch):
         self.assertTrue(isinstance(outputs[0]["translation_token_ids"], torch.Tensor))
         self.assertTrue(len(outputs[0]["translation_token_ids"]) > len(text))
 
-    def test_compare_with_and_without_past_key_values_model_outputs(self):
-        model_id = MODEL_NAMES["t5"]
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    def test_compare_with_and_without_past_key_values_model_outputs(self, model_arch: str):
+        if model_arch == "m2m_100":
+            return  # TODO: this test is failing for m2m_100
+        model_args = {"test_name": model_arch + "_False", "model_arch": model_arch, "use_cache": False}
+        self._setup(model_args)
+        model_args = {"test_name": model_arch + "_True", "model_arch": model_arch, "use_cache": True}
+        self._setup(model_args)
+
+        model_id = MODEL_NAMES[model_arch]
         tokenizer = get_preprocessor(model_id)
         text = "This is a sample output"
         tokens = tokenizer(text, return_tensors="pt")
-        model_with_pkv = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True, use_cache=True)
+        model_with_pkv = ORTModelForSeq2SeqLM.from_pretrained(
+            self.onnx_model_dirs[model_arch + "_True"], use_cache=True
+        )
         outputs_model_with_pkv = model_with_pkv.generate(**tokens)
-        model_without_pkv = ORTModelForSeq2SeqLM.from_pretrained(model_id, from_transformers=True, use_cache=False)
+        model_without_pkv = ORTModelForSeq2SeqLM.from_pretrained(
+            self.onnx_model_dirs[model_arch + "_False"], use_cache=False
+        )
         outputs_model_without_pkv = model_without_pkv.generate(**tokens)
         self.assertTrue(torch.equal(outputs_model_with_pkv, outputs_model_without_pkv))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_compare_to_io_binding(self, model_arch):
+    def test_compare_to_io_binding(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForSeq2SeqLM.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForSeq2SeqLM.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
-        tokens = tokenizer(["This is a sample output"] * 2, return_tensors="pt")
+        tokens = tokenizer(["This is a sample output"] * 2, return_tensors="pt").to("cuda")
         decoder_start_token_id = onnx_model.config.decoder_start_token_id if model_arch != "mbart" else 2
         decoder_inputs = {"decoder_input_ids": torch.ones((2, 1), dtype=torch.long) * decoder_start_token_id}
 
@@ -2041,21 +2120,22 @@ def test_compare_to_io_binding(self, model_arch):
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_compare_generation_to_io_binding(self, model_arch):
+    def test_compare_generation_to_io_binding(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForSeq2SeqLM.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForSeq2SeqLM.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         tokenizer = get_preprocessor(model_id)
-        tokens = tokenizer("This is a sample output", return_tensors="pt")
+        tokens = tokenizer("This is a sample output", return_tensors="pt").to("cuda")
         onnx_outputs = onnx_model.generate(**tokens, num_beams=5)
         io_outputs = io_model.generate(**tokens, num_beams=5)
 
@@ -2066,7 +2146,8 @@ def test_compare_generation_to_io_binding(self, model_arch):
 
 
 class ORTModelForSpeechSeq2SeqIntegrationTest(ORTModelTestMixin):
-    SUPPORTED_ARCHITECTURES = ["speech_to_text", "whisper"]
+    # TODO: speech_to_text should be tested
+    SUPPORTED_ARCHITECTURES = ["whisper"]
 
     FULL_GRID = {
         "model_arch": SUPPORTED_ARCHITECTURES,
@@ -2089,10 +2170,13 @@ def test_load_vanilla_transformers_which_is_not_supported(self):
 
         self.assertIn("Unrecognized configuration class", str(context.exception))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
-    def test_generate_utils(self, model_arch):
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
+    def test_generate_utils(self, test_name: str, model_arch: str, use_cache: str):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        model = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True)
+        model = ORTModelForSpeechSeq2Seq.from_pretrained(self.onnx_model_dirs[test_name])
         processor = get_preprocessor(model_id)
 
         data = self._generate_random_audio_data()
@@ -2106,9 +2190,11 @@ def test_generate_utils(self, model_arch):
 
     @parameterized.expand(grid_parameters(FULL_GRID))
     def test_compare_to_transformers(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
-        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True, use_cache=use_cache)
+        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(self.onnx_model_dirs[test_name], use_cache=use_cache)
 
         self.assertIsInstance(onnx_model.encoder, ORTEncoder)
         self.assertIsInstance(onnx_model.decoder, ORTSeq2SeqDecoder)
@@ -2139,8 +2225,11 @@ def test_compare_to_transformers(self, test_name: str, model_arch: str, use_cach
 
     @parameterized.expand(grid_parameters(FULL_GRID))
     def test_pipeline_speech_recognition(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True, use_cache=use_cache)
+        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(self.onnx_model_dirs[test_name], use_cache=use_cache)
         processor = get_preprocessor(model_id)
 
         # Speech recogition generation
@@ -2157,11 +2246,14 @@ def test_pipeline_speech_recognition(self, test_name: str, model_arch: str, use_
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_pipeline_on_gpu(self, model_arch):
+    def test_pipeline_on_gpu(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True)
+        onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(self.onnx_model_dirs[test_name], use_cache=use_cache)
         processor = get_preprocessor(model_id)
         pipe = pipeline(
             "automatic-speech-recognition",
@@ -2179,37 +2271,48 @@ def test_pipeline_on_gpu(self, model_arch):
         # compare model output class
         self.assertTrue(isinstance(outputs["text"], str))
 
-    def test_compare_with_and_without_past_key_values_model_outputs(self):
-        model_id = MODEL_NAMES["whisper"]
+    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    def test_compare_with_and_without_past_key_values_model_outputs(self, model_arch: str):
+        model_args = {"test_name": model_arch + "_False", "model_arch": model_arch, "use_cache": False}
+        self._setup(model_args)
+        model_args = {"test_name": model_arch + "_True", "model_arch": model_arch, "use_cache": True}
+        self._setup(model_args)
+
+        model_id = MODEL_NAMES[model_arch]
         processor = get_preprocessor(model_id)
 
         data = self._generate_random_audio_data()
         features = processor.feature_extractor(data, return_tensors="pt")
 
-        model_with_pkv = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True, use_cache=True)
+        model_with_pkv = ORTModelForSpeechSeq2Seq.from_pretrained(
+            self.onnx_model_dirs[model_arch + "_True"], use_cache=True
+        )
         outputs_model_with_pkv = model_with_pkv.generate(**features)
-        model_without_pkv = ORTModelForSpeechSeq2Seq.from_pretrained(model_id, from_transformers=True, use_cache=False)
+        model_without_pkv = ORTModelForSpeechSeq2Seq.from_pretrained(
+            self.onnx_model_dirs[model_arch + "_False"], use_cache=False
+        )
         outputs_model_without_pkv = model_without_pkv.generate(**features)
 
         self.assertTrue(torch.equal(outputs_model_with_pkv, outputs_model_without_pkv))
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_compare_to_io_binding(self, model_arch):
+    def test_compare_to_io_binding(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForSpeechSeq2Seq.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         processor = get_preprocessor(model_id)
 
         data = self._generate_random_audio_data()
-        features = processor.feature_extractor([data] * 2, return_tensors="pt")
+        features = processor.feature_extractor([data] * 2, return_tensors="pt").to("cuda")
 
         decoder_start_token_id = onnx_model.config.decoder_start_token_id
         decoder_inputs = {"decoder_input_ids": torch.ones((2, 1), dtype=torch.long) * decoder_start_token_id}
@@ -2225,23 +2328,24 @@ def test_compare_to_io_binding(self, model_arch):
 
         gc.collect()
 
-    @parameterized.expand(SUPPORTED_ARCHITECTURES)
+    @parameterized.expand(grid_parameters({"model_arch": SUPPORTED_ARCHITECTURES, "use_cache": [True]}))
     @require_torch_gpu
-    def test_compare_generation_to_io_binding(self, model_arch):
+    def test_compare_generation_to_io_binding(self, test_name: str, model_arch: str, use_cache: bool):
+        model_args = {"test_name": test_name, "model_arch": model_arch, "use_cache": use_cache}
+        self._setup(model_args)
+
         model_id = MODEL_NAMES[model_arch]
-        set_seed(SEED)
         onnx_model = ORTModelForSpeechSeq2Seq.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=False, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=False, provider="CUDAExecutionProvider"
         )
-        set_seed(SEED)
         io_model = ORTModelForSpeechSeq2Seq.from_pretrained(
-            model_id, from_transformers=True, use_io_binding=True, provider="CUDAExecutionProvider"
+            self.onnx_model_dirs[test_name], use_io_binding=True, provider="CUDAExecutionProvider"
         )
 
         processor = get_preprocessor(model_id)
 
         data = self._generate_random_audio_data()
-        features = processor.feature_extractor(data, return_tensors="pt")
+        features = processor.feature_extractor(data, return_tensors="pt").to("cuda")
 
         onnx_outputs = onnx_model.generate(**features, num_beams=5)
         io_outputs = io_model.generate(**features, num_beams=5)

From fa7241aa8930dc66a89b1b7912d8f1d2c1afb6b1 Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Fri, 13 Jan 2023 14:26:14 +0100
Subject: [PATCH 06/12] fix test

---
 tests/onnxruntime/test_modeling.py | 44 ++++++++++++++++++------------
 1 file changed, 27 insertions(+), 17 deletions(-)

diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index 3220e364fa..e619c59940 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -115,8 +115,8 @@
     "marian": "sshleifer/tiny-marian-en-de",  # hf-internal-testing ones are broken
     "mbart": "hf-internal-testing/tiny-random-mbart",
     "mobilebert": "hf-internal-testing/tiny-random-MobileBertModel",
-    "mobilenet-v2": "hf-internal-testing/tiny-random-MobileNetV2Model",
-    "mobilenet-v1": "google/mobilenet_v1_0.75_192",
+    "mobilenet_v1": "google/mobilenet_v1_0.75_192",
+    "mobilenet_v2": "hf-internal-testing/tiny-random-MobileNetV2Model",
     "mobilevit": "hf-internal-testing/tiny-random-mobilevit",
     "mt5": "lewtun/tiny-random-mt5",
     "pegasus": "hf-internal-testing/tiny-random-PegasusModel",
@@ -149,6 +149,8 @@
 
 
 class ORTModelTestMixin(unittest.TestCase):
+    ARCH_MODEL_MAP = {}
+
     @classmethod
     def setUpClass(cls):
         cls.onnx_model_dirs = {}
@@ -166,7 +168,9 @@ def _setup(self, model_args: Dict):
             model_args.pop("test_name")
             model_args.pop("model_arch")
 
-            model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+            model_id = (
+                self.ARCH_MODEL_MAP[model_arch] if model_arch in self.ARCH_MODEL_MAP else MODEL_NAMES[model_arch]
+            )
             set_seed(SEED)
             onnx_model = self.ORTMODEL_CLASS.from_pretrained(model_id, **model_args, from_transformers=True)
 
@@ -795,7 +799,9 @@ class ORTModelForQuestionAnsweringIntegrationTest(ORTModelTestMixin):
         "flaubert",
         "gptj",
         "ibert",
-        "layoutlmv3",
+        # TODO: these two should be supported, but require image inputs not supported in ORTModel
+        # "layoutlm"
+        # "layoutlmv3",
         "mbart",
         "mobilebert",
         "roberta",
@@ -948,8 +954,9 @@ class ORTModelForSequenceClassificationIntegrationTest(ORTModelTestMixin):
         "gpt_neo",
         "gptj",
         "ibert",
-        "layoutlm",
-        "layoutlmv3",
+        # TODO: these two should be supported, but require image inputs not supported in ORTModel
+        # "layoutlm"
+        # "layoutlmv3",
         "mbart",
         "mobilebert",
         "perceiver",
@@ -961,7 +968,8 @@ class ORTModelForSequenceClassificationIntegrationTest(ORTModelTestMixin):
     ]
 
     ARCH_MODEL_MAP = {
-        "perceiver": "hf-internal-testing/tiny-random-language_perceiver",
+        # TODO: fix non passing test
+        # "perceiver": "hf-internal-testing/tiny-random-language_perceiver",
     }
 
     FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
@@ -979,7 +987,7 @@ def test_compare_to_transformers(self, model_arch):
         model_args = {"test_name": model_arch, "model_arch": model_arch}
         self._setup(model_args)
 
-        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+        model_id = self.ARCH_MODEL_MAP[model_arch] if model_arch in self.ARCH_MODEL_MAP else MODEL_NAMES[model_arch]
         onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
 
         self.assertIsInstance(onnx_model.model, onnxruntime.capi.onnxruntime_inference_collection.InferenceSession)
@@ -1007,7 +1015,7 @@ def test_pipeline_ort_model(self, model_arch):
         model_args = {"test_name": model_arch, "model_arch": model_arch}
         self._setup(model_args)
 
-        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+        model_id = self.ARCH_MODEL_MAP[model_arch] if model_arch in self.ARCH_MODEL_MAP else MODEL_NAMES[model_arch]
         onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("text-classification", model=onnx_model, tokenizer=tokenizer)
@@ -1036,7 +1044,7 @@ def test_pipeline_on_gpu(self, model_arch):
         model_args = {"test_name": model_arch, "model_arch": model_arch}
         self._setup(model_args)
 
-        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+        model_id = self.ARCH_MODEL_MAP[model_arch] if model_arch in self.ARCH_MODEL_MAP else MODEL_NAMES[model_arch]
         onnx_model = ORTModelForSequenceClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         tokenizer = get_preprocessor(model_id)
         pipe = pipeline("text-classification", model=onnx_model, tokenizer=tokenizer, device=0)
@@ -1073,7 +1081,7 @@ def test_compare_to_io_binding(self, model_arch):
         model_args = {"test_name": model_arch, "model_arch": model_arch}
         self._setup(model_args)
 
-        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+        model_id = self.ARCH_MODEL_MAP[model_arch] if model_arch in self.ARCH_MODEL_MAP else MODEL_NAMES[model_arch]
         onnx_model = ORTModelForSequenceClassification.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )
@@ -1111,8 +1119,9 @@ class ORTModelForTokenClassificationIntegrationTest(ORTModelTestMixin):
         "flaubert",
         "gpt2",
         "ibert",
-        "layoutlm",
-        "layoutlmv3",
+        # TODO: these two should be supported, but require image inputs not supported in ORTModel
+        # "layoutlm"
+        # "layoutlmv3",
         "mobilebert",
         "roberta",
         "roformer",
@@ -1666,7 +1675,8 @@ class ORTModelForImageClassificationIntegrationTest(ORTModelTestMixin):
     ]
 
     ARCH_MODEL_MAP = {
-        "perceiver": "hf-internal-testing/tiny-random-vision_perceiver_conv",
+        # TODO: fix non passing test
+        # "perceiver": "hf-internal-testing/tiny-random-vision_perceiver_conv",
     }
 
     FULL_GRID = {"model_arch": SUPPORTED_ARCHITECTURES}
@@ -1714,7 +1724,7 @@ def test_pipeline_ort_model(self, model_arch):
         model_args = {"test_name": model_arch, "model_arch": model_arch}
         self._setup(model_args)
 
-        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+        model_id = self.ARCH_MODEL_MAP[model_arch] if model_arch in self.ARCH_MODEL_MAP else MODEL_NAMES[model_arch]
         onnx_model = ORTModelForImageClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-classification", model=onnx_model, feature_extractor=preprocessor)
@@ -1743,7 +1753,7 @@ def test_pipeline_on_gpu(self, model_arch):
         model_args = {"test_name": model_arch, "model_arch": model_arch}
         self._setup(model_args)
 
-        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+        model_id = self.ARCH_MODEL_MAP[model_arch] if model_arch in self.ARCH_MODEL_MAP else MODEL_NAMES[model_arch]
         onnx_model = ORTModelForImageClassification.from_pretrained(self.onnx_model_dirs[model_arch])
         preprocessor = get_preprocessor(model_id)
         pipe = pipeline("image-classification", model=onnx_model, feature_extractor=preprocessor, device=0)
@@ -1764,7 +1774,7 @@ def test_compare_to_io_binding(self, model_arch):
         model_args = {"test_name": model_arch, "model_arch": model_arch}
         self._setup(model_args)
 
-        model_id = MODEL_NAMES[model_arch] if model_arch in MODEL_NAMES else self.ARCH_MODEL_MAP[model_arch]
+        model_id = self.ARCH_MODEL_MAP[model_arch] if model_arch in self.ARCH_MODEL_MAP else MODEL_NAMES[model_arch]
         onnx_model = ORTModelForImageClassification.from_pretrained(
             self.onnx_model_dirs[model_arch], use_io_binding=False, provider="CUDAExecutionProvider"
         )

From 49c480794b906a904e4c244f21e9eddac30d83d3 Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Fri, 13 Jan 2023 14:51:51 +0100
Subject: [PATCH 07/12] pass perceiver test

---
 tests/onnxruntime/test_modeling.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index e619c59940..e61dca1e22 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -959,7 +959,7 @@ class ORTModelForSequenceClassificationIntegrationTest(ORTModelTestMixin):
         # "layoutlmv3",
         "mbart",
         "mobilebert",
-        "perceiver",
+        # "perceiver",
         "roberta",
         "roformer",
         "squeezebert",
@@ -1666,7 +1666,7 @@ class ORTModelForImageClassificationIntegrationTest(ORTModelTestMixin):
         "mobilenet_v1",
         "mobilenet_v2",
         "mobilevit",
-        "perceiver",
+        # "perceiver",
         "poolformer",
         "resnet",
         "segformer",

From e53f30ca67344f72768bac87497767df1c0f7edb Mon Sep 17 00:00:00 2001
From: fxmarty <9808326+fxmarty@users.noreply.github.com>
Date: Fri, 13 Jan 2023 17:10:10 +0100
Subject: [PATCH 08/12] Update optimum/exporters/tasks.py

Co-authored-by: Michael Benayoun <mickbenayoun@gmail.com>
---
 optimum/exporters/tasks.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/optimum/exporters/tasks.py b/optimum/exporters/tasks.py
index 11e1b95a74..cf129c49d5 100644
--- a/optimum/exporters/tasks.py
+++ b/optimum/exporters/tasks.py
@@ -718,7 +718,7 @@ def get_supported_tasks_for_model_type(
             return TasksManager._SUPPORTED_MODEL_TYPE[model_type][exporter]
 
     @staticmethod
-    def get_supported_model_type_for_task(task: str, exporter: str):
+    def get_supported_model_type_for_task(task: str, exporter: str) -> List[str]:
         """
         Returns the list of supported architectures by the exporter for a given task.
         """

From cbd97e9ced0636e13db4b1f9fa279b5eba5c7e74 Mon Sep 17 00:00:00 2001
From: fxmarty <9808326+fxmarty@users.noreply.github.com>
Date: Fri, 13 Jan 2023 17:10:25 +0100
Subject: [PATCH 09/12] Update tests/onnxruntime/test_modeling.py

Co-authored-by: Michael Benayoun <mickbenayoun@gmail.com>
---
 tests/onnxruntime/test_modeling.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index e61dca1e22..29fb4eef8e 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -157,7 +157,7 @@ def setUpClass(cls):
 
     def _setup(self, model_args: Dict):
         """
-        Export the PyTorch models to ONNX ahead of time to avoid multiple exports during the tests.
+        Exports the PyTorch models to ONNX ahead of time to avoid multiple exports during the tests.
         We don't use unittest setUpClass, in order to still be able to run individual tests.
         """
         model_arch = model_args["model_arch"]

From ee97e4c5cd7efa9a75a3d08a1231a09f905923c3 Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Fri, 13 Jan 2023 17:17:09 +0100
Subject: [PATCH 10/12] fix typing import

---
 optimum/exporters/tasks.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/optimum/exporters/tasks.py b/optimum/exporters/tasks.py
index cf129c49d5..dc4eb5f0e0 100644
--- a/optimum/exporters/tasks.py
+++ b/optimum/exporters/tasks.py
@@ -18,7 +18,7 @@
 import os
 from functools import partial
 from pathlib import Path
-from typing import TYPE_CHECKING, Callable, Dict, Optional, Type, Union
+from typing import TYPE_CHECKING, Callable, Dict, List, Optional, Type, Union
 
 from transformers import PretrainedConfig, is_tf_available, is_torch_available
 from transformers.utils import TF2_WEIGHTS_NAME, WEIGHTS_NAME, logging

From 331f4cdf280fe4ed933974dbbbd0d57b514912da Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Mon, 16 Jan 2023 11:49:14 +0100
Subject: [PATCH 11/12] add bloom, blenderbot, blenderbot-small test

---
 tests/onnxruntime/test_modeling.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index 22bfdbd262..8ddbd769cf 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -1516,6 +1516,7 @@ def test_compare_to_io_binding(self, model_arch):
 
 class ORTModelForCausalLMIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
+        "bloom",
         "codegen",
         "gpt2",
         "gpt_neo",
@@ -1981,6 +1982,8 @@ class ORTModelForSeq2SeqLMIntegrationTest(ORTModelTestMixin):
     SUPPORTED_ARCHITECTURES = [
         "bart",
         "bigbird_pegasus",
+        "blenderbot",
+        "blenderbot-small",
         "longt5",
         "m2m_100",
         "marian",

From a9c1bdd81cd76103d51e13ee61eaa1ece4d90f5e Mon Sep 17 00:00:00 2001
From: Felix Marty <9808326+fxmarty@users.noreply.github.com>
Date: Mon, 16 Jan 2023 12:28:16 +0100
Subject: [PATCH 12/12] fix test

---
 tests/onnxruntime/test_modeling.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/onnxruntime/test_modeling.py b/tests/onnxruntime/test_modeling.py
index 8ddbd769cf..7d51241e4e 100644
--- a/tests/onnxruntime/test_modeling.py
+++ b/tests/onnxruntime/test_modeling.py
@@ -1983,7 +1983,7 @@ class ORTModelForSeq2SeqLMIntegrationTest(ORTModelTestMixin):
         "bart",
         "bigbird_pegasus",
         "blenderbot",
-        "blenderbot-small",
+        "blenderbot_small",
         "longt5",
         "m2m_100",
         "marian",