[benchmarks] Default to `bfloat16` (inference) and AMP (training) precision. #6518

ysiraichi · 2024-02-10T17:21:50Z

This PR makes bfloat16 the default data-type for inference, and AMP the default execution mode for training. This follows the execution found in the PyTorch HUD.

cc @miladm

- Pick data type based on `test`. - Create `cast_to_dtype` function.

ysiraichi · 2024-02-15T14:35:01Z

I'm still running the benchmarks in order to grasp the regressions this PR introduces.

frgossen

Thank you!

frgossen · 2024-02-15T14:52:10Z

benchmarks/torchbench_model.py

@@ -144,6 +144,18 @@
    "hf_T5_generate",
 }

+FORCE_AMP_FOR_FP16_BF16_MODELS = {


Do you know how this is configured on PyTorch HUD? Maintaining a list like this feels prone to divergence.

These lists are taken from the scripts in the PyTorch main repo. They are used for generating the PyTorch HUD results.

I will leave a comment.

Could you share the link to the scripts in the PyTorch main repo that are used to generate the HUD result?

Sure. https://github.com/pytorch/pytorch/blob/main/benchmarks/dynamo/torchbench.py

frgossen · 2024-02-15T22:35:18Z

benchmarks/torchbench_model.py

@@ -144,6 +144,18 @@
    "hf_T5_generate",
 }

+FORCE_AMP_FOR_FP16_BF16_MODELS = {


golechwierowicz

Can you post BERT_pytorch kernel profile after the change?

ysiraichi · 2024-02-16T13:33:51Z

The profiling results (in the following posts) were generated with the following command:

python xla/benchmarks/experiment_runner.py \
    --suite-name torchbench --accelerator cuda --dump-pytorch-profiles \
    --xla PJRT --dynamo openxla --test eval --repeat 8 --iterations-per-run 1 \
    -k BERT_pytorch

ysiraichi · 2024-02-16T13:34:04Z

BERT_pytorch (before)

-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                  Torch-Compiled Region        60.29%        8.143s        62.12%        8.390s        8.390s     107.721ms        86.99%     107.721ms     107.721ms             1  
                       Memcpy HtoD (Pageable -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      42.777ms        34.54%      42.777ms       4.366us          9798  
                                    triton_gemm_dot_755         0.00%       0.000us         0.00%       0.000us       0.000us      29.747ms        24.02%      29.747ms     743.675us            40  
                                        redzone_checker         0.00%       0.000us         0.00%       0.000us       0.000us      17.193ms        13.88%      17.193ms      48.844us           352  
                                    triton_gemm_dot_624         0.00%       0.000us         0.00%       0.000us       0.000us       9.264ms         7.48%       9.264ms     210.545us            44  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       4.687ms         3.78%       4.687ms     146.469us            32  
                                      triton_gemm_dot_0         0.00%       0.000us         0.00%       0.000us       0.000us       3.089ms         2.49%       3.089ms      85.806us            36  
xla::gpu::buffer_comparator::(anonymous namespace)::...         0.00%       0.000us         0.00%       0.000us       0.000us       2.843ms         2.30%       2.843ms      60.489us            47  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       2.808ms         2.27%       2.808ms     200.571us            14  
                                                 fusion         0.00%       0.000us         0.00%       0.000us       0.000us       2.757ms         2.23%       2.757ms     172.312us            16  
                                             fusion_225         0.00%       0.000us         0.00%       0.000us       0.000us     995.000us         0.80%     995.000us      82.917us            12  
                                        Memset (Device)         0.00%       0.000us         0.00%       0.000us       0.000us     770.000us         0.62%     770.000us       4.783us           161  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_6...         0.00%       0.000us         0.00%       0.000us       0.000us     703.000us         0.57%     703.000us      50.214us            14  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us     655.000us         0.53%     655.000us      46.786us            14  
                       Memcpy DtoH (Device -> Pageable)         0.00%       0.000us         0.00%       0.000us       0.000us     447.000us         0.36%     447.000us       2.004us           223  
                                             fusion_300         0.00%       0.000us         0.00%       0.000us       0.000us     347.000us         0.28%     347.000us      28.917us            12  
                                             fusion_298         0.00%       0.000us         0.00%       0.000us       0.000us     295.000us         0.24%     295.000us      24.583us            12  
                                             fusion_296         0.00%       0.000us         0.00%       0.000us       0.000us     292.000us         0.24%     292.000us      12.167us            24  
                                             fusion_299         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         0.23%     288.000us      24.000us            12  
                                             fusion_290         0.00%       0.000us         0.00%       0.000us       0.000us     219.000us         0.18%     219.000us     109.500us             2  
                                             fusion_347         0.00%       0.000us         0.00%       0.000us       0.000us     191.000us         0.15%     191.000us      95.500us             2  
                                             fusion_266         0.00%       0.000us         0.00%       0.000us       0.000us     184.000us         0.15%     184.000us      92.000us             2  
                                             fusion_230         0.00%       0.000us         0.00%       0.000us       0.000us     177.000us         0.14%     177.000us      14.750us            12  
                                             fusion_297         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         0.13%     166.000us      13.833us            12  
                                             fusion_349         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         0.13%     166.000us      83.000us             2  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us     162.000us         0.13%     162.000us      32.400us             5  
                                             fusion_147         0.00%       0.000us         0.00%       0.000us       0.000us     151.000us         0.12%     151.000us      75.500us             2  
                                             fusion_146         0.00%       0.000us         0.00%       0.000us       0.000us     151.000us         0.12%     151.000us      75.500us             2  
                                             fusion_338         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         0.12%     147.000us      73.500us             2  
                                             fusion_348         0.00%       0.000us         0.00%       0.000us       0.000us     144.000us         0.12%     144.000us      72.000us             2  
                                             fusion_262         0.00%       0.000us         0.00%       0.000us       0.000us     142.000us         0.11%     142.000us      71.000us             2  
                                             fusion_339         0.00%       0.000us         0.00%       0.000us       0.000us     125.000us         0.10%     125.000us      62.500us             2  
                                             fusion_340         0.00%       0.000us         0.00%       0.000us       0.000us     123.000us         0.10%     123.000us      61.500us             2  
                                             fusion_162         0.00%       0.000us         0.00%       0.000us       0.000us     114.000us         0.09%     114.000us      57.000us             2  
                                             fusion_258         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.09%     110.000us      36.667us             3  
                                             fusion_163         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.09%     110.000us      55.000us             2  
                                             fusion_179         0.00%       0.000us         0.00%       0.000us       0.000us     104.000us         0.08%     104.000us      34.667us             3  
                                             fusion_178         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         0.08%     100.000us      33.333us             3  
                                             fusion_329         0.00%       0.000us         0.00%       0.000us       0.000us      99.000us         0.08%      99.000us      49.500us             2  
                                             fusion_330         0.00%       0.000us         0.00%       0.000us       0.000us      86.000us         0.07%      86.000us      43.000us             2  
                                             fusion_291         0.00%       0.000us         0.00%       0.000us       0.000us      82.000us         0.07%      82.000us      82.000us             1  
                                             fusion_331         0.00%       0.000us         0.00%       0.000us       0.000us      79.000us         0.06%      79.000us      39.500us             2  
                                             fusion_311         0.00%       0.000us         0.00%       0.000us       0.000us      58.000us         0.05%      58.000us      58.000us             1  
                                             fusion_322         0.00%       0.000us         0.00%       0.000us       0.000us      54.000us         0.04%      54.000us      18.000us             3  
                                             fusion_251         0.00%       0.000us         0.00%       0.000us       0.000us      52.000us         0.04%      52.000us      52.000us             1  
                                             fusion_312         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.04%      51.000us      51.000us             1  
                                             fusion_194         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.04%      51.000us      17.000us             3  
                                              fusion_48         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.04%      46.000us      46.000us             1  
                                             fusion_313         0.00%       0.000us         0.00%       0.000us       0.000us      45.000us         0.04%      45.000us      45.000us             1  
                                             fusion_211         0.00%       0.000us         0.00%       0.000us       0.000us      43.000us         0.03%      43.000us      43.000us             1  
                                             fusion_210         0.00%       0.000us         0.00%       0.000us       0.000us      42.000us         0.03%      42.000us      42.000us             1  
                                             fusion_320         0.00%       0.000us         0.00%       0.000us       0.000us      39.000us         0.03%      39.000us      13.000us             3  
                                             fusion_195         0.00%       0.000us         0.00%       0.000us       0.000us      36.000us         0.03%      36.000us      12.000us             3  
                                             fusion_226         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.03%      31.000us      31.000us             1  
                                             fusion_304         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.03%      31.000us      31.000us             1  
                                             fusion_321         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.02%      30.000us      10.000us             3  
                                             fusion_302         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.02%      26.000us      26.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      22.000us         0.02%      22.000us      22.000us             1  
                                             fusion_303         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.02%      21.000us      21.000us             1  
                                             fusion_247         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.01%      18.000us      18.000us             1  
                                             fusion_227         0.00%       0.000us         0.00%       0.000us       0.000us      15.000us         0.01%      15.000us      15.000us             1  
                         Memcpy HtoD (Pinned -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      10.000us         0.01%      10.000us       2.000us             5  
                                             fusion_293         0.00%       0.000us         0.00%       0.000us       0.000us      10.000us         0.01%      10.000us      10.000us             1  
                                             fusion_294         0.00%       0.000us         0.00%       0.000us       0.000us       8.000us         0.01%       8.000us       8.000us             1  
                                             fusion_243         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.00%       6.000us       6.000us             1  
                                             fusion_292         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.00%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup         0.00%       3.000us         0.00%       3.000us       0.167us       0.000us         0.00%       0.000us       0.000us            18  
         _compile.<locals>.compile_inner (dynamo_timed)        12.28%        1.658s        37.87%        5.115s        5.115s       0.000us         0.00%       0.000us       0.000us             1  
                                  cudaStreamIsCapturing         0.02%       2.456ms         0.02%       2.456ms       1.013us       0.000us         0.00%       0.000us       0.000us          2424  
                                            aten::clone         2.49%     335.652ms         2.90%     391.261ms     124.407us       0.000us         0.00%       0.000us       0.000us          3145  
                                    aten::empty_strided         0.47%      63.594ms         0.47%      63.594ms       9.222us       0.000us         0.00%       0.000us       0.000us          6896  
                                            aten::copy_         0.06%       8.691ms         0.06%       8.691ms       4.455us       0.000us         0.00%       0.000us       0.000us          1951  
                                           aten::detach         2.12%     285.848ms         4.07%     549.210ms      71.206us       0.000us         0.00%       0.000us       0.000us          7713  
                                                 detach         0.57%      76.358ms         1.65%     222.728ms     294.225us       0.000us         0.00%       0.000us       0.000us           757  
                                       aten::empty_like         0.01%       1.443ms         0.03%       3.417ms       5.639us       0.000us         0.00%       0.000us       0.000us           606  
                                            aten::empty         0.02%       2.625ms         0.02%       2.625ms       3.983us       0.000us         0.00%       0.000us       0.000us           659  
                                               aten::gt         0.04%       4.947ms         0.05%       7.286ms     809.556us       0.000us         0.00%       0.000us       0.000us             9  
                                              prims::gt         0.00%     212.000us         0.00%     451.000us     451.000us       0.000us         0.00%       0.000us       0.000us             1  
                                   aten::empty_permuted         0.00%     485.000us         0.01%       1.073ms      48.773us       0.000us         0.00%       0.000us       0.000us            22  
                                       aten::as_strided         0.07%      10.043ms         0.08%      10.151ms       6.910us       0.000us         0.00%       0.000us       0.000us          1469  
                                        aten::unsqueeze         0.05%       6.710ms         0.10%      13.222ms     413.188us       0.000us         0.00%       0.000us       0.000us            32  
                                prims::broadcast_in_dim         0.05%       6.346ms         0.06%       7.624ms      64.610us       0.000us         0.00%       0.000us       0.000us           118  
                                             aten::set_         0.39%      52.246ms         0.45%      60.391ms      14.406us       0.000us         0.00%       0.000us       0.000us          4192  
                                           aten::repeat         0.02%       2.879ms         0.03%       3.906ms     434.000us       0.000us         0.00%       0.000us       0.000us             9  
                                        aten::new_empty         0.01%       2.018ms         0.02%       2.339ms     179.923us       0.000us         0.00%       0.000us       0.000us            13  
                                        aten::embedding         0.04%       5.174ms         0.08%      10.829ms     676.812us       0.000us         0.00%       0.000us       0.000us            16  
                                            aten::index         0.01%       2.002ms         0.03%       4.479ms     559.875us       0.000us         0.00%       0.000us       0.000us             8  
                                               aten::to         0.01%       1.551ms         0.05%       6.664ms      27.424us       0.000us         0.00%       0.000us       0.000us           243  
                                            aten::slice         0.04%       5.717ms         0.08%      11.046ms     368.200us       0.000us         0.00%       0.000us       0.000us            30  
                                              aten::add         1.85%     249.878ms         2.29%     308.608ms     299.619us       0.000us         0.00%       0.000us       0.000us          1030  
                                           aten::expand         0.82%     111.179ms         1.65%     222.525ms     325.329us       0.000us         0.00%       0.000us       0.000us           684  
                                             prims::add         0.00%     582.000us         0.01%     821.000us     136.833us       0.000us         0.00%       0.000us       0.000us             6  
                                          aten::dropout         0.03%       4.285ms         0.81%     109.953ms     597.571us       0.000us         0.00%       0.000us       0.000us           184  
                                           prims::clone         0.00%     440.000us         0.00%     520.000us      86.667us       0.000us         0.00%       0.000us       0.000us             6  
                                             aten::mean         0.35%      46.992ms         0.42%      57.317ms     339.154us       0.000us         0.00%       0.000us       0.000us           169  
                                             prims::sum         0.00%     233.000us         0.00%     276.000us     138.000us       0.000us         0.00%       0.000us       0.000us             2  
                                             prims::div         0.00%     394.000us         0.00%     559.000us     139.750us       0.000us         0.00%       0.000us       0.000us             4  
                                              aten::std         0.38%      51.715ms         0.47%      63.593ms     374.076us       0.000us         0.00%       0.000us       0.000us           170  
                                              aten::var         0.00%     173.000us         0.00%     395.000us     395.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             prims::var         0.00%     141.000us         0.00%     156.000us     156.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             aten::sqrt         0.00%     138.000us         0.00%     275.000us     275.000us       0.000us         0.00%       0.000us       0.000us             1  
                                            prims::sqrt         0.00%      86.000us         0.00%     137.000us     137.000us       0.000us         0.00%       0.000us       0.000us             1  
                                              aten::sub         0.32%      43.366ms         0.40%      54.108ms     316.421us       0.000us         0.00%       0.000us       0.000us           171  
                                             prims::sub         0.00%     228.000us         0.00%     305.000us     152.500us       0.000us         0.00%       0.000us       0.000us             2  
                                              aten::mul         0.31%      41.369ms         0.38%      51.698ms     300.570us       0.000us         0.00%       0.000us       0.000us           172  
                                             prims::mul         0.00%     320.000us         0.00%     459.000us     114.750us       0.000us         0.00%       0.000us       0.000us             4  
                                              aten::div         0.48%      65.364ms         0.60%      81.575ms     318.652us       0.000us         0.00%       0.000us       0.000us           256  
                                           aten::linear         0.30%      41.007ms         7.50%        1.013s       4.688ms       0.000us         0.00%       0.000us       0.000us           216  
                                                aten::t         0.98%     132.349ms         2.05%     276.330ms     273.323us       0.000us         0.00%       0.000us       0.000us          1011  
                                        aten::transpose         1.01%     136.206ms         1.98%     267.171ms     221.535us       0.000us         0.00%       0.000us       0.000us          1206  
                                          aten::permute         0.07%      10.045ms         0.16%      21.210ms      78.556us       0.000us         0.00%       0.000us       0.000us           270  
                                       prims::transpose         0.06%       8.518ms         0.08%      11.165ms      41.352us       0.000us         0.00%       0.000us       0.000us           270  
                                           aten::matmul         1.80%     242.619ms        10.19%        1.377s       4.780ms       0.000us         0.00%       0.000us       0.000us           288  
                                          aten::reshape         0.72%      97.367ms         4.34%     586.210ms       1.628ms       0.000us         0.00%       0.000us       0.000us           360  
                                             aten::view         3.75%     505.779ms         7.12%     961.372ms     287.578us       0.000us         0.00%       0.000us       0.000us          3343  
                                   prims::collapse_view         0.05%       6.571ms         0.06%       8.458ms      42.717us       0.000us         0.00%       0.000us       0.000us           198  
                                               aten::mm         0.89%     120.087ms         1.10%     147.958ms     290.114us       0.000us         0.00%       0.000us       0.000us           510  
                                       prims::split_dim         0.06%       8.568ms         0.08%      11.071ms      41.156us       0.000us         0.00%       0.000us       0.000us           269  
                                     aten::_unsafe_view         0.48%      64.971ms         0.79%     106.868ms     424.079us       0.000us         0.00%       0.000us       0.000us           252  
                                              aten::bmm         0.30%      40.273ms         0.37%      49.949ms     293.818us       0.000us         0.00%       0.000us       0.000us           170  
                                               aten::eq         0.15%      20.643ms         0.24%      32.917ms     387.259us       0.000us         0.00%       0.000us       0.000us            85  
                                         aten::_to_copy         0.03%       4.103ms         0.04%       5.124ms      43.059us       0.000us         0.00%       0.000us       0.000us           119  
                            prims::convert_element_type         0.00%      87.000us         0.00%     102.000us     102.000us       0.000us         0.00%       0.000us       0.000us             1  
                                              prims::eq         0.00%     125.000us         0.00%     170.000us     170.000us       0.000us         0.00%       0.000us       0.000us             1  
                                      aten::masked_fill         0.17%      23.018ms         0.22%      29.072ms     342.024us       0.000us         0.00%       0.000us       0.000us            85  
                                            aten::where         0.00%     239.000us         0.00%     604.000us     604.000us       0.000us         0.00%       0.000us       0.000us             1  
                                           prims::where         0.00%     161.000us         0.00%     219.000us     219.000us       0.000us         0.00%       0.000us       0.000us             1  
                                          aten::softmax         0.01%       1.464ms         0.21%      28.553ms     793.139us       0.000us         0.00%       0.000us       0.000us            36  
                                         aten::_softmax         0.15%      20.046ms         0.22%      29.420ms     350.238us       0.000us         0.00%       0.000us       0.000us            84  
                                             aten::amax         0.01%     749.000us         0.01%       1.353ms     676.500us       0.000us         0.00%       0.000us       0.000us             2  
                                            prims::amax         0.00%     148.000us         0.00%     163.000us     163.000us       0.000us         0.00%       0.000us       0.000us             1  
                                              aten::exp         0.01%     737.000us         0.01%       1.196ms     598.000us       0.000us         0.00%       0.000us       0.000us             2  
                                             prims::exp         0.00%     116.000us         0.00%     149.000us     149.000us       0.000us         0.00%       0.000us       0.000us             1  
                                              aten::sum         0.01%     714.000us         0.01%       1.112ms     556.000us       0.000us         0.00%       0.000us       0.000us             2  
                                       aten::contiguous         0.02%       3.141ms         0.18%      24.680ms     685.556us       0.000us         0.00%       0.000us       0.000us            36  
                                             aten::gelu         0.15%      19.774ms         0.20%      26.451ms     311.188us       0.000us         0.00%       0.000us       0.000us            85  
                                              aten::erf         0.00%     129.000us         0.00%     247.000us     247.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             prims::erf         0.00%      91.000us         0.00%     118.000us     118.000us       0.000us         0.00%       0.000us       0.000us             1  
          OutputGraph.call_user_compiler (dynamo_timed)         0.05%       6.676ms        22.47%        3.035s        3.035s       0.000us         0.00%       0.000us       0.000us             1  
          create_aot_dispatcher_function (dynamo_timed)         3.57%     482.538ms        22.42%        3.028s        3.028s       0.000us         0.00%       0.000us       0.000us             1  
                                       aten::lift_fresh         0.03%       4.585ms         0.04%       5.229ms     217.875us       0.000us         0.00%       0.000us       0.000us            24  
                                          aten::detach_         0.00%     282.000us         0.00%     285.000us      23.750us       0.000us         0.00%       0.000us       0.000us            12  
                                                detach_         0.00%       3.000us         0.00%       3.000us       0.250us       0.000us         0.00%       0.000us       0.000us            12  
                               aten::sym_storage_offset         0.05%       6.152ms         0.05%       6.152ms       7.430us       0.000us         0.00%       0.000us       0.000us           828  
                                        aten::sym_numel         0.06%       8.734ms         0.06%       8.734ms       9.748us       0.000us         0.00%       0.000us       0.000us           896  
                                          is_contiguous         0.00%      47.000us         0.00%      47.000us       0.151us       0.000us         0.00%       0.000us       0.000us           312  
                                            aten::alias         0.00%     452.000us         0.02%       2.986ms      93.312us       0.000us         0.00%       0.000us       0.000us            32  
                                         prims::view_of         0.00%     627.000us         0.01%     923.000us      28.844us       0.000us         0.00%       0.000us       0.000us            32  
                                   aten::unsqueeze_copy         0.00%      97.000us         0.00%      97.000us      16.167us       0.000us         0.00%       0.000us       0.000us             6  
                                    aten::scalar_tensor         0.00%     143.000us         0.00%     143.000us       3.405us       0.000us         0.00%       0.000us       0.000us            42  
                                       aten::slice_copy         0.00%     115.000us         0.00%     115.000us      19.167us       0.000us         0.00%       0.000us       0.000us             6  
                                      aten::result_type         0.00%     153.000us         0.00%     153.000us       0.128us       0.000us         0.00%       0.000us       0.000us          1200  
                                             aten::item         0.00%     166.000us         0.00%     200.000us       1.852us       0.000us         0.00%       0.000us       0.000us           108  
                              aten::_local_scalar_dense         0.00%      39.000us         0.00%      39.000us       0.361us       0.000us         0.00%       0.000us       0.000us           108  
                                           aten::t_copy         0.01%       1.609ms         0.01%       1.609ms       7.449us       0.000us         0.00%       0.000us       0.000us           216  
                                        aten::view_copy         0.04%       5.448ms         0.04%       5.448ms       7.965us       0.000us         0.00%       0.000us       0.000us           684  
                                   aten::transpose_copy         0.02%       2.049ms         0.02%       2.049ms      11.383us       0.000us         0.00%       0.000us       0.000us           180  
                                      aten::expand_copy         0.01%       1.779ms         0.01%       1.779ms      12.354us       0.000us         0.00%       0.000us       0.000us           144  
                                    cudaPeekAtLastError         0.00%      13.000us         0.00%      13.000us       0.032us       0.000us         0.00%       0.000us       0.000us           403  
                                               cudaFree         0.00%       2.000us         0.00%       2.000us       2.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             cudaMalloc         0.00%     265.000us         0.00%     265.000us      88.333us       0.000us         0.00%       0.000us       0.000us             3  
                                         cuLaunchKernel         0.02%       2.596ms         0.02%       2.596ms       4.627us       0.000us         0.00%       0.000us       0.000us           561  
cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFla...         1.30%     175.116ms         1.30%     175.116ms       1.337ms       0.000us         0.00%       0.000us       0.000us           131  
                                   cudaFuncSetAttribute         0.00%      37.000us         0.00%      37.000us       0.500us       0.000us         0.00%       0.000us       0.000us            74  
                                       cudaLaunchKernel         0.00%     443.000us         0.00%     443.000us       5.986us       0.000us         0.00%       0.000us       0.000us            74  
                                    cudaGetFuncBySymbol         0.00%     332.000us         0.00%     332.000us       7.064us       0.000us         0.00%       0.000us       0.000us            47  
                                  cudaDeviceSynchronize         0.00%      19.000us         0.00%      19.000us      19.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 13.505s
Self CUDA time total: 123.836ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       3.520ms        21.86%       3.520ms     146.667us            24  
                                      triton_gemm_dot_0         0.00%       0.000us         0.00%       0.000us       0.000us       3.093ms        19.21%       3.093ms      85.917us            36  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       2.412ms        14.98%       2.412ms     201.000us            12  
                                             fusion_225         0.00%       0.000us         0.00%       0.000us       0.000us     995.000us         6.18%     995.000us      82.917us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_6...         0.00%       0.000us         0.00%       0.000us       0.000us     599.000us         3.72%     599.000us      49.917us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us     564.000us         3.50%     564.000us      47.000us            12  
                                             fusion_300         0.00%       0.000us         0.00%       0.000us       0.000us     347.000us         2.16%     347.000us      28.917us            12  
                                             fusion_296         0.00%       0.000us         0.00%       0.000us       0.000us     292.000us         1.81%     292.000us      12.167us            24  
                                             fusion_298         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_299         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_290         0.00%       0.000us         0.00%       0.000us       0.000us     219.000us         1.36%     219.000us     109.500us             2  
                                             fusion_347         0.00%       0.000us         0.00%       0.000us       0.000us     190.000us         1.18%     190.000us      95.000us             2  
                                             fusion_266         0.00%       0.000us         0.00%       0.000us       0.000us     185.000us         1.15%     185.000us      92.500us             2  
                                             fusion_230         0.00%       0.000us         0.00%       0.000us       0.000us     177.000us         1.10%     177.000us      14.750us            12  
                                             fusion_297         0.00%       0.000us         0.00%       0.000us       0.000us     167.000us         1.04%     167.000us      13.917us            12  
                                             fusion_349         0.00%       0.000us         0.00%       0.000us       0.000us     165.000us         1.02%     165.000us      82.500us             2  
                                             fusion_147         0.00%       0.000us         0.00%       0.000us       0.000us     152.000us         0.94%     152.000us      76.000us             2  
                                             fusion_146         0.00%       0.000us         0.00%       0.000us       0.000us     150.000us         0.93%     150.000us      75.000us             2  
                                             fusion_338         0.00%       0.000us         0.00%       0.000us       0.000us     146.000us         0.91%     146.000us      73.000us             2  
                                             fusion_348         0.00%       0.000us         0.00%       0.000us       0.000us     146.000us         0.91%     146.000us      73.000us             2  
                                             fusion_262         0.00%       0.000us         0.00%       0.000us       0.000us     140.000us         0.87%     140.000us      70.000us             2  
                                             fusion_339         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_340         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_162         0.00%       0.000us         0.00%       0.000us       0.000us     114.000us         0.71%     114.000us      57.000us             2  
                                             fusion_163         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.68%     110.000us      55.000us             2  
                                             fusion_258         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         0.67%     108.000us      36.000us             3  
                                             fusion_179         0.00%       0.000us         0.00%       0.000us       0.000us     105.000us         0.65%     105.000us      35.000us             3  
                                             fusion_178         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         0.62%     100.000us      33.333us             3  
                                             fusion_329         0.00%       0.000us         0.00%       0.000us       0.000us      98.000us         0.61%      98.000us      49.000us             2  
                                             fusion_330         0.00%       0.000us         0.00%       0.000us       0.000us      86.000us         0.53%      86.000us      43.000us             2  
                                             fusion_291         0.00%       0.000us         0.00%       0.000us       0.000us      82.000us         0.51%      82.000us      82.000us             1  
                                             fusion_331         0.00%       0.000us         0.00%       0.000us       0.000us      80.000us         0.50%      80.000us      40.000us             2  
                                             fusion_311         0.00%       0.000us         0.00%       0.000us       0.000us      57.000us         0.35%      57.000us      57.000us             1  
                                             fusion_322         0.00%       0.000us         0.00%       0.000us       0.000us      54.000us         0.34%      54.000us      18.000us             3  
                                             fusion_251         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      51.000us             1  
                                             fusion_194         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      17.000us             3  
                                             fusion_312         0.00%       0.000us         0.00%       0.000us       0.000us      50.000us         0.31%      50.000us      50.000us             1  
                                              fusion_48         0.00%       0.000us         0.00%       0.000us       0.000us      45.000us         0.28%      45.000us      45.000us             1  
                                             fusion_211         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_313         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_210         0.00%       0.000us         0.00%       0.000us       0.000us      42.000us         0.26%      42.000us      42.000us             1  
                                             fusion_320         0.00%       0.000us         0.00%       0.000us       0.000us      39.000us         0.24%      39.000us      13.000us             3  
                                             fusion_195         0.00%       0.000us         0.00%       0.000us       0.000us      37.000us         0.23%      37.000us      12.333us             3  
                                             fusion_226         0.00%       0.000us         0.00%       0.000us       0.000us      32.000us         0.20%      32.000us      32.000us             1  
                                             fusion_304         0.00%       0.000us         0.00%       0.000us       0.000us      32.000us         0.20%      32.000us      32.000us             1  
                                             fusion_321         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.19%      31.000us      10.333us             3  
                                             fusion_302         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.16%      25.000us      25.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.13%      21.000us      21.000us             1  
                                             fusion_303         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.12%      20.000us      20.000us             1  
                                             fusion_247         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.11%      18.000us      18.000us             1  
                                             fusion_227         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.09%      14.000us      14.000us             1  
                                             fusion_293         0.00%       0.000us         0.00%       0.000us       0.000us      10.000us         0.06%      10.000us      10.000us             1  
                                             fusion_294         0.00%       0.000us         0.00%       0.000us       0.000us       8.000us         0.05%       8.000us       8.000us             1  
                                             fusion_243         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.04%       6.000us       6.000us             1  
                                             fusion_292         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.01%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        11.59%     193.000us        11.59%     193.000us     193.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        49.91%     831.000us        49.91%     831.000us     831.000us       0.000us         0.00%       0.000us       0.000us             1  
cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFla...         3.42%      57.000us         3.42%      57.000us       0.950us       0.000us         0.00%       0.000us       0.000us            60  
                                   cudaFuncSetAttribute         1.08%      18.000us         1.08%      18.000us       0.300us       0.000us         0.00%       0.000us       0.000us            60  
                                       cudaLaunchKernel        18.98%     316.000us        18.98%     316.000us       5.267us       0.000us         0.00%       0.000us       0.000us            60  
                                         cuLaunchKernel        13.81%     230.000us        13.81%     230.000us       3.710us       0.000us         0.00%       0.000us       0.000us            62  
                                  cudaDeviceSynchronize         1.20%      20.000us         1.20%      20.000us      20.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.665ms
Self CUDA time total: 16.099ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       3.520ms        21.88%       3.520ms     146.667us            24  
                                      triton_gemm_dot_0         0.00%       0.000us         0.00%       0.000us       0.000us       3.084ms        19.17%       3.084ms      85.667us            36  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       2.412ms        15.00%       2.412ms     201.000us            12  
                                             fusion_225         0.00%       0.000us         0.00%       0.000us       0.000us     991.000us         6.16%     991.000us      82.583us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_6...         0.00%       0.000us         0.00%       0.000us       0.000us     599.000us         3.72%     599.000us      49.917us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us     556.000us         3.46%     556.000us      46.333us            12  
                                             fusion_300         0.00%       0.000us         0.00%       0.000us       0.000us     346.000us         2.15%     346.000us      28.833us            12  
                                             fusion_296         0.00%       0.000us         0.00%       0.000us       0.000us     292.000us         1.82%     292.000us      12.167us            24  
                                             fusion_298         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_299         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_290         0.00%       0.000us         0.00%       0.000us       0.000us     220.000us         1.37%     220.000us     110.000us             2  
                                             fusion_347         0.00%       0.000us         0.00%       0.000us       0.000us     190.000us         1.18%     190.000us      95.000us             2  
                                             fusion_266         0.00%       0.000us         0.00%       0.000us       0.000us     184.000us         1.14%     184.000us      92.000us             2  
                                             fusion_230         0.00%       0.000us         0.00%       0.000us       0.000us     176.000us         1.09%     176.000us      14.667us            12  
                                             fusion_297         0.00%       0.000us         0.00%       0.000us       0.000us     168.000us         1.04%     168.000us      14.000us            12  
                                             fusion_349         0.00%       0.000us         0.00%       0.000us       0.000us     165.000us         1.03%     165.000us      82.500us             2  
                                             fusion_147         0.00%       0.000us         0.00%       0.000us       0.000us     152.000us         0.94%     152.000us      76.000us             2  
                                             fusion_146         0.00%       0.000us         0.00%       0.000us       0.000us     150.000us         0.93%     150.000us      75.000us             2  
                                             fusion_338         0.00%       0.000us         0.00%       0.000us       0.000us     146.000us         0.91%     146.000us      73.000us             2  
                                             fusion_348         0.00%       0.000us         0.00%       0.000us       0.000us     145.000us         0.90%     145.000us      72.500us             2  
                                             fusion_262         0.00%       0.000us         0.00%       0.000us       0.000us     142.000us         0.88%     142.000us      71.000us             2  
                                             fusion_339         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_340         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_162         0.00%       0.000us         0.00%       0.000us       0.000us     115.000us         0.71%     115.000us      57.500us             2  
                                             fusion_258         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.68%     110.000us      36.667us             3  
                                             fusion_163         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.68%     110.000us      55.000us             2  
                                             fusion_179         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         0.67%     108.000us      36.000us             3  
                                             fusion_178         0.00%       0.000us         0.00%       0.000us       0.000us      99.000us         0.62%      99.000us      33.000us             3  
                                             fusion_329         0.00%       0.000us         0.00%       0.000us       0.000us      98.000us         0.61%      98.000us      49.000us             2  
                                             fusion_330         0.00%       0.000us         0.00%       0.000us       0.000us      86.000us         0.53%      86.000us      43.000us             2  
                                             fusion_291         0.00%       0.000us         0.00%       0.000us       0.000us      82.000us         0.51%      82.000us      82.000us             1  
                                             fusion_331         0.00%       0.000us         0.00%       0.000us       0.000us      81.000us         0.50%      81.000us      40.500us             2  
                                             fusion_311         0.00%       0.000us         0.00%       0.000us       0.000us      58.000us         0.36%      58.000us      58.000us             1  
                                             fusion_322         0.00%       0.000us         0.00%       0.000us       0.000us      54.000us         0.34%      54.000us      18.000us             3  
                                             fusion_251         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      51.000us             1  
                                             fusion_312         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      51.000us             1  
                                             fusion_194         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      17.000us             3  
                                              fusion_48         0.00%       0.000us         0.00%       0.000us       0.000us      45.000us         0.28%      45.000us      45.000us             1  
                                             fusion_211         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_313         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_210         0.00%       0.000us         0.00%       0.000us       0.000us      43.000us         0.27%      43.000us      43.000us             1  
                                             fusion_320         0.00%       0.000us         0.00%       0.000us       0.000us      39.000us         0.24%      39.000us      13.000us             3  
                                             fusion_195         0.00%       0.000us         0.00%       0.000us       0.000us      37.000us         0.23%      37.000us      12.333us             3  
                                             fusion_226         0.00%       0.000us         0.00%       0.000us       0.000us      32.000us         0.20%      32.000us      32.000us             1  
                                             fusion_304         0.00%       0.000us         0.00%       0.000us       0.000us      32.000us         0.20%      32.000us      32.000us             1  
                                             fusion_321         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.19%      30.000us      10.000us             3  
                                             fusion_302         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.16%      25.000us      25.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.13%      21.000us      21.000us             1  
                                             fusion_303         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.12%      20.000us      20.000us             1  
                                             fusion_247         0.00%       0.000us         0.00%       0.000us       0.000us      17.000us         0.11%      17.000us      17.000us             1  
                                             fusion_227         0.00%       0.000us         0.00%       0.000us       0.000us      15.000us         0.09%      15.000us      15.000us             1  
                                             fusion_293         0.00%       0.000us         0.00%       0.000us       0.000us       9.000us         0.06%       9.000us       9.000us             1  
                                             fusion_294         0.00%       0.000us         0.00%       0.000us       0.000us       8.000us         0.05%       8.000us       8.000us             1  
                                             fusion_243         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.04%       6.000us       6.000us             1  
                                             fusion_292         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.01%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        11.77%     168.000us        11.77%     168.000us     168.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        50.53%     721.000us        50.53%     721.000us     721.000us       0.000us         0.00%       0.000us       0.000us             1  
cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFla...         0.42%       6.000us         0.42%       6.000us       0.100us       0.000us         0.00%       0.000us       0.000us            60  
                                   cudaFuncSetAttribute         0.14%       2.000us         0.14%       2.000us       0.033us       0.000us         0.00%       0.000us       0.000us            60  
                                       cudaLaunchKernel        19.76%     282.000us        19.76%     282.000us       4.700us       0.000us         0.00%       0.000us       0.000us            60  
                                         cuLaunchKernel        16.12%     230.000us        16.12%     230.000us       3.710us       0.000us         0.00%       0.000us       0.000us            62  
                                  cudaDeviceSynchronize         1.26%      18.000us         1.26%      18.000us      18.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.427ms
Self CUDA time total: 16.085ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       3.521ms        21.89%       3.521ms     146.708us            24  
                                      triton_gemm_dot_0         0.00%       0.000us         0.00%       0.000us       0.000us       3.088ms        19.20%       3.088ms      85.778us            36  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       2.412ms        14.99%       2.412ms     201.000us            12  
                                             fusion_225         0.00%       0.000us         0.00%       0.000us       0.000us     994.000us         6.18%     994.000us      82.833us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_6...         0.00%       0.000us         0.00%       0.000us       0.000us     600.000us         3.73%     600.000us      50.000us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us     559.000us         3.47%     559.000us      46.583us            12  
                                             fusion_300         0.00%       0.000us         0.00%       0.000us       0.000us     348.000us         2.16%     348.000us      29.000us            12  
                                             fusion_296         0.00%       0.000us         0.00%       0.000us       0.000us     290.000us         1.80%     290.000us      12.083us            24  
                                             fusion_298         0.00%       0.000us         0.00%       0.000us       0.000us     289.000us         1.80%     289.000us      24.083us            12  
                                             fusion_299         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_290         0.00%       0.000us         0.00%       0.000us       0.000us     220.000us         1.37%     220.000us     110.000us             2  
                                             fusion_347         0.00%       0.000us         0.00%       0.000us       0.000us     190.000us         1.18%     190.000us      95.000us             2  
                                             fusion_266         0.00%       0.000us         0.00%       0.000us       0.000us     185.000us         1.15%     185.000us      92.500us             2  
                                             fusion_230         0.00%       0.000us         0.00%       0.000us       0.000us     175.000us         1.09%     175.000us      14.583us            12  
                                             fusion_297         0.00%       0.000us         0.00%       0.000us       0.000us     167.000us         1.04%     167.000us      13.917us            12  
                                             fusion_349         0.00%       0.000us         0.00%       0.000us       0.000us     164.000us         1.02%     164.000us      82.000us             2  
                                             fusion_147         0.00%       0.000us         0.00%       0.000us       0.000us     152.000us         0.94%     152.000us      76.000us             2  
                                             fusion_146         0.00%       0.000us         0.00%       0.000us       0.000us     150.000us         0.93%     150.000us      75.000us             2  
                                             fusion_338         0.00%       0.000us         0.00%       0.000us       0.000us     146.000us         0.91%     146.000us      73.000us             2  
                                             fusion_348         0.00%       0.000us         0.00%       0.000us       0.000us     144.000us         0.90%     144.000us      72.000us             2  
                                             fusion_262         0.00%       0.000us         0.00%       0.000us       0.000us     140.000us         0.87%     140.000us      70.000us             2  
                                             fusion_340         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_339         0.00%       0.000us         0.00%       0.000us       0.000us     123.000us         0.76%     123.000us      61.500us             2  
                                             fusion_162         0.00%       0.000us         0.00%       0.000us       0.000us     114.000us         0.71%     114.000us      57.000us             2  
                                             fusion_258         0.00%       0.000us         0.00%       0.000us       0.000us     111.000us         0.69%     111.000us      37.000us             3  
                                             fusion_163         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.68%     110.000us      55.000us             2  
                                             fusion_179         0.00%       0.000us         0.00%       0.000us       0.000us     105.000us         0.65%     105.000us      35.000us             3  
                                             fusion_178         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         0.62%     100.000us      33.333us             3  
                                             fusion_329         0.00%       0.000us         0.00%       0.000us       0.000us      99.000us         0.62%      99.000us      49.500us             2  
                                             fusion_330         0.00%       0.000us         0.00%       0.000us       0.000us      86.000us         0.53%      86.000us      43.000us             2  
                                             fusion_291         0.00%       0.000us         0.00%       0.000us       0.000us      82.000us         0.51%      82.000us      82.000us             1  
                                             fusion_331         0.00%       0.000us         0.00%       0.000us       0.000us      80.000us         0.50%      80.000us      40.000us             2  
                                             fusion_311         0.00%       0.000us         0.00%       0.000us       0.000us      58.000us         0.36%      58.000us      58.000us             1  
                                             fusion_322         0.00%       0.000us         0.00%       0.000us       0.000us      53.000us         0.33%      53.000us      17.667us             3  
                                             fusion_251         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      51.000us             1  
                                             fusion_194         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      17.000us             3  
                                             fusion_312         0.00%       0.000us         0.00%       0.000us       0.000us      50.000us         0.31%      50.000us      50.000us             1  
                                             fusion_313         0.00%       0.000us         0.00%       0.000us       0.000us      45.000us         0.28%      45.000us      45.000us             1  
                                              fusion_48         0.00%       0.000us         0.00%       0.000us       0.000us      45.000us         0.28%      45.000us      45.000us             1  
                                             fusion_211         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_210         0.00%       0.000us         0.00%       0.000us       0.000us      42.000us         0.26%      42.000us      42.000us             1  
                                             fusion_320         0.00%       0.000us         0.00%       0.000us       0.000us      39.000us         0.24%      39.000us      13.000us             3  
                                             fusion_195         0.00%       0.000us         0.00%       0.000us       0.000us      36.000us         0.22%      36.000us      12.000us             3  
                                             fusion_226         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.19%      31.000us      31.000us             1  
                                             fusion_304         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.19%      31.000us      31.000us             1  
                                             fusion_321         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.19%      30.000us      10.000us             3  
                                             fusion_302         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.16%      25.000us      25.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.13%      21.000us      21.000us             1  
                                             fusion_303         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.12%      20.000us      20.000us             1  
                                             fusion_247         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.12%      19.000us      19.000us             1  
                                             fusion_227         0.00%       0.000us         0.00%       0.000us       0.000us      15.000us         0.09%      15.000us      15.000us             1  
                                             fusion_293         0.00%       0.000us         0.00%       0.000us       0.000us       9.000us         0.06%       9.000us       9.000us             1  
                                             fusion_294         0.00%       0.000us         0.00%       0.000us       0.000us       8.000us         0.05%       8.000us       8.000us             1  
                                             fusion_243         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.04%       6.000us       6.000us             1  
                                             fusion_292         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.01%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        11.01%     155.000us        11.01%     155.000us     155.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        50.71%     714.000us        50.71%     714.000us     714.000us       0.000us         0.00%       0.000us       0.000us             1  
cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFla...         0.43%       6.000us         0.43%       6.000us       0.100us       0.000us         0.00%       0.000us       0.000us            60  
                                   cudaFuncSetAttribute         0.14%       2.000us         0.14%       2.000us       0.033us       0.000us         0.00%       0.000us       0.000us            60  
                                       cudaLaunchKernel        19.60%     276.000us        19.60%     276.000us       4.600us       0.000us         0.00%       0.000us       0.000us            60  
                                         cuLaunchKernel        16.76%     236.000us        16.76%     236.000us       3.806us       0.000us         0.00%       0.000us       0.000us            62  
                                  cudaDeviceSynchronize         1.35%      19.000us         1.35%      19.000us      19.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.408ms
Self CUDA time total: 16.087ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       3.516ms        21.86%       3.516ms     146.500us            24  
                                      triton_gemm_dot_0         0.00%       0.000us         0.00%       0.000us       0.000us       3.087ms        19.19%       3.087ms      85.750us            36  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       2.412ms        15.00%       2.412ms     201.000us            12  
                                             fusion_225         0.00%       0.000us         0.00%       0.000us       0.000us     993.000us         6.17%     993.000us      82.750us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_6...         0.00%       0.000us         0.00%       0.000us       0.000us     601.000us         3.74%     601.000us      50.083us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us     556.000us         3.46%     556.000us      46.333us            12  
                                             fusion_300         0.00%       0.000us         0.00%       0.000us       0.000us     349.000us         2.17%     349.000us      29.083us            12  
                                             fusion_296         0.00%       0.000us         0.00%       0.000us       0.000us     291.000us         1.81%     291.000us      12.125us            24  
                                             fusion_298         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_299         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_290         0.00%       0.000us         0.00%       0.000us       0.000us     220.000us         1.37%     220.000us     110.000us             2  
                                             fusion_347         0.00%       0.000us         0.00%       0.000us       0.000us     189.000us         1.18%     189.000us      94.500us             2  
                                             fusion_266         0.00%       0.000us         0.00%       0.000us       0.000us     185.000us         1.15%     185.000us      92.500us             2  
                                             fusion_230         0.00%       0.000us         0.00%       0.000us       0.000us     177.000us         1.10%     177.000us      14.750us            12  
                                             fusion_297         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         1.03%     166.000us      13.833us            12  
                                             fusion_349         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         1.03%     166.000us      83.000us             2  
                                             fusion_147         0.00%       0.000us         0.00%       0.000us       0.000us     153.000us         0.95%     153.000us      76.500us             2  
                                             fusion_146         0.00%       0.000us         0.00%       0.000us       0.000us     150.000us         0.93%     150.000us      75.000us             2  
                                             fusion_338         0.00%       0.000us         0.00%       0.000us       0.000us     146.000us         0.91%     146.000us      73.000us             2  
                                             fusion_348         0.00%       0.000us         0.00%       0.000us       0.000us     145.000us         0.90%     145.000us      72.500us             2  
                                             fusion_262         0.00%       0.000us         0.00%       0.000us       0.000us     141.000us         0.88%     141.000us      70.500us             2  
                                             fusion_339         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_340         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_162         0.00%       0.000us         0.00%       0.000us       0.000us     113.000us         0.70%     113.000us      56.500us             2  
                                             fusion_258         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.68%     110.000us      36.667us             3  
                                             fusion_163         0.00%       0.000us         0.00%       0.000us       0.000us     109.000us         0.68%     109.000us      54.500us             2  
                                             fusion_179         0.00%       0.000us         0.00%       0.000us       0.000us     106.000us         0.66%     106.000us      35.333us             3  
                                             fusion_178         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         0.62%     100.000us      33.333us             3  
                                             fusion_329         0.00%       0.000us         0.00%       0.000us       0.000us      98.000us         0.61%      98.000us      49.000us             2  
                                             fusion_330         0.00%       0.000us         0.00%       0.000us       0.000us      86.000us         0.53%      86.000us      43.000us             2  
                                             fusion_291         0.00%       0.000us         0.00%       0.000us       0.000us      82.000us         0.51%      82.000us      82.000us             1  
                                             fusion_331         0.00%       0.000us         0.00%       0.000us       0.000us      80.000us         0.50%      80.000us      40.000us             2  
                                             fusion_311         0.00%       0.000us         0.00%       0.000us       0.000us      58.000us         0.36%      58.000us      58.000us             1  
                                             fusion_322         0.00%       0.000us         0.00%       0.000us       0.000us      53.000us         0.33%      53.000us      17.667us             3  
                                             fusion_251         0.00%       0.000us         0.00%       0.000us       0.000us      52.000us         0.32%      52.000us      52.000us             1  
                                             fusion_194         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      17.000us             3  
                                             fusion_312         0.00%       0.000us         0.00%       0.000us       0.000us      50.000us         0.31%      50.000us      50.000us             1  
                                              fusion_48         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.29%      46.000us      46.000us             1  
                                             fusion_211         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_313         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_210         0.00%       0.000us         0.00%       0.000us       0.000us      43.000us         0.27%      43.000us      43.000us             1  
                                             fusion_320         0.00%       0.000us         0.00%       0.000us       0.000us      39.000us         0.24%      39.000us      13.000us             3  
                                             fusion_195         0.00%       0.000us         0.00%       0.000us       0.000us      36.000us         0.22%      36.000us      12.000us             3  
                                             fusion_304         0.00%       0.000us         0.00%       0.000us       0.000us      32.000us         0.20%      32.000us      32.000us             1  
                                             fusion_226         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.19%      31.000us      31.000us             1  
                                             fusion_321         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.19%      30.000us      10.000us             3  
                                             fusion_302         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.16%      25.000us      25.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.13%      21.000us      21.000us             1  
                                             fusion_303         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.12%      20.000us      20.000us             1  
                                             fusion_247         0.00%       0.000us         0.00%       0.000us       0.000us      17.000us         0.11%      17.000us      17.000us             1  
                                             fusion_227         0.00%       0.000us         0.00%       0.000us       0.000us      15.000us         0.09%      15.000us      15.000us             1  
                                             fusion_293         0.00%       0.000us         0.00%       0.000us       0.000us       9.000us         0.06%       9.000us       9.000us             1  
                                             fusion_294         0.00%       0.000us         0.00%       0.000us       0.000us       8.000us         0.05%       8.000us       8.000us             1  
                                             fusion_243         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.04%       6.000us       6.000us             1  
                                             fusion_292         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.01%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        10.50%     155.000us        10.50%     155.000us     155.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        53.46%     789.000us        53.46%     789.000us     789.000us       0.000us         0.00%       0.000us       0.000us             1  
cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFla...         0.34%       5.000us         0.34%       5.000us       0.083us       0.000us         0.00%       0.000us       0.000us            60  
                                   cudaFuncSetAttribute         0.14%       2.000us         0.14%       2.000us       0.033us       0.000us         0.00%       0.000us       0.000us            60  
                                       cudaLaunchKernel        18.56%     274.000us        18.56%     274.000us       4.567us       0.000us         0.00%       0.000us       0.000us            60  
                                         cuLaunchKernel        15.79%     233.000us        15.79%     233.000us       3.758us       0.000us         0.00%       0.000us       0.000us            62  
                                  cudaDeviceSynchronize         1.22%      18.000us         1.22%      18.000us      18.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.476ms
Self CUDA time total: 16.083ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       3.520ms        21.87%       3.520ms     146.667us            24  
                                      triton_gemm_dot_0         0.00%       0.000us         0.00%       0.000us       0.000us       3.085ms        19.17%       3.085ms      85.694us            36  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       2.411ms        14.98%       2.411ms     200.917us            12  
                                             fusion_225         0.00%       0.000us         0.00%       0.000us       0.000us     995.000us         6.18%     995.000us      82.917us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_6...         0.00%       0.000us         0.00%       0.000us       0.000us     600.000us         3.73%     600.000us      50.000us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us     557.000us         3.46%     557.000us      46.417us            12  
                                             fusion_300         0.00%       0.000us         0.00%       0.000us       0.000us     347.000us         2.16%     347.000us      28.917us            12  
                                             fusion_296         0.00%       0.000us         0.00%       0.000us       0.000us     290.000us         1.80%     290.000us      12.083us            24  
                                             fusion_298         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_299         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_290         0.00%       0.000us         0.00%       0.000us       0.000us     221.000us         1.37%     221.000us     110.500us             2  
                                             fusion_347         0.00%       0.000us         0.00%       0.000us       0.000us     190.000us         1.18%     190.000us      95.000us             2  
                                             fusion_266         0.00%       0.000us         0.00%       0.000us       0.000us     185.000us         1.15%     185.000us      92.500us             2  
                                             fusion_230         0.00%       0.000us         0.00%       0.000us       0.000us     179.000us         1.11%     179.000us      14.917us            12  
                                             fusion_297         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         1.03%     166.000us      13.833us            12  
                                             fusion_349         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         1.03%     166.000us      83.000us             2  
                                             fusion_147         0.00%       0.000us         0.00%       0.000us       0.000us     152.000us         0.94%     152.000us      76.000us             2  
                                             fusion_146         0.00%       0.000us         0.00%       0.000us       0.000us     150.000us         0.93%     150.000us      75.000us             2  
                                             fusion_338         0.00%       0.000us         0.00%       0.000us       0.000us     146.000us         0.91%     146.000us      73.000us             2  
                                             fusion_348         0.00%       0.000us         0.00%       0.000us       0.000us     144.000us         0.89%     144.000us      72.000us             2  
                                             fusion_262         0.00%       0.000us         0.00%       0.000us       0.000us     142.000us         0.88%     142.000us      71.000us             2  
                                             fusion_339         0.00%       0.000us         0.00%       0.000us       0.000us     125.000us         0.78%     125.000us      62.500us             2  
                                             fusion_340         0.00%       0.000us         0.00%       0.000us       0.000us     123.000us         0.76%     123.000us      61.500us             2  
                                             fusion_162         0.00%       0.000us         0.00%       0.000us       0.000us     114.000us         0.71%     114.000us      57.000us             2  
                                             fusion_258         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.68%     110.000us      36.667us             3  
                                             fusion_163         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.68%     110.000us      55.000us             2  
                                             fusion_179         0.00%       0.000us         0.00%       0.000us       0.000us     107.000us         0.66%     107.000us      35.667us             3  
                                             fusion_178         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         0.62%     100.000us      33.333us             3  
                                             fusion_329         0.00%       0.000us         0.00%       0.000us       0.000us      98.000us         0.61%      98.000us      49.000us             2  
                                             fusion_330         0.00%       0.000us         0.00%       0.000us       0.000us      86.000us         0.53%      86.000us      43.000us             2  
                                             fusion_291         0.00%       0.000us         0.00%       0.000us       0.000us      82.000us         0.51%      82.000us      82.000us             1  
                                             fusion_331         0.00%       0.000us         0.00%       0.000us       0.000us      80.000us         0.50%      80.000us      40.000us             2  
                                             fusion_311         0.00%       0.000us         0.00%       0.000us       0.000us      58.000us         0.36%      58.000us      58.000us             1  
                                             fusion_322         0.00%       0.000us         0.00%       0.000us       0.000us      54.000us         0.34%      54.000us      18.000us             3  
                                             fusion_251         0.00%       0.000us         0.00%       0.000us       0.000us      52.000us         0.32%      52.000us      52.000us             1  
                                             fusion_194         0.00%       0.000us         0.00%       0.000us       0.000us      52.000us         0.32%      52.000us      17.333us             3  
                                             fusion_312         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      51.000us             1  
                                              fusion_48         0.00%       0.000us         0.00%       0.000us       0.000us      45.000us         0.28%      45.000us      45.000us             1  
                                             fusion_211         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_313         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_210         0.00%       0.000us         0.00%       0.000us       0.000us      43.000us         0.27%      43.000us      43.000us             1  
                                             fusion_320         0.00%       0.000us         0.00%       0.000us       0.000us      39.000us         0.24%      39.000us      13.000us             3  
                                             fusion_195         0.00%       0.000us         0.00%       0.000us       0.000us      36.000us         0.22%      36.000us      12.000us             3  
                                             fusion_304         0.00%       0.000us         0.00%       0.000us       0.000us      32.000us         0.20%      32.000us      32.000us             1  
                                             fusion_226         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.19%      31.000us      31.000us             1  
                                             fusion_321         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.19%      31.000us      10.333us             3  
                                             fusion_302         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.16%      25.000us      25.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.13%      21.000us      21.000us             1  
                                             fusion_303         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.12%      20.000us      20.000us             1  
                                             fusion_247         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.12%      19.000us      19.000us             1  
                                             fusion_227         0.00%       0.000us         0.00%       0.000us       0.000us      15.000us         0.09%      15.000us      15.000us             1  
                                             fusion_293         0.00%       0.000us         0.00%       0.000us       0.000us       9.000us         0.06%       9.000us       9.000us             1  
                                             fusion_294         0.00%       0.000us         0.00%       0.000us       0.000us       8.000us         0.05%       8.000us       8.000us             1  
                                             fusion_243         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.04%       6.000us       6.000us             1  
                                             fusion_292         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.01%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        10.83%     163.000us        10.83%     163.000us     163.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        53.09%     799.000us        53.09%     799.000us     799.000us       0.000us         0.00%       0.000us       0.000us             1  
cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFla...         0.73%      11.000us         0.73%      11.000us       0.183us       0.000us         0.00%       0.000us       0.000us            60  
                                   cudaFuncSetAttribute         0.20%       3.000us         0.20%       3.000us       0.050us       0.000us         0.00%       0.000us       0.000us            60  
                                       cudaLaunchKernel        18.01%     271.000us        18.01%     271.000us       4.517us       0.000us         0.00%       0.000us       0.000us            60  
                                         cuLaunchKernel        15.88%     239.000us        15.88%     239.000us       3.855us       0.000us         0.00%       0.000us       0.000us            62  
                                  cudaDeviceSynchronize         1.26%      19.000us         1.26%      19.000us      19.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.505ms
Self CUDA time total: 16.094ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       3.519ms        21.87%       3.519ms     146.625us            24  
                                      triton_gemm_dot_0         0.00%       0.000us         0.00%       0.000us       0.000us       3.090ms        19.21%       3.090ms      85.833us            36  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       2.412ms        14.99%       2.412ms     201.000us            12  
                                             fusion_225         0.00%       0.000us         0.00%       0.000us       0.000us     992.000us         6.17%     992.000us      82.667us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_6...         0.00%       0.000us         0.00%       0.000us       0.000us     601.000us         3.74%     601.000us      50.083us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us     557.000us         3.46%     557.000us      46.417us            12  
                                             fusion_300         0.00%       0.000us         0.00%       0.000us       0.000us     345.000us         2.14%     345.000us      28.750us            12  
                                             fusion_296         0.00%       0.000us         0.00%       0.000us       0.000us     290.000us         1.80%     290.000us      12.083us            24  
                                             fusion_298         0.00%       0.000us         0.00%       0.000us       0.000us     289.000us         1.80%     289.000us      24.083us            12  
                                             fusion_299         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_290         0.00%       0.000us         0.00%       0.000us       0.000us     219.000us         1.36%     219.000us     109.500us             2  
                                             fusion_347         0.00%       0.000us         0.00%       0.000us       0.000us     191.000us         1.19%     191.000us      95.500us             2  
                                             fusion_266         0.00%       0.000us         0.00%       0.000us       0.000us     184.000us         1.14%     184.000us      92.000us             2  
                                             fusion_230         0.00%       0.000us         0.00%       0.000us       0.000us     175.000us         1.09%     175.000us      14.583us            12  
                                             fusion_297         0.00%       0.000us         0.00%       0.000us       0.000us     167.000us         1.04%     167.000us      13.917us            12  
                                             fusion_349         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         1.03%     166.000us      83.000us             2  
                                             fusion_147         0.00%       0.000us         0.00%       0.000us       0.000us     152.000us         0.94%     152.000us      76.000us             2  
                                             fusion_146         0.00%       0.000us         0.00%       0.000us       0.000us     151.000us         0.94%     151.000us      75.500us             2  
                                             fusion_338         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         0.91%     147.000us      73.500us             2  
                                             fusion_348         0.00%       0.000us         0.00%       0.000us       0.000us     144.000us         0.90%     144.000us      72.000us             2  
                                             fusion_262         0.00%       0.000us         0.00%       0.000us       0.000us     141.000us         0.88%     141.000us      70.500us             2  
                                             fusion_339         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_340         0.00%       0.000us         0.00%       0.000us       0.000us     124.000us         0.77%     124.000us      62.000us             2  
                                             fusion_162         0.00%       0.000us         0.00%       0.000us       0.000us     113.000us         0.70%     113.000us      56.500us             2  
                                             fusion_258         0.00%       0.000us         0.00%       0.000us       0.000us     109.000us         0.68%     109.000us      36.333us             3  
                                             fusion_163         0.00%       0.000us         0.00%       0.000us       0.000us     109.000us         0.68%     109.000us      54.500us             2  
                                             fusion_179         0.00%       0.000us         0.00%       0.000us       0.000us     107.000us         0.67%     107.000us      35.667us             3  
                                             fusion_178         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         0.62%     100.000us      33.333us             3  
                                             fusion_329         0.00%       0.000us         0.00%       0.000us       0.000us      99.000us         0.62%      99.000us      49.500us             2  
                                             fusion_330         0.00%       0.000us         0.00%       0.000us       0.000us      87.000us         0.54%      87.000us      43.500us             2  
                                             fusion_291         0.00%       0.000us         0.00%       0.000us       0.000us      82.000us         0.51%      82.000us      82.000us             1  
                                             fusion_331         0.00%       0.000us         0.00%       0.000us       0.000us      80.000us         0.50%      80.000us      40.000us             2  
                                             fusion_311         0.00%       0.000us         0.00%       0.000us       0.000us      58.000us         0.36%      58.000us      58.000us             1  
                                             fusion_322         0.00%       0.000us         0.00%       0.000us       0.000us      53.000us         0.33%      53.000us      17.667us             3  
                                             fusion_251         0.00%       0.000us         0.00%       0.000us       0.000us      52.000us         0.32%      52.000us      52.000us             1  
                                             fusion_312         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      51.000us             1  
                                             fusion_194         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      17.000us             3  
                                             fusion_313         0.00%       0.000us         0.00%       0.000us       0.000us      45.000us         0.28%      45.000us      45.000us             1  
                                              fusion_48         0.00%       0.000us         0.00%       0.000us       0.000us      45.000us         0.28%      45.000us      45.000us             1  
                                             fusion_211         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_210         0.00%       0.000us         0.00%       0.000us       0.000us      43.000us         0.27%      43.000us      43.000us             1  
                                             fusion_320         0.00%       0.000us         0.00%       0.000us       0.000us      39.000us         0.24%      39.000us      13.000us             3  
                                             fusion_195         0.00%       0.000us         0.00%       0.000us       0.000us      36.000us         0.22%      36.000us      12.000us             3  
                                             fusion_304         0.00%       0.000us         0.00%       0.000us       0.000us      32.000us         0.20%      32.000us      32.000us             1  
                                             fusion_226         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.19%      31.000us      31.000us             1  
                                             fusion_321         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.19%      30.000us      10.000us             3  
                                             fusion_302         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.16%      25.000us      25.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.13%      21.000us      21.000us             1  
                                             fusion_303         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.12%      20.000us      20.000us             1  
                                             fusion_247         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.11%      18.000us      18.000us             1  
                                             fusion_227         0.00%       0.000us         0.00%       0.000us       0.000us      15.000us         0.09%      15.000us      15.000us             1  
                                             fusion_293         0.00%       0.000us         0.00%       0.000us       0.000us       9.000us         0.06%       9.000us       9.000us             1  
                                             fusion_294         0.00%       0.000us         0.00%       0.000us       0.000us       8.000us         0.05%       8.000us       8.000us             1  
                                             fusion_243         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.04%       6.000us       6.000us             1  
                                             fusion_292         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.01%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        11.16%     167.000us        11.16%     167.000us     167.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        51.94%     777.000us        51.94%     777.000us     777.000us       0.000us         0.00%       0.000us       0.000us             1  
cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFla...         0.40%       6.000us         0.40%       6.000us       0.100us       0.000us         0.00%       0.000us       0.000us            60  
                                   cudaFuncSetAttribute         0.20%       3.000us         0.20%       3.000us       0.050us       0.000us         0.00%       0.000us       0.000us            60  
                                       cudaLaunchKernel        19.18%     287.000us        19.18%     287.000us       4.783us       0.000us         0.00%       0.000us       0.000us            60  
                                         cuLaunchKernel        15.84%     237.000us        15.84%     237.000us       3.823us       0.000us         0.00%       0.000us       0.000us            62  
                                  cudaDeviceSynchronize         1.27%      19.000us         1.27%      19.000us      19.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.496ms
Self CUDA time total: 16.088ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       3.523ms        21.91%       3.523ms     146.792us            24  
                                      triton_gemm_dot_0         0.00%       0.000us         0.00%       0.000us       0.000us       3.084ms        19.18%       3.084ms      85.667us            36  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us       2.412ms        15.00%       2.412ms     201.000us            12  
                                             fusion_225         0.00%       0.000us         0.00%       0.000us       0.000us     991.000us         6.16%     991.000us      82.583us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_6...         0.00%       0.000us         0.00%       0.000us       0.000us     599.000us         3.73%     599.000us      49.917us            12  
void cutlass::Kernel<cutlass_80_tensorop_s1688gemm_1...         0.00%       0.000us         0.00%       0.000us       0.000us     557.000us         3.46%     557.000us      46.417us            12  
                                             fusion_300         0.00%       0.000us         0.00%       0.000us       0.000us     346.000us         2.15%     346.000us      28.833us            12  
                                             fusion_296         0.00%       0.000us         0.00%       0.000us       0.000us     290.000us         1.80%     290.000us      12.083us            24  
                                             fusion_298         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_299         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         1.79%     288.000us      24.000us            12  
                                             fusion_290         0.00%       0.000us         0.00%       0.000us       0.000us     220.000us         1.37%     220.000us     110.000us             2  
                                             fusion_347         0.00%       0.000us         0.00%       0.000us       0.000us     191.000us         1.19%     191.000us      95.500us             2  
                                             fusion_266         0.00%       0.000us         0.00%       0.000us       0.000us     186.000us         1.16%     186.000us      93.000us             2  
                                             fusion_230         0.00%       0.000us         0.00%       0.000us       0.000us     175.000us         1.09%     175.000us      14.583us            12  
                                             fusion_297         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         1.03%     166.000us      13.833us            12  
                                             fusion_349         0.00%       0.000us         0.00%       0.000us       0.000us     166.000us         1.03%     166.000us      83.000us             2  
                                             fusion_147         0.00%       0.000us         0.00%       0.000us       0.000us     151.000us         0.94%     151.000us      75.500us             2  
                                             fusion_146         0.00%       0.000us         0.00%       0.000us       0.000us     150.000us         0.93%     150.000us      75.000us             2  
                                             fusion_338         0.00%       0.000us         0.00%       0.000us       0.000us     146.000us         0.91%     146.000us      73.000us             2  
                                             fusion_348         0.00%       0.000us         0.00%       0.000us       0.000us     144.000us         0.90%     144.000us      72.000us             2  
                                             fusion_262         0.00%       0.000us         0.00%       0.000us       0.000us     141.000us         0.88%     141.000us      70.500us             2  
                                             fusion_339         0.00%       0.000us         0.00%       0.000us       0.000us     126.000us         0.78%     126.000us      63.000us             2  
                                             fusion_340         0.00%       0.000us         0.00%       0.000us       0.000us     123.000us         0.76%     123.000us      61.500us             2  
                                             fusion_162         0.00%       0.000us         0.00%       0.000us       0.000us     113.000us         0.70%     113.000us      56.500us             2  
                                             fusion_258         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.68%     110.000us      36.667us             3  
                                             fusion_163         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         0.67%     108.000us      54.000us             2  
                                             fusion_179         0.00%       0.000us         0.00%       0.000us       0.000us     106.000us         0.66%     106.000us      35.333us             3  
                                             fusion_178         0.00%       0.000us         0.00%       0.000us       0.000us      99.000us         0.62%      99.000us      33.000us             3  
                                             fusion_329         0.00%       0.000us         0.00%       0.000us       0.000us      98.000us         0.61%      98.000us      49.000us             2  
                                             fusion_330         0.00%       0.000us         0.00%       0.000us       0.000us      86.000us         0.53%      86.000us      43.000us             2  
                                             fusion_291         0.00%       0.000us         0.00%       0.000us       0.000us      82.000us         0.51%      82.000us      82.000us             1  
                                             fusion_331         0.00%       0.000us         0.00%       0.000us       0.000us      80.000us         0.50%      80.000us      40.000us             2  
                                             fusion_311         0.00%       0.000us         0.00%       0.000us       0.000us      58.000us         0.36%      58.000us      58.000us             1  
                                             fusion_322         0.00%       0.000us         0.00%       0.000us       0.000us      53.000us         0.33%      53.000us      17.667us             3  
                                             fusion_251         0.00%       0.000us         0.00%       0.000us       0.000us      52.000us         0.32%      52.000us      52.000us             1  
                                             fusion_312         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      51.000us             1  
                                             fusion_194         0.00%       0.000us         0.00%       0.000us       0.000us      51.000us         0.32%      51.000us      17.000us             3  
                                              fusion_48         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.29%      46.000us      46.000us             1  
                                             fusion_211         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_313         0.00%       0.000us         0.00%       0.000us       0.000us      44.000us         0.27%      44.000us      44.000us             1  
                                             fusion_210         0.00%       0.000us         0.00%       0.000us       0.000us      43.000us         0.27%      43.000us      43.000us             1  
                                             fusion_320         0.00%       0.000us         0.00%       0.000us       0.000us      39.000us         0.24%      39.000us      13.000us             3  
                                             fusion_195         0.00%       0.000us         0.00%       0.000us       0.000us      36.000us         0.22%      36.000us      12.000us             3  
                                             fusion_304         0.00%       0.000us         0.00%       0.000us       0.000us      32.000us         0.20%      32.000us      32.000us             1  
                                             fusion_226         0.00%       0.000us         0.00%       0.000us       0.000us      31.000us         0.19%      31.000us      31.000us             1  
                                             fusion_321         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.19%      30.000us      10.000us             3  
                                             fusion_302         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.16%      25.000us      25.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.13%      21.000us      21.000us             1  
                                             fusion_303         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.12%      20.000us      20.000us             1  
                                             fusion_247         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.11%      18.000us      18.000us             1  
                                             fusion_227         0.00%       0.000us         0.00%       0.000us       0.000us      15.000us         0.09%      15.000us      15.000us             1  
                                             fusion_293         0.00%       0.000us         0.00%       0.000us       0.000us       9.000us         0.06%       9.000us       9.000us             1  
                                             fusion_294         0.00%       0.000us         0.00%       0.000us       0.000us       8.000us         0.05%       8.000us       8.000us             1  
                                             fusion_243         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.04%       6.000us       6.000us             1  
                                             fusion_292         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.01%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        11.28%     167.000us        11.28%     167.000us     167.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        51.01%     755.000us        51.01%     755.000us     755.000us       0.000us         0.00%       0.000us       0.000us             1  
cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFla...         0.41%       6.000us         0.41%       6.000us       0.100us       0.000us         0.00%       0.000us       0.000us            60  
                                   cudaFuncSetAttribute         0.14%       2.000us         0.14%       2.000us       0.033us       0.000us         0.00%       0.000us       0.000us            60  
                                       cudaLaunchKernel        19.19%     284.000us        19.19%     284.000us       4.733us       0.000us         0.00%       0.000us       0.000us            60  
                                         cuLaunchKernel        16.69%     247.000us        16.69%     247.000us       3.984us       0.000us         0.00%       0.000us       0.000us            62  
                                  cudaDeviceSynchronize         1.28%      19.000us         1.28%      19.000us      19.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.480ms
Self CUDA time total: 16.079ms

ysiraichi · 2024-02-16T13:35:02Z

BERT_pytorch (after)

-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                  Torch-Compiled Region        58.66%        9.586s        61.46%       10.044s       10.044s     100.443ms        91.81%     100.443ms     100.443ms             1  
                       Memcpy HtoD (Pageable -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      34.299ms        31.35%      34.299ms       2.916us         11762  
                                    triton_gemm_dot_755         0.00%       0.000us         0.00%       0.000us       0.000us      21.145ms        19.33%      21.145ms     459.674us            46  
                                        redzone_checker         0.00%       0.000us         0.00%       0.000us       0.000us      20.856ms        19.06%      20.856ms      48.729us           428  
                                     triton_gemm_dot_73         0.00%       0.000us         0.00%       0.000us       0.000us      15.935ms        14.56%      15.935ms     346.413us            46  
xla::gpu::buffer_comparator::(anonymous namespace)::...         0.00%       0.000us         0.00%       0.000us       0.000us       4.555ms         4.16%       4.555ms      99.022us            46  
ampere_bf16_s16816gemm_bf16_128x256_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.818ms         1.66%       1.818ms      69.923us            26  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.777ms         1.62%       1.777ms     118.467us            15  
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.408ms         1.29%       1.408ms      93.867us            15  
                                               fusion_1         0.00%       0.000us         0.00%       0.000us       0.000us       1.216ms         1.11%       1.216ms     101.333us            12  
                                             fusion_560         0.00%       0.000us         0.00%       0.000us       0.000us     912.000us         0.83%     912.000us      76.000us            12  
                                        Memset (Device)         0.00%       0.000us         0.00%       0.000us       0.000us     895.000us         0.82%     895.000us       5.144us           174  
                       Memcpy DtoH (Device -> Pageable)         0.00%       0.000us         0.00%       0.000us       0.000us     521.000us         0.48%     521.000us       2.004us           260  
                                             fusion_571         0.00%       0.000us         0.00%       0.000us       0.000us     373.000us         0.34%     373.000us      31.083us            12  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us     363.000us         0.33%     363.000us      27.923us            13  
ampere_bf16_s16816gemm_bf16_128x64_ldg8_f2f_stages_3...         0.00%       0.000us         0.00%       0.000us       0.000us     336.000us         0.31%     336.000us      25.846us            13  
                                             fusion_570         0.00%       0.000us         0.00%       0.000us       0.000us     291.000us         0.27%     291.000us      24.250us            12  
                                             fusion_573         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         0.26%     288.000us      24.000us            12  
                                             fusion_575         0.00%       0.000us         0.00%       0.000us       0.000us     186.000us         0.17%     186.000us      15.500us            12  
                                             fusion_635         0.00%       0.000us         0.00%       0.000us       0.000us     181.000us         0.17%     181.000us      36.200us             5  
                                             fusion_569         0.00%       0.000us         0.00%       0.000us       0.000us     164.000us         0.15%     164.000us      13.667us            12  
                                             fusion_576         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         0.13%     147.000us      12.250us            12  
                                             fusion_568         0.00%       0.000us         0.00%       0.000us       0.000us     132.000us         0.12%     132.000us      11.000us            12  
                                             fusion_630         0.00%       0.000us         0.00%       0.000us       0.000us     121.000us         0.11%     121.000us      24.200us             5  
                                             fusion_634         0.00%       0.000us         0.00%       0.000us       0.000us     115.000us         0.11%     115.000us      23.000us             5  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us     114.000us         0.10%     114.000us      19.000us             6  
                                  wrapped_concatenate_0         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.10%     110.000us       9.167us            12  
                                             fusion_632         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         0.10%     110.000us      22.000us             5  
                                             fusion_625         0.00%       0.000us         0.00%       0.000us       0.000us     107.000us         0.10%     107.000us      21.400us             5  
                                             fusion_629         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         0.09%     100.000us      20.000us             5  
                                             fusion_627         0.00%       0.000us         0.00%       0.000us       0.000us      90.000us         0.08%      90.000us      18.000us             5  
                                             fusion_619         0.00%       0.000us         0.00%       0.000us       0.000us      80.000us         0.07%      80.000us      13.333us             6  
                                             fusion_624         0.00%       0.000us         0.00%       0.000us       0.000us      75.000us         0.07%      75.000us      15.000us             5  
                                             fusion_622         0.00%       0.000us         0.00%       0.000us       0.000us      70.000us         0.06%      70.000us      14.000us             5  
                                             fusion_620         0.00%       0.000us         0.00%       0.000us       0.000us      60.000us         0.05%      60.000us      12.000us             5  
                                             fusion_617         0.00%       0.000us         0.00%       0.000us       0.000us      59.000us         0.05%      59.000us       9.833us             6  
                                                 fusion         0.00%       0.000us         0.00%       0.000us       0.000us      49.000us         0.04%      49.000us      12.250us             4  
                                             fusion_601         0.00%       0.000us         0.00%       0.000us       0.000us      48.000us         0.04%      48.000us       2.000us            24  
                                             fusion_608         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.04%      46.000us       2.000us            23  
                                             fusion_615         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.03%      30.000us      30.000us             1  
                                             fusion_614         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.02%      26.000us      26.000us             1  
                                             fusion_609         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.02%      25.000us      25.000us             1  
                                             fusion_612         0.00%       0.000us         0.00%       0.000us       0.000us      23.000us         0.02%      23.000us      23.000us             1  
                                             fusion_610         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.02%      21.000us      21.000us             1  
                                             fusion_604         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.02%      20.000us      20.000us             1  
                                 wrapped_concatenate_39         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.02%      18.000us       9.000us             2  
                                             fusion_607         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.02%      18.000us      18.000us             1  
                                             fusion_605         0.00%       0.000us         0.00%       0.000us       0.000us      16.000us         0.01%      16.000us      16.000us             1  
                                             fusion_602         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.01%      14.000us      14.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      13.000us         0.01%      13.000us      13.000us             1  
                                             fusion_600         0.00%       0.000us         0.00%       0.000us       0.000us      12.000us         0.01%      12.000us      12.000us             1  
                         Memcpy HtoD (Pinned -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      10.000us         0.01%      10.000us       2.000us             5  
                                             fusion_586         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.01%       6.000us       6.000us             1  
                                             fusion_599         0.00%       0.000us         0.00%       0.000us       0.000us       3.000us         0.00%       3.000us       3.000us             1  
                                             fusion_603         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.00%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup         0.00%       4.000us         0.00%       4.000us       0.222us       0.000us         0.00%       0.000us       0.000us            18  
         _compile.<locals>.compile_inner (dynamo_timed)        12.74%        2.081s        38.54%        6.298s        6.298s       0.000us         0.00%       0.000us       0.000us             1  
                                  cudaStreamIsCapturing         0.02%       2.577ms         0.02%       2.577ms       1.063us       0.000us         0.00%       0.000us       0.000us          2424  
                                            aten::clone         1.48%     242.403ms         2.00%     326.717ms     103.885us       0.000us         0.00%       0.000us       0.000us          3145  
                                    aten::empty_strided         0.41%      66.617ms         0.41%      66.674ms       9.611us       0.000us         0.00%       0.000us       0.000us          6937  
                                            aten::copy_         0.21%      34.387ms         0.21%      34.387ms      17.625us       0.000us         0.00%       0.000us       0.000us          1951  
                                           aten::detach         1.79%     291.845ms         3.49%     570.666ms      73.729us       0.000us         0.00%       0.000us       0.000us          7740  
                                                 detach         0.47%      76.619ms         1.45%     236.574ms     312.515us       0.000us         0.00%       0.000us       0.000us           757  
                                       aten::empty_like         0.01%       1.539ms         0.02%       3.604ms       5.947us       0.000us         0.00%       0.000us       0.000us           606  
                                            aten::empty         0.02%       2.713ms         0.02%       2.713ms       4.117us       0.000us         0.00%       0.000us       0.000us           659  
                                               aten::gt         0.19%      30.996ms         1.60%     261.102ms      29.011ms       0.000us         0.00%       0.000us       0.000us             9  
                                              prims::gt         0.07%      11.850ms         0.70%     114.298ms     114.298ms       0.000us         0.00%       0.000us       0.000us             1  
                                   aten::empty_permuted         0.01%       1.695ms         0.63%     103.273ms       4.694ms       0.000us         0.00%       0.000us       0.000us            22  
                                       aten::as_strided         0.68%     111.490ms         0.68%     111.618ms      75.982us       0.000us         0.00%       0.000us       0.000us          1469  
                                        aten::unsqueeze         0.28%      45.978ms         0.58%      94.583ms       2.956ms       0.000us         0.00%       0.000us       0.000us            32  
                                prims::broadcast_in_dim         0.04%       6.320ms         0.05%       7.578ms      64.220us       0.000us         0.00%       0.000us       0.000us           118  
                                             aten::set_         0.40%      65.688ms         0.45%      73.603ms      17.558us       0.000us         0.00%       0.000us       0.000us          4192  
                                           aten::repeat         0.02%       4.015ms         0.04%       5.932ms     659.111us       0.000us         0.00%       0.000us       0.000us             9  
                                        aten::new_empty         1.00%     163.072ms         1.00%     163.448ms      12.573ms       0.000us         0.00%       0.000us       0.000us            13  
                                        aten::embedding         0.28%      45.749ms         1.49%     243.895ms      15.243ms       0.000us         0.00%       0.000us       0.000us            16  
                                            aten::index         0.01%       2.328ms         1.21%     196.984ms      24.623ms       0.000us         0.00%       0.000us       0.000us             8  
                                               aten::to         0.20%      33.005ms         0.95%     154.530ms     563.978us       0.000us         0.00%       0.000us       0.000us           274  
                                            aten::slice         0.04%       6.039ms         0.07%      11.774ms     392.467us       0.000us         0.00%       0.000us       0.000us            30  
                                              aten::add         1.51%     247.291ms         2.94%     481.000ms     466.990us       0.000us         0.00%       0.000us       0.000us          1030  
                                         aten::_to_copy         0.71%     116.749ms         0.74%     121.568ms     799.789us       0.000us         0.00%       0.000us       0.000us           152  
                            prims::convert_element_type         0.01%       2.021ms         0.02%       3.970ms     116.765us       0.000us         0.00%       0.000us       0.000us            34  
                                           aten::expand         0.83%     135.859ms         1.45%     237.730ms     347.558us       0.000us         0.00%       0.000us       0.000us           684  
                                             prims::add         0.00%     588.000us         0.01%     839.000us     139.833us       0.000us         0.00%       0.000us       0.000us             6  
                                          aten::dropout         0.03%       4.228ms         0.67%     109.507ms     595.147us       0.000us         0.00%       0.000us       0.000us           184  
                                           prims::clone         0.01%       1.432ms         0.01%       1.550ms     258.333us       0.000us         0.00%       0.000us       0.000us             6  
                                             aten::mean         0.38%      62.828ms         0.57%      93.776ms     554.888us       0.000us         0.00%       0.000us       0.000us           169  
                                             prims::sum         0.00%     263.000us         0.00%     296.000us     148.000us       0.000us         0.00%       0.000us       0.000us             2  
                                             prims::div         0.00%     378.000us         0.00%     547.000us     136.750us       0.000us         0.00%       0.000us       0.000us             4  
                                              aten::std         0.39%      64.266ms         0.50%      81.056ms     476.800us       0.000us         0.00%       0.000us       0.000us           170  
                                              aten::var         0.00%     170.000us         0.00%     423.000us     423.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             prims::var         0.00%     150.000us         0.00%     174.000us     174.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             aten::sqrt         0.00%     155.000us         0.00%     323.000us     323.000us       0.000us         0.00%       0.000us       0.000us             1  
                                            prims::sqrt         0.00%     114.000us         0.00%     168.000us     168.000us       0.000us         0.00%       0.000us       0.000us             1  
                                              aten::sub         0.26%      42.097ms         0.35%      56.891ms     332.696us       0.000us         0.00%       0.000us       0.000us           171  
                                             prims::sub         0.00%     228.000us         0.00%     295.000us     147.500us       0.000us         0.00%       0.000us       0.000us             2  
                                              aten::mul         0.25%      40.826ms         0.34%      55.022ms     319.895us       0.000us         0.00%       0.000us       0.000us           172  
                                             prims::mul         0.00%     315.000us         0.00%     463.000us     115.750us       0.000us         0.00%       0.000us       0.000us             4  
                                              aten::div         0.44%      71.908ms         0.58%      94.668ms     369.797us       0.000us         0.00%       0.000us       0.000us           256  
                                           aten::linear         0.29%      46.822ms         6.39%        1.044s       4.835ms       0.000us         0.00%       0.000us       0.000us           216  
                                                aten::t         0.92%     150.331ms         1.78%     291.669ms     288.496us       0.000us         0.00%       0.000us       0.000us          1011  
                                        aten::transpose         0.85%     139.380ms         1.65%     269.619ms     223.565us       0.000us         0.00%       0.000us       0.000us          1206  
                                          aten::permute         0.06%       9.442ms         0.13%      20.456ms      75.763us       0.000us         0.00%       0.000us       0.000us           270  
                                       prims::transpose         0.05%       8.333ms         0.07%      11.014ms      40.793us       0.000us         0.00%       0.000us       0.000us           270  
                                           aten::matmul         1.47%     240.275ms         7.56%        1.236s       4.292ms       0.000us         0.00%       0.000us       0.000us           288  
                                          aten::reshape         0.59%      96.471ms         2.79%     456.412ms       1.268ms       0.000us         0.00%       0.000us       0.000us           360  
                                             aten::view         3.76%     614.704ms         7.23%        1.181s     353.409us       0.000us         0.00%       0.000us       0.000us          3343  
                                   prims::collapse_view         0.04%       6.405ms         0.05%       8.310ms      41.970us       0.000us         0.00%       0.000us       0.000us           198  
                                               aten::mm         0.72%     117.951ms         0.89%     145.062ms     284.435us       0.000us         0.00%       0.000us       0.000us           510  
                                       prims::split_dim         0.05%       8.241ms         0.07%      10.810ms      40.186us       0.000us         0.00%       0.000us       0.000us           269  
                                     aten::_unsafe_view         0.40%      65.470ms         0.65%     106.035ms     420.774us       0.000us         0.00%       0.000us       0.000us           252  
                                              aten::bmm         0.24%      39.656ms         0.30%      48.980ms     288.118us       0.000us         0.00%       0.000us       0.000us           170  
                                               aten::eq         0.12%      20.121ms         0.17%      27.282ms     320.965us       0.000us         0.00%       0.000us       0.000us            85  
                                              prims::eq         0.00%     130.000us         0.00%     161.000us     161.000us       0.000us         0.00%       0.000us       0.000us             1  
                                      aten::masked_fill         0.36%      59.115ms         0.62%     101.160ms       1.190ms       0.000us         0.00%       0.000us       0.000us            85  
                                            aten::where         0.00%     260.000us         0.00%     611.000us     611.000us       0.000us         0.00%       0.000us       0.000us             1  
                                           prims::where         0.00%     145.000us         0.00%     194.000us     194.000us       0.000us         0.00%       0.000us       0.000us             1  
                                          aten::softmax         0.01%       2.307ms         0.20%      32.151ms     893.083us       0.000us         0.00%       0.000us       0.000us            36  
                                         aten::_softmax         0.12%      20.245ms         0.20%      32.070ms     381.786us       0.000us         0.00%       0.000us       0.000us            84  
                                             aten::amax         0.00%     724.000us         0.01%       1.323ms     661.500us       0.000us         0.00%       0.000us       0.000us             2  
                                            prims::amax         0.00%     146.000us         0.00%     161.000us     161.000us       0.000us         0.00%       0.000us       0.000us             1  
                                              aten::exp         0.00%     697.000us         0.01%       1.148ms     574.000us       0.000us         0.00%       0.000us       0.000us             2  
                                             prims::exp         0.00%     109.000us         0.00%     140.000us     140.000us       0.000us         0.00%       0.000us       0.000us             1  
                                              aten::sum         0.00%     660.000us         0.01%       1.082ms     541.000us       0.000us         0.00%       0.000us       0.000us             2  
                                       aten::contiguous         0.02%       3.106ms         0.16%      25.476ms     707.667us       0.000us         0.00%       0.000us       0.000us            36  
                                             aten::gelu         0.12%      19.452ms         0.29%      46.874ms     551.459us       0.000us         0.00%       0.000us       0.000us            85  
                                              aten::erf         0.00%     125.000us         0.00%     230.000us     230.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             prims::erf         0.00%      80.000us         0.00%     105.000us     105.000us       0.000us         0.00%       0.000us       0.000us             1  
          OutputGraph.call_user_compiler (dynamo_timed)         0.45%      72.885ms        19.21%        3.140s        3.140s       0.000us         0.00%       0.000us       0.000us             1  
          create_aot_dispatcher_function (dynamo_timed)         3.22%     526.948ms        18.77%        3.067s        3.067s       0.000us         0.00%       0.000us       0.000us             1  
                                       aten::lift_fresh         0.03%       4.635ms         0.03%       5.289ms     220.375us       0.000us         0.00%       0.000us       0.000us            24  
                                          aten::detach_         0.00%     272.000us         0.00%     275.000us      22.917us       0.000us         0.00%       0.000us       0.000us            12  
                                                detach_         0.00%       3.000us         0.00%       3.000us       0.250us       0.000us         0.00%       0.000us       0.000us            12  
                               aten::sym_storage_offset         0.04%       6.143ms         0.04%       6.143ms       7.419us       0.000us         0.00%       0.000us       0.000us           828  
                                        aten::sym_numel         0.05%       8.459ms         0.05%       8.459ms       9.441us       0.000us         0.00%       0.000us       0.000us           896  
                                          is_contiguous         0.00%       7.000us         0.00%       7.000us       0.022us       0.000us         0.00%       0.000us       0.000us           312  
                                            aten::alias         0.00%     446.000us         0.02%       3.031ms      94.719us       0.000us         0.00%       0.000us       0.000us            32  
                                         prims::view_of         0.00%     637.000us         0.01%     976.000us      30.500us       0.000us         0.00%       0.000us       0.000us            32  
                                   aten::unsqueeze_copy         0.19%      30.787ms         0.19%      30.787ms       5.131ms       0.000us         0.00%       0.000us       0.000us             6  
                                    aten::scalar_tensor         0.00%     142.000us         0.00%     142.000us       3.381us       0.000us         0.00%       0.000us       0.000us            42  
                                       aten::slice_copy         0.00%     103.000us         0.00%     103.000us      17.167us       0.000us         0.00%       0.000us       0.000us             6  
                                      aten::result_type         0.00%     162.000us         0.00%     162.000us       0.135us       0.000us         0.00%       0.000us       0.000us          1200  
                                             aten::item         0.00%     195.000us         0.00%     201.000us       1.861us       0.000us         0.00%       0.000us       0.000us           108  
                              aten::_local_scalar_dense         0.00%       6.000us         0.00%       6.000us       0.056us       0.000us         0.00%       0.000us       0.000us           108  
                                           aten::t_copy         0.01%       1.541ms         0.01%       1.541ms       7.134us       0.000us         0.00%       0.000us       0.000us           216  
                                        aten::view_copy         0.03%       5.400ms         0.03%       5.400ms       7.895us       0.000us         0.00%       0.000us       0.000us           684  
                                   aten::transpose_copy         0.01%       2.006ms         0.01%       2.006ms      11.144us       0.000us         0.00%       0.000us       0.000us           180  
                                      aten::expand_copy         0.01%       1.785ms         0.01%       1.785ms      12.396us       0.000us         0.00%       0.000us       0.000us           144  
                                    cudaPeekAtLastError         0.00%      14.000us         0.00%      14.000us       0.033us       0.000us         0.00%       0.000us       0.000us           420  
                                               cudaFree         0.00%       2.000us         0.00%       2.000us       2.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             cudaMalloc         0.00%     390.000us         0.00%     390.000us     130.000us       0.000us         0.00%       0.000us       0.000us             3  
                                         cuLaunchKernel         0.02%       3.022ms         0.02%       3.022ms       4.431us       0.000us         0.00%       0.000us       0.000us           682  
                                   cudaFuncSetAttribute         1.63%     266.606ms         1.63%     266.606ms     647.102us       0.000us         0.00%       0.000us       0.000us           412  
          cudaOccupancyMaxActiveBlocksPerMultiprocessor         0.00%      83.000us         0.00%      83.000us       0.943us       0.000us         0.00%       0.000us       0.000us            88  
                                       cudaLaunchKernel         0.00%     497.000us         0.00%     497.000us       6.061us       0.000us         0.00%       0.000us       0.000us            82  
                                    cudaGetFuncBySymbol         0.20%      31.963ms         0.20%      31.963ms     694.848us       0.000us         0.00%       0.000us       0.000us            46  
                                  cudaDeviceSynchronize         0.00%      18.000us         0.00%      18.000us      18.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 16.343s
Self CUDA time total: 109.409ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
ampere_bf16_s16816gemm_bf16_128x256_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.680ms        18.74%       1.680ms      70.000us            24  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.426ms        15.91%       1.426ms     118.833us            12  
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.138ms        12.69%       1.138ms      94.833us            12  
                                             fusion_560         0.00%       0.000us         0.00%       0.000us       0.000us     912.000us        10.17%     912.000us      76.000us            12  
                                             fusion_571         0.00%       0.000us         0.00%       0.000us       0.000us     374.000us         4.17%     374.000us      31.167us            12  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us     325.000us         3.63%     325.000us      27.083us            12  
ampere_bf16_s16816gemm_bf16_128x64_ldg8_f2f_stages_3...         0.00%       0.000us         0.00%       0.000us       0.000us     306.000us         3.41%     306.000us      25.500us            12  
                                             fusion_570         0.00%       0.000us         0.00%       0.000us       0.000us     297.000us         3.31%     297.000us      24.750us            12  
                                             fusion_573         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         3.21%     288.000us      24.000us            12  
                                             fusion_575         0.00%       0.000us         0.00%       0.000us       0.000us     191.000us         2.13%     191.000us      15.917us            12  
                                             fusion_635         0.00%       0.000us         0.00%       0.000us       0.000us     177.000us         1.97%     177.000us      35.400us             5  
                                             fusion_569         0.00%       0.000us         0.00%       0.000us       0.000us     167.000us         1.86%     167.000us      13.917us            12  
                                             fusion_576         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         1.64%     147.000us      12.250us            12  
                                             fusion_568         0.00%       0.000us         0.00%       0.000us       0.000us     131.000us         1.46%     131.000us      10.917us            12  
                                             fusion_630         0.00%       0.000us         0.00%       0.000us       0.000us     122.000us         1.36%     122.000us      24.400us             5  
                                             fusion_634         0.00%       0.000us         0.00%       0.000us       0.000us     114.000us         1.27%     114.000us      22.800us             5  
                                             fusion_632         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         1.23%     110.000us      22.000us             5  
                                  wrapped_concatenate_0         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         1.20%     108.000us       9.000us            12  
                                             fusion_625         0.00%       0.000us         0.00%       0.000us       0.000us     107.000us         1.19%     107.000us      21.400us             5  
                                             fusion_629         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         1.12%     100.000us      20.000us             5  
                                             fusion_627         0.00%       0.000us         0.00%       0.000us       0.000us      92.000us         1.03%      92.000us      18.400us             5  
                                             fusion_619         0.00%       0.000us         0.00%       0.000us       0.000us      78.000us         0.87%      78.000us      13.000us             6  
                                             fusion_624         0.00%       0.000us         0.00%       0.000us       0.000us      74.000us         0.83%      74.000us      14.800us             5  
                                             fusion_622         0.00%       0.000us         0.00%       0.000us       0.000us      70.000us         0.78%      70.000us      14.000us             5  
                                             fusion_620         0.00%       0.000us         0.00%       0.000us       0.000us      56.000us         0.62%      56.000us      11.200us             5  
                                             fusion_617         0.00%       0.000us         0.00%       0.000us       0.000us      55.000us         0.61%      55.000us       9.167us             6  
                                             fusion_601         0.00%       0.000us         0.00%       0.000us       0.000us      48.000us         0.54%      48.000us       2.000us            24  
                                             fusion_608         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.51%      46.000us       2.000us            23  
                                             fusion_615         0.00%       0.000us         0.00%       0.000us       0.000us      29.000us         0.32%      29.000us      29.000us             1  
                                             fusion_614         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.29%      26.000us      26.000us             1  
                                             fusion_609         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.28%      25.000us      25.000us             1  
                                             fusion_612         0.00%       0.000us         0.00%       0.000us       0.000us      23.000us         0.26%      23.000us      23.000us             1  
                                             fusion_610         0.00%       0.000us         0.00%       0.000us       0.000us      22.000us         0.25%      22.000us      22.000us             1  
                                             fusion_604         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.21%      19.000us      19.000us             1  
                                             fusion_607         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.20%      18.000us      18.000us             1  
                                             fusion_605         0.00%       0.000us         0.00%       0.000us       0.000us      16.000us         0.18%      16.000us      16.000us             1  
                                             fusion_602         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.16%      14.000us      14.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      13.000us         0.15%      13.000us      13.000us             1  
                                             fusion_600         0.00%       0.000us         0.00%       0.000us       0.000us      11.000us         0.12%      11.000us      11.000us             1  
                                             fusion_586         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.07%       6.000us       6.000us             1  
                                             fusion_599         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                                             fusion_603         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        12.45%     227.000us        12.45%     227.000us     227.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        44.74%     816.000us        44.74%     816.000us     816.000us       0.000us         0.00%       0.000us       0.000us             1  
          cudaOccupancyMaxActiveBlocksPerMultiprocessor         3.34%      61.000us         3.34%      61.000us       0.847us       0.000us         0.00%       0.000us       0.000us            72  
                                       cudaLaunchKernel        19.46%     355.000us        19.46%     355.000us       4.931us       0.000us         0.00%       0.000us       0.000us            72  
                                         cuLaunchKernel        19.08%     348.000us        19.08%     348.000us       3.551us       0.000us         0.00%       0.000us       0.000us            98  
                                  cudaDeviceSynchronize         0.93%      17.000us         0.93%      17.000us      17.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.824ms
Self CUDA time total: 8.965ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
ampere_bf16_s16816gemm_bf16_128x256_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.681ms        18.77%       1.681ms      70.042us            24  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.426ms        15.92%       1.426ms     118.833us            12  
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.133ms        12.65%       1.133ms      94.417us            12  
                                             fusion_560         0.00%       0.000us         0.00%       0.000us       0.000us     912.000us        10.18%     912.000us      76.000us            12  
                                             fusion_571         0.00%       0.000us         0.00%       0.000us       0.000us     372.000us         4.15%     372.000us      31.000us            12  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us     324.000us         3.62%     324.000us      27.000us            12  
ampere_bf16_s16816gemm_bf16_128x64_ldg8_f2f_stages_3...         0.00%       0.000us         0.00%       0.000us       0.000us     308.000us         3.44%     308.000us      25.667us            12  
                                             fusion_570         0.00%       0.000us         0.00%       0.000us       0.000us     296.000us         3.30%     296.000us      24.667us            12  
                                             fusion_573         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         3.22%     288.000us      24.000us            12  
                                             fusion_575         0.00%       0.000us         0.00%       0.000us       0.000us     189.000us         2.11%     189.000us      15.750us            12  
                                             fusion_635         0.00%       0.000us         0.00%       0.000us       0.000us     177.000us         1.98%     177.000us      35.400us             5  
                                             fusion_569         0.00%       0.000us         0.00%       0.000us       0.000us     167.000us         1.86%     167.000us      13.917us            12  
                                             fusion_576         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         1.64%     147.000us      12.250us            12  
                                             fusion_568         0.00%       0.000us         0.00%       0.000us       0.000us     132.000us         1.47%     132.000us      11.000us            12  
                                             fusion_630         0.00%       0.000us         0.00%       0.000us       0.000us     120.000us         1.34%     120.000us      24.000us             5  
                                             fusion_634         0.00%       0.000us         0.00%       0.000us       0.000us     115.000us         1.28%     115.000us      23.000us             5  
                                             fusion_632         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         1.23%     110.000us      22.000us             5  
                                  wrapped_concatenate_0         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         1.21%     108.000us       9.000us            12  
                                             fusion_625         0.00%       0.000us         0.00%       0.000us       0.000us     105.000us         1.17%     105.000us      21.000us             5  
                                             fusion_629         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         1.12%     100.000us      20.000us             5  
                                             fusion_627         0.00%       0.000us         0.00%       0.000us       0.000us      91.000us         1.02%      91.000us      18.200us             5  
                                             fusion_619         0.00%       0.000us         0.00%       0.000us       0.000us      78.000us         0.87%      78.000us      13.000us             6  
                                             fusion_624         0.00%       0.000us         0.00%       0.000us       0.000us      74.000us         0.83%      74.000us      14.800us             5  
                                             fusion_622         0.00%       0.000us         0.00%       0.000us       0.000us      70.000us         0.78%      70.000us      14.000us             5  
                                             fusion_620         0.00%       0.000us         0.00%       0.000us       0.000us      57.000us         0.64%      57.000us      11.400us             5  
                                             fusion_617         0.00%       0.000us         0.00%       0.000us       0.000us      56.000us         0.63%      56.000us       9.333us             6  
                                             fusion_601         0.00%       0.000us         0.00%       0.000us       0.000us      48.000us         0.54%      48.000us       2.000us            24  
                                             fusion_608         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.51%      46.000us       2.000us            23  
                                             fusion_615         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.33%      30.000us      30.000us             1  
                                             fusion_614         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.29%      26.000us      26.000us             1  
                                             fusion_609         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.28%      25.000us      25.000us             1  
                                             fusion_612         0.00%       0.000us         0.00%       0.000us       0.000us      23.000us         0.26%      23.000us      23.000us             1  
                                             fusion_610         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.23%      21.000us      21.000us             1  
                                             fusion_604         0.00%       0.000us         0.00%       0.000us       0.000us      20.000us         0.22%      20.000us      20.000us             1  
                                             fusion_607         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.20%      18.000us      18.000us             1  
                                             fusion_605         0.00%       0.000us         0.00%       0.000us       0.000us      16.000us         0.18%      16.000us      16.000us             1  
                                             fusion_602         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.16%      14.000us      14.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      13.000us         0.15%      13.000us      13.000us             1  
                                             fusion_600         0.00%       0.000us         0.00%       0.000us       0.000us      11.000us         0.12%      11.000us      11.000us             1  
                                             fusion_586         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.07%       6.000us       6.000us             1  
                                             fusion_599         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                                             fusion_603         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        10.98%     187.000us        10.98%     187.000us     187.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        46.80%     797.000us        46.80%     797.000us     797.000us       0.000us         0.00%       0.000us       0.000us             1  
          cudaOccupancyMaxActiveBlocksPerMultiprocessor         0.41%       7.000us         0.41%       7.000us       0.097us       0.000us         0.00%       0.000us       0.000us            72  
                                       cudaLaunchKernel        19.73%     336.000us        19.73%     336.000us       4.667us       0.000us         0.00%       0.000us       0.000us            72  
                                         cuLaunchKernel        20.85%     355.000us        20.85%     355.000us       3.622us       0.000us         0.00%       0.000us       0.000us            98  
                                  cudaDeviceSynchronize         1.23%      21.000us         1.23%      21.000us      21.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.703ms
Self CUDA time total: 8.957ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
ampere_bf16_s16816gemm_bf16_128x256_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.680ms        18.76%       1.680ms      70.000us            24  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.423ms        15.89%       1.423ms     118.583us            12  
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.133ms        12.65%       1.133ms      94.417us            12  
                                             fusion_560         0.00%       0.000us         0.00%       0.000us       0.000us     912.000us        10.18%     912.000us      76.000us            12  
                                             fusion_571         0.00%       0.000us         0.00%       0.000us       0.000us     373.000us         4.16%     373.000us      31.083us            12  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us     323.000us         3.61%     323.000us      26.917us            12  
ampere_bf16_s16816gemm_bf16_128x64_ldg8_f2f_stages_3...         0.00%       0.000us         0.00%       0.000us       0.000us     306.000us         3.42%     306.000us      25.500us            12  
                                             fusion_570         0.00%       0.000us         0.00%       0.000us       0.000us     295.000us         3.29%     295.000us      24.583us            12  
                                             fusion_573         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         3.22%     288.000us      24.000us            12  
                                             fusion_575         0.00%       0.000us         0.00%       0.000us       0.000us     189.000us         2.11%     189.000us      15.750us            12  
                                             fusion_635         0.00%       0.000us         0.00%       0.000us       0.000us     177.000us         1.98%     177.000us      35.400us             5  
                                             fusion_569         0.00%       0.000us         0.00%       0.000us       0.000us     170.000us         1.90%     170.000us      14.167us            12  
                                             fusion_576         0.00%       0.000us         0.00%       0.000us       0.000us     146.000us         1.63%     146.000us      12.167us            12  
                                             fusion_568         0.00%       0.000us         0.00%       0.000us       0.000us     132.000us         1.47%     132.000us      11.000us            12  
                                             fusion_630         0.00%       0.000us         0.00%       0.000us       0.000us     121.000us         1.35%     121.000us      24.200us             5  
                                             fusion_634         0.00%       0.000us         0.00%       0.000us       0.000us     115.000us         1.28%     115.000us      23.000us             5  
                                             fusion_632         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         1.23%     110.000us      22.000us             5  
                                             fusion_625         0.00%       0.000us         0.00%       0.000us       0.000us     109.000us         1.22%     109.000us      21.800us             5  
                                  wrapped_concatenate_0         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         1.21%     108.000us       9.000us            12  
                                             fusion_629         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         1.12%     100.000us      20.000us             5  
                                             fusion_627         0.00%       0.000us         0.00%       0.000us       0.000us      92.000us         1.03%      92.000us      18.400us             5  
                                             fusion_619         0.00%       0.000us         0.00%       0.000us       0.000us      78.000us         0.87%      78.000us      13.000us             6  
                                             fusion_624         0.00%       0.000us         0.00%       0.000us       0.000us      75.000us         0.84%      75.000us      15.000us             5  
                                             fusion_622         0.00%       0.000us         0.00%       0.000us       0.000us      70.000us         0.78%      70.000us      14.000us             5  
                                             fusion_620         0.00%       0.000us         0.00%       0.000us       0.000us      56.000us         0.63%      56.000us      11.200us             5  
                                             fusion_617         0.00%       0.000us         0.00%       0.000us       0.000us      55.000us         0.61%      55.000us       9.167us             6  
                                             fusion_601         0.00%       0.000us         0.00%       0.000us       0.000us      48.000us         0.54%      48.000us       2.000us            24  
                                             fusion_608         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.51%      46.000us       2.000us            23  
                                             fusion_615         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.33%      30.000us      30.000us             1  
                                             fusion_614         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.29%      26.000us      26.000us             1  
                                             fusion_609         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.28%      25.000us      25.000us             1  
                                             fusion_612         0.00%       0.000us         0.00%       0.000us       0.000us      23.000us         0.26%      23.000us      23.000us             1  
                                             fusion_610         0.00%       0.000us         0.00%       0.000us       0.000us      22.000us         0.25%      22.000us      22.000us             1  
                                             fusion_604         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.21%      19.000us      19.000us             1  
                                             fusion_607         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.20%      18.000us      18.000us             1  
                                             fusion_605         0.00%       0.000us         0.00%       0.000us       0.000us      16.000us         0.18%      16.000us      16.000us             1  
                                             fusion_602         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.16%      14.000us      14.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      13.000us         0.15%      13.000us      13.000us             1  
                                             fusion_600         0.00%       0.000us         0.00%       0.000us       0.000us      11.000us         0.12%      11.000us      11.000us             1  
                                             fusion_586         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.07%       6.000us       6.000us             1  
                                             fusion_599         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                                             fusion_603         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        10.01%     172.000us        10.01%     172.000us     172.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        47.09%     809.000us        47.09%     809.000us     809.000us       0.000us         0.00%       0.000us       0.000us             1  
          cudaOccupancyMaxActiveBlocksPerMultiprocessor         0.47%       8.000us         0.47%       8.000us       0.111us       0.000us         0.00%       0.000us       0.000us            72  
                                       cudaLaunchKernel        20.31%     349.000us        20.31%     349.000us       4.847us       0.000us         0.00%       0.000us       0.000us            72  
                                         cuLaunchKernel        21.07%     362.000us        21.07%     362.000us       3.694us       0.000us         0.00%       0.000us       0.000us            98  
                                  cudaDeviceSynchronize         1.05%      18.000us         1.05%      18.000us      18.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.718ms
Self CUDA time total: 8.957ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
ampere_bf16_s16816gemm_bf16_128x256_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.680ms        18.76%       1.680ms      70.000us            24  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.426ms        15.92%       1.426ms     118.833us            12  
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.136ms        12.68%       1.136ms      94.667us            12  
                                             fusion_560         0.00%       0.000us         0.00%       0.000us       0.000us     912.000us        10.18%     912.000us      76.000us            12  
                                             fusion_571         0.00%       0.000us         0.00%       0.000us       0.000us     372.000us         4.15%     372.000us      31.000us            12  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us     324.000us         3.62%     324.000us      27.000us            12  
ampere_bf16_s16816gemm_bf16_128x64_ldg8_f2f_stages_3...         0.00%       0.000us         0.00%       0.000us       0.000us     307.000us         3.43%     307.000us      25.583us            12  
                                             fusion_570         0.00%       0.000us         0.00%       0.000us       0.000us     297.000us         3.32%     297.000us      24.750us            12  
                                             fusion_573         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         3.22%     288.000us      24.000us            12  
                                             fusion_575         0.00%       0.000us         0.00%       0.000us       0.000us     189.000us         2.11%     189.000us      15.750us            12  
                                             fusion_635         0.00%       0.000us         0.00%       0.000us       0.000us     176.000us         1.96%     176.000us      35.200us             5  
                                             fusion_569         0.00%       0.000us         0.00%       0.000us       0.000us     168.000us         1.88%     168.000us      14.000us            12  
                                             fusion_576         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         1.64%     147.000us      12.250us            12  
                                             fusion_568         0.00%       0.000us         0.00%       0.000us       0.000us     132.000us         1.47%     132.000us      11.000us            12  
                                             fusion_630         0.00%       0.000us         0.00%       0.000us       0.000us     121.000us         1.35%     121.000us      24.200us             5  
                                             fusion_634         0.00%       0.000us         0.00%       0.000us       0.000us     115.000us         1.28%     115.000us      23.000us             5  
                                             fusion_632         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         1.23%     110.000us      22.000us             5  
                                  wrapped_concatenate_0         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         1.21%     108.000us       9.000us            12  
                                             fusion_625         0.00%       0.000us         0.00%       0.000us       0.000us     105.000us         1.17%     105.000us      21.000us             5  
                                             fusion_629         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         1.12%     100.000us      20.000us             5  
                                             fusion_627         0.00%       0.000us         0.00%       0.000us       0.000us      90.000us         1.00%      90.000us      18.000us             5  
                                             fusion_619         0.00%       0.000us         0.00%       0.000us       0.000us      78.000us         0.87%      78.000us      13.000us             6  
                                             fusion_624         0.00%       0.000us         0.00%       0.000us       0.000us      75.000us         0.84%      75.000us      15.000us             5  
                                             fusion_622         0.00%       0.000us         0.00%       0.000us       0.000us      70.000us         0.78%      70.000us      14.000us             5  
                                             fusion_620         0.00%       0.000us         0.00%       0.000us       0.000us      56.000us         0.63%      56.000us      11.200us             5  
                                             fusion_617         0.00%       0.000us         0.00%       0.000us       0.000us      55.000us         0.61%      55.000us       9.167us             6  
                                             fusion_601         0.00%       0.000us         0.00%       0.000us       0.000us      48.000us         0.54%      48.000us       2.000us            24  
                                             fusion_608         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.51%      46.000us       2.000us            23  
                                             fusion_615         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.33%      30.000us      30.000us             1  
                                             fusion_614         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.29%      26.000us      26.000us             1  
                                             fusion_609         0.00%       0.000us         0.00%       0.000us       0.000us      24.000us         0.27%      24.000us      24.000us             1  
                                             fusion_612         0.00%       0.000us         0.00%       0.000us       0.000us      23.000us         0.26%      23.000us      23.000us             1  
                                             fusion_610         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.23%      21.000us      21.000us             1  
                                             fusion_604         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.21%      19.000us      19.000us             1  
                                             fusion_607         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.21%      19.000us      19.000us             1  
                                             fusion_605         0.00%       0.000us         0.00%       0.000us       0.000us      16.000us         0.18%      16.000us      16.000us             1  
                                             fusion_602         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.16%      14.000us      14.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      13.000us         0.15%      13.000us      13.000us             1  
                                             fusion_600         0.00%       0.000us         0.00%       0.000us       0.000us      11.000us         0.12%      11.000us      11.000us             1  
                                             fusion_586         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.07%       6.000us       6.000us             1  
                                             fusion_599         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                                             fusion_603         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        10.89%     176.000us        10.89%     176.000us     176.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        44.68%     722.000us        44.68%     722.000us     722.000us       0.000us         0.00%       0.000us       0.000us             1  
          cudaOccupancyMaxActiveBlocksPerMultiprocessor         0.80%      13.000us         0.80%      13.000us       0.181us       0.000us         0.00%       0.000us       0.000us            72  
                                       cudaLaunchKernel        20.92%     338.000us        20.92%     338.000us       4.694us       0.000us         0.00%       0.000us       0.000us            72  
                                         cuLaunchKernel        21.66%     350.000us        21.66%     350.000us       3.571us       0.000us         0.00%       0.000us       0.000us            98  
                                  cudaDeviceSynchronize         1.05%      17.000us         1.05%      17.000us      17.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.616ms
Self CUDA time total: 8.957ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
ampere_bf16_s16816gemm_bf16_128x256_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.680ms        18.75%       1.680ms      70.000us            24  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.426ms        15.91%       1.426ms     118.833us            12  
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.134ms        12.65%       1.134ms      94.500us            12  
                                             fusion_560         0.00%       0.000us         0.00%       0.000us       0.000us     912.000us        10.18%     912.000us      76.000us            12  
                                             fusion_571         0.00%       0.000us         0.00%       0.000us       0.000us     372.000us         4.15%     372.000us      31.000us            12  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us     325.000us         3.63%     325.000us      27.083us            12  
ampere_bf16_s16816gemm_bf16_128x64_ldg8_f2f_stages_3...         0.00%       0.000us         0.00%       0.000us       0.000us     311.000us         3.47%     311.000us      25.917us            12  
                                             fusion_570         0.00%       0.000us         0.00%       0.000us       0.000us     296.000us         3.30%     296.000us      24.667us            12  
                                             fusion_573         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         3.21%     288.000us      24.000us            12  
                                             fusion_575         0.00%       0.000us         0.00%       0.000us       0.000us     188.000us         2.10%     188.000us      15.667us            12  
                                             fusion_635         0.00%       0.000us         0.00%       0.000us       0.000us     177.000us         1.98%     177.000us      35.400us             5  
                                             fusion_569         0.00%       0.000us         0.00%       0.000us       0.000us     168.000us         1.87%     168.000us      14.000us            12  
                                             fusion_576         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         1.64%     147.000us      12.250us            12  
                                             fusion_568         0.00%       0.000us         0.00%       0.000us       0.000us     132.000us         1.47%     132.000us      11.000us            12  
                                             fusion_630         0.00%       0.000us         0.00%       0.000us       0.000us     121.000us         1.35%     121.000us      24.200us             5  
                                             fusion_634         0.00%       0.000us         0.00%       0.000us       0.000us     115.000us         1.28%     115.000us      23.000us             5  
                                             fusion_632         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         1.23%     110.000us      22.000us             5  
                                  wrapped_concatenate_0         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         1.21%     108.000us       9.000us            12  
                                             fusion_625         0.00%       0.000us         0.00%       0.000us       0.000us     107.000us         1.19%     107.000us      21.400us             5  
                                             fusion_629         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         1.12%     100.000us      20.000us             5  
                                             fusion_627         0.00%       0.000us         0.00%       0.000us       0.000us      90.000us         1.00%      90.000us      18.000us             5  
                                             fusion_619         0.00%       0.000us         0.00%       0.000us       0.000us      79.000us         0.88%      79.000us      13.167us             6  
                                             fusion_624         0.00%       0.000us         0.00%       0.000us       0.000us      75.000us         0.84%      75.000us      15.000us             5  
                                             fusion_622         0.00%       0.000us         0.00%       0.000us       0.000us      70.000us         0.78%      70.000us      14.000us             5  
                                             fusion_617         0.00%       0.000us         0.00%       0.000us       0.000us      56.000us         0.62%      56.000us       9.333us             6  
                                             fusion_620         0.00%       0.000us         0.00%       0.000us       0.000us      56.000us         0.62%      56.000us      11.200us             5  
                                             fusion_601         0.00%       0.000us         0.00%       0.000us       0.000us      48.000us         0.54%      48.000us       2.000us            24  
                                             fusion_608         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.51%      46.000us       2.000us            23  
                                             fusion_615         0.00%       0.000us         0.00%       0.000us       0.000us      29.000us         0.32%      29.000us      29.000us             1  
                                             fusion_614         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.29%      26.000us      26.000us             1  
                                             fusion_609         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.28%      25.000us      25.000us             1  
                                             fusion_612         0.00%       0.000us         0.00%       0.000us       0.000us      23.000us         0.26%      23.000us      23.000us             1  
                                             fusion_610         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.23%      21.000us      21.000us             1  
                                             fusion_604         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.21%      19.000us      19.000us             1  
                                             fusion_607         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.20%      18.000us      18.000us             1  
                                             fusion_605         0.00%       0.000us         0.00%       0.000us       0.000us      16.000us         0.18%      16.000us      16.000us             1  
                                             fusion_602         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.16%      14.000us      14.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      13.000us         0.15%      13.000us      13.000us             1  
                                             fusion_600         0.00%       0.000us         0.00%       0.000us       0.000us      11.000us         0.12%      11.000us      11.000us             1  
                                             fusion_586         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.07%       6.000us       6.000us             1  
                                             fusion_599         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                                             fusion_603         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        10.08%     167.000us        10.08%     167.000us     167.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        45.05%     746.000us        45.05%     746.000us     746.000us       0.000us         0.00%       0.000us       0.000us             1  
          cudaOccupancyMaxActiveBlocksPerMultiprocessor         0.36%       6.000us         0.36%       6.000us       0.083us       0.000us         0.00%       0.000us       0.000us            72  
                                       cudaLaunchKernel        20.47%     339.000us        20.47%     339.000us       4.708us       0.000us         0.00%       0.000us       0.000us            72  
                                         cuLaunchKernel        22.95%     380.000us        22.95%     380.000us       3.878us       0.000us         0.00%       0.000us       0.000us            98  
                                  cudaDeviceSynchronize         1.09%      18.000us         1.09%      18.000us      18.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.656ms
Self CUDA time total: 8.962ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
ampere_bf16_s16816gemm_bf16_128x256_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.681ms        18.76%       1.681ms      70.042us            24  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.427ms        15.92%       1.427ms     118.917us            12  
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.134ms        12.65%       1.134ms      94.500us            12  
                                             fusion_560         0.00%       0.000us         0.00%       0.000us       0.000us     912.000us        10.18%     912.000us      76.000us            12  
                                             fusion_571         0.00%       0.000us         0.00%       0.000us       0.000us     372.000us         4.15%     372.000us      31.000us            12  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us     323.000us         3.60%     323.000us      26.917us            12  
ampere_bf16_s16816gemm_bf16_128x64_ldg8_f2f_stages_3...         0.00%       0.000us         0.00%       0.000us       0.000us     309.000us         3.45%     309.000us      25.750us            12  
                                             fusion_570         0.00%       0.000us         0.00%       0.000us       0.000us     300.000us         3.35%     300.000us      25.000us            12  
                                             fusion_573         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         3.21%     288.000us      24.000us            12  
                                             fusion_575         0.00%       0.000us         0.00%       0.000us       0.000us     187.000us         2.09%     187.000us      15.583us            12  
                                             fusion_635         0.00%       0.000us         0.00%       0.000us       0.000us     176.000us         1.96%     176.000us      35.200us             5  
                                             fusion_569         0.00%       0.000us         0.00%       0.000us       0.000us     168.000us         1.87%     168.000us      14.000us            12  
                                             fusion_576         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         1.64%     147.000us      12.250us            12  
                                             fusion_568         0.00%       0.000us         0.00%       0.000us       0.000us     132.000us         1.47%     132.000us      11.000us            12  
                                             fusion_630         0.00%       0.000us         0.00%       0.000us       0.000us     120.000us         1.34%     120.000us      24.000us             5  
                                             fusion_634         0.00%       0.000us         0.00%       0.000us       0.000us     115.000us         1.28%     115.000us      23.000us             5  
                                             fusion_632         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         1.23%     110.000us      22.000us             5  
                                  wrapped_concatenate_0         0.00%       0.000us         0.00%       0.000us       0.000us     109.000us         1.22%     109.000us       9.083us            12  
                                             fusion_625         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         1.21%     108.000us      21.600us             5  
                                             fusion_629         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         1.12%     100.000us      20.000us             5  
                                             fusion_627         0.00%       0.000us         0.00%       0.000us       0.000us      90.000us         1.00%      90.000us      18.000us             5  
                                             fusion_619         0.00%       0.000us         0.00%       0.000us       0.000us      78.000us         0.87%      78.000us      13.000us             6  
                                             fusion_624         0.00%       0.000us         0.00%       0.000us       0.000us      73.000us         0.81%      73.000us      14.600us             5  
                                             fusion_622         0.00%       0.000us         0.00%       0.000us       0.000us      70.000us         0.78%      70.000us      14.000us             5  
                                             fusion_617         0.00%       0.000us         0.00%       0.000us       0.000us      56.000us         0.62%      56.000us       9.333us             6  
                                             fusion_620         0.00%       0.000us         0.00%       0.000us       0.000us      56.000us         0.62%      56.000us      11.200us             5  
                                             fusion_601         0.00%       0.000us         0.00%       0.000us       0.000us      48.000us         0.54%      48.000us       2.000us            24  
                                             fusion_608         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.51%      46.000us       2.000us            23  
                                             fusion_615         0.00%       0.000us         0.00%       0.000us       0.000us      30.000us         0.33%      30.000us      30.000us             1  
                                             fusion_614         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.29%      26.000us      26.000us             1  
                                             fusion_609         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.28%      25.000us      25.000us             1  
                                             fusion_612         0.00%       0.000us         0.00%       0.000us       0.000us      23.000us         0.26%      23.000us      23.000us             1  
                                             fusion_610         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.23%      21.000us      21.000us             1  
                                             fusion_604         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.21%      19.000us      19.000us             1  
                                             fusion_607         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.20%      18.000us      18.000us             1  
                                             fusion_605         0.00%       0.000us         0.00%       0.000us       0.000us      16.000us         0.18%      16.000us      16.000us             1  
                                             fusion_602         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.16%      14.000us      14.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      13.000us         0.15%      13.000us      13.000us             1  
                                             fusion_600         0.00%       0.000us         0.00%       0.000us       0.000us      11.000us         0.12%      11.000us      11.000us             1  
                                             fusion_586         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.07%       6.000us       6.000us             1  
                                             fusion_599         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                                             fusion_603         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        10.15%     163.000us        10.15%     163.000us     163.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        45.77%     735.000us        45.77%     735.000us     735.000us       0.000us         0.00%       0.000us       0.000us             1  
          cudaOccupancyMaxActiveBlocksPerMultiprocessor         0.50%       8.000us         0.50%       8.000us       0.111us       0.000us         0.00%       0.000us       0.000us            72  
                                       cudaLaunchKernel        20.36%     327.000us        20.36%     327.000us       4.542us       0.000us         0.00%       0.000us       0.000us            72  
                                         cuLaunchKernel        22.17%     356.000us        22.17%     356.000us       3.633us       0.000us         0.00%       0.000us       0.000us            98  
                                  cudaDeviceSynchronize         1.06%      17.000us         1.06%      17.000us      17.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.606ms
Self CUDA time total: 8.961ms
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
ampere_bf16_s16816gemm_bf16_128x256_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.680ms        18.75%       1.680ms      70.000us            24  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.426ms        15.92%       1.426ms     118.833us            12  
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us       1.135ms        12.67%       1.135ms      94.583us            12  
                                             fusion_560         0.00%       0.000us         0.00%       0.000us       0.000us     912.000us        10.18%     912.000us      76.000us            12  
                                             fusion_571         0.00%       0.000us         0.00%       0.000us       0.000us     372.000us         4.15%     372.000us      31.000us            12  
ampere_bf16_s16816gemm_bf16_128x128_ldg8_f2f_stages_...         0.00%       0.000us         0.00%       0.000us       0.000us     324.000us         3.62%     324.000us      27.000us            12  
ampere_bf16_s16816gemm_bf16_128x64_ldg8_f2f_stages_3...         0.00%       0.000us         0.00%       0.000us       0.000us     310.000us         3.46%     310.000us      25.833us            12  
                                             fusion_570         0.00%       0.000us         0.00%       0.000us       0.000us     294.000us         3.28%     294.000us      24.500us            12  
                                             fusion_573         0.00%       0.000us         0.00%       0.000us       0.000us     288.000us         3.22%     288.000us      24.000us            12  
                                             fusion_575         0.00%       0.000us         0.00%       0.000us       0.000us     189.000us         2.11%     189.000us      15.750us            12  
                                             fusion_635         0.00%       0.000us         0.00%       0.000us       0.000us     177.000us         1.98%     177.000us      35.400us             5  
                                             fusion_569         0.00%       0.000us         0.00%       0.000us       0.000us     168.000us         1.88%     168.000us      14.000us            12  
                                             fusion_576         0.00%       0.000us         0.00%       0.000us       0.000us     147.000us         1.64%     147.000us      12.250us            12  
                                             fusion_568         0.00%       0.000us         0.00%       0.000us       0.000us     132.000us         1.47%     132.000us      11.000us            12  
                                             fusion_630         0.00%       0.000us         0.00%       0.000us       0.000us     120.000us         1.34%     120.000us      24.000us             5  
                                             fusion_634         0.00%       0.000us         0.00%       0.000us       0.000us     114.000us         1.27%     114.000us      22.800us             5  
                                             fusion_632         0.00%       0.000us         0.00%       0.000us       0.000us     110.000us         1.23%     110.000us      22.000us             5  
                                  wrapped_concatenate_0         0.00%       0.000us         0.00%       0.000us       0.000us     108.000us         1.21%     108.000us       9.000us            12  
                                             fusion_625         0.00%       0.000us         0.00%       0.000us       0.000us     107.000us         1.19%     107.000us      21.400us             5  
                                             fusion_629         0.00%       0.000us         0.00%       0.000us       0.000us     100.000us         1.12%     100.000us      20.000us             5  
                                             fusion_627         0.00%       0.000us         0.00%       0.000us       0.000us      92.000us         1.03%      92.000us      18.400us             5  
                                             fusion_619         0.00%       0.000us         0.00%       0.000us       0.000us      78.000us         0.87%      78.000us      13.000us             6  
                                             fusion_624         0.00%       0.000us         0.00%       0.000us       0.000us      74.000us         0.83%      74.000us      14.800us             5  
                                             fusion_622         0.00%       0.000us         0.00%       0.000us       0.000us      70.000us         0.78%      70.000us      14.000us             5  
                                             fusion_617         0.00%       0.000us         0.00%       0.000us       0.000us      57.000us         0.64%      57.000us       9.500us             6  
                                             fusion_620         0.00%       0.000us         0.00%       0.000us       0.000us      55.000us         0.61%      55.000us      11.000us             5  
                                             fusion_601         0.00%       0.000us         0.00%       0.000us       0.000us      48.000us         0.54%      48.000us       2.000us            24  
                                             fusion_608         0.00%       0.000us         0.00%       0.000us       0.000us      46.000us         0.51%      46.000us       2.000us            23  
                                             fusion_615         0.00%       0.000us         0.00%       0.000us       0.000us      29.000us         0.32%      29.000us      29.000us             1  
                                             fusion_614         0.00%       0.000us         0.00%       0.000us       0.000us      26.000us         0.29%      26.000us      26.000us             1  
                                             fusion_609         0.00%       0.000us         0.00%       0.000us       0.000us      25.000us         0.28%      25.000us      25.000us             1  
                                             fusion_612         0.00%       0.000us         0.00%       0.000us       0.000us      23.000us         0.26%      23.000us      23.000us             1  
                                             fusion_610         0.00%       0.000us         0.00%       0.000us       0.000us      21.000us         0.23%      21.000us      21.000us             1  
                                             fusion_604         0.00%       0.000us         0.00%       0.000us       0.000us      19.000us         0.21%      19.000us      19.000us             1  
                                             fusion_607         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.20%      18.000us      18.000us             1  
                                             fusion_605         0.00%       0.000us         0.00%       0.000us       0.000us      16.000us         0.18%      16.000us      16.000us             1  
                                             fusion_602         0.00%       0.000us         0.00%       0.000us       0.000us      14.000us         0.16%      14.000us      14.000us             1  
                                             fusion_295         0.00%       0.000us         0.00%       0.000us       0.000us      13.000us         0.15%      13.000us      13.000us             1  
                                             fusion_600         0.00%       0.000us         0.00%       0.000us       0.000us      11.000us         0.12%      11.000us      11.000us             1  
                                             fusion_586         0.00%       0.000us         0.00%       0.000us       0.000us       6.000us         0.07%       6.000us       6.000us             1  
                                             fusion_599         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                                             fusion_603         0.00%       0.000us         0.00%       0.000us       0.000us       2.000us         0.02%       2.000us       2.000us             1  
                               TorchDynamo Cache Lookup        10.28%     168.000us        10.28%     168.000us     168.000us       0.000us         0.00%       0.000us       0.000us             1  
                                  Torch-Compiled Region        46.45%     759.000us        46.45%     759.000us     759.000us       0.000us         0.00%       0.000us       0.000us             1  
          cudaOccupancyMaxActiveBlocksPerMultiprocessor         0.49%       8.000us         0.49%       8.000us       0.111us       0.000us         0.00%       0.000us       0.000us            72  
                                       cudaLaunchKernel        20.32%     332.000us        20.32%     332.000us       4.611us       0.000us         0.00%       0.000us       0.000us            72  
                                         cuLaunchKernel        21.48%     351.000us        21.48%     351.000us       3.582us       0.000us         0.00%       0.000us       0.000us            98  
                                  cudaDeviceSynchronize         0.98%      16.000us         0.98%      16.000us      16.000us       0.000us         0.00%       0.000us       0.000us             1  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 1.634ms
Self CUDA time total: 8.958ms

golechwierowicz · 2024-02-16T13:56:22Z

Thank you! Looks good to push forward.

…cision. (pytorch#6518)

…cision. (#6518)

ysiraichi added the xla:gpu label Feb 10, 2024

This comment was marked as outdated.

Sign in to view

ysiraichi mentioned this pull request Feb 12, 2024

Failing Torchbench Models: tracking issue #5932

Open

Remove precision flag assignment.

4864f13

- Pick data type based on `test`. - Create `cast_to_dtype` function.

ysiraichi force-pushed the ysiraichi/remove-precision-flag branch from f83895a to 4864f13 Compare February 12, 2024 13:24

ysiraichi added 2 commits February 12, 2024 10:25

Fix rebase.

f3e8e5d

Do nothing if no conversion dtype.

74c57e9

This was referenced Feb 12, 2024

[torchbench] Background_Matting fails when lowering UpsampleBilinear2D #6520

Open

[torchbench] hf_GPT2 (large, too) fails to run on bfloat16 dtype. #6521

Closed

ysiraichi marked this pull request as ready for review February 12, 2024 19:29

ysiraichi added 2 commits February 12, 2024 16:30

Fix test check.

99eea4d

Fix renamed method.

f1df97a

ysiraichi requested review from frgossen, golechwierowicz, cota, vanbasten23 and zpcore and removed request for frgossen February 15, 2024 14:34

ysiraichi mentioned this pull request Feb 15, 2024

[benchmarks] Run some models with smaller batch sizes. #6542

Merged

frgossen reviewed Feb 15, 2024

View reviewed changes

frgossen approved these changes Feb 15, 2024

View reviewed changes

benchmarks/torchbench_model.py

@@ -144,6 +144,18 @@

"hf_T5_generate",

}

FORCE_AMP_FOR_FP16_BF16_MODELS = {

Copy link

Collaborator

frgossen Feb 15, 2024

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ty

golechwierowicz approved these changes Feb 16, 2024

View reviewed changes

ysiraichi merged commit 20692cb into master Feb 16, 2024
18 checks passed

ysiraichi mentioned this pull request Feb 29, 2024

[torchbench] llama failing when executed with bfloat16 data-type. #6648

Closed

ysiraichi mentioned this pull request Feb 29, 2024

[torchbench] timm_nfnet training fails to run on AMP precision. #6649

Closed

amithrm pushed a commit to amithrm/xla that referenced this pull request Mar 1, 2024

[benchmarks] Default to bfloat16 (inference) and AMP (training) pre…

b922caf

…cision. (pytorch#6518)

bhavya01 pushed a commit that referenced this pull request Apr 22, 2024

[benchmarks] Default to bfloat16 (inference) and AMP (training) pre…

3110c00

…cision. (#6518)

ysiraichi mentioned this pull request May 15, 2024

[benchmarks] Fix AMP setup for torchbench models. #7067

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[benchmarks] Default to `bfloat16` (inference) and AMP (training) precision. #6518

[benchmarks] Default to `bfloat16` (inference) and AMP (training) precision. #6518

ysiraichi commented Feb 10, 2024

This comment was marked as outdated.

ysiraichi commented Feb 15, 2024

frgossen left a comment

frgossen Feb 15, 2024

ysiraichi Feb 15, 2024

ysiraichi Feb 15, 2024

frgossen Feb 15, 2024

vanbasten23 Feb 17, 2024

ysiraichi Feb 17, 2024

frgossen Feb 15, 2024

golechwierowicz left a comment

ysiraichi commented Feb 16, 2024

ysiraichi commented Feb 16, 2024 •

edited

Loading

ysiraichi commented Feb 16, 2024

golechwierowicz commented Feb 16, 2024

[benchmarks] Default to bfloat16 (inference) and AMP (training) precision. #6518

[benchmarks] Default to bfloat16 (inference) and AMP (training) precision. #6518

Conversation

ysiraichi commented Feb 10, 2024

This comment was marked as outdated.

ysiraichi commented Feb 15, 2024

frgossen left a comment

Choose a reason for hiding this comment

frgossen Feb 15, 2024

Choose a reason for hiding this comment

ysiraichi Feb 15, 2024

Choose a reason for hiding this comment

ysiraichi Feb 15, 2024

Choose a reason for hiding this comment

frgossen Feb 15, 2024

Choose a reason for hiding this comment

vanbasten23 Feb 17, 2024

Choose a reason for hiding this comment

ysiraichi Feb 17, 2024

Choose a reason for hiding this comment

frgossen Feb 15, 2024

Choose a reason for hiding this comment

golechwierowicz left a comment

Choose a reason for hiding this comment

ysiraichi commented Feb 16, 2024

ysiraichi commented Feb 16, 2024 • edited Loading

ysiraichi commented Feb 16, 2024

golechwierowicz commented Feb 16, 2024

[benchmarks] Default to `bfloat16` (inference) and AMP (training) precision. #6518

[benchmarks] Default to `bfloat16` (inference) and AMP (training) precision. #6518

ysiraichi commented Feb 16, 2024 •

edited

Loading