configs/recognition/slowfast/slowfast.yaml

MODEL: #MODEL field
  framework: "Recognizer3D"
  backbone:
    name: "ResNetSlowFast"
    depth: 50 # Not Optional, only 50 now.
    alpha: 8
    beta: 8
    width_per_group: 64
    fusion_kernel_sz: 5
  head:
    name: "SlowFastHead"
    width_per_group: 64
    alpha: 8
    beta: 8
    num_classes: 400
    num_frames: 32
    crop_size: 224  #independent to test or train mode
    dropout_rate: 0.5

DATASET: #DATASET field
  batch_size: 8  #single card bacth size
  test_batch_size: 8
  num_workers: 8
  train:
    format: "SFVideoDataset"
    file_path: "./data/k400/train.csv" #Mandatory, train data index file path
  valid:
    format: "SFVideoDataset"
    file_path: "./data/k400/val.csv" #Mandatory, valid data index file path
  test:
    format: "SFVideoDataset"
    file_path: "./data/k400/val.csv" #Mandatory, test data index file path
    num_ensemble_views: 10
    num_spatial_crops: 3

PIPELINE:
  train:
    decode_sampler:
      name: "DecodeSampler"
      num_frames: 32
      sampling_rate: 2
    transform: #Mandotary, image transfrom operator
      - JitterScale:
          min_size: 256
          max_size: 320
      - MultiCrop:
          target_size: 224
      - RandomFlip:
      - Image2Array:
          transpose: False
      - Normalization:
          mean: [0.45, 0.45, 0.45]
          std: [0.225, 0.225, 0.225]
          tensor_shape: [1, 1, 1, 3]
      - PackOutput:
          alpha: 8

  valid:
    decode_sampler:
      name: "DecodeSampler"
      num_frames: 32
      sampling_rate: 2
    transform: #Mandotary, image transfrom operator
      - JitterScale:
          min_size: 256
          max_size: 320
      - MultiCrop:
          target_size: 224
      - RandomFlip:
      - Image2Array:
          transpose: False
      - Normalization:
          mean: [0.45, 0.45, 0.45]
          std: [0.225, 0.225, 0.225]
          tensor_shape: [1, 1, 1, 3]
      - PackOutput:
          alpha: 8

  test:
    decode_sampler:
      name: "DecodeSampler"
      num_frames: 32
      sampling_rate: 2
      test_mode: True
    transform: #Mandotary, image transfrom operator
      - JitterScale:
          min_size: 256
          max_size: 256
      - MultiCrop:
          target_size: 256
          test_mode: True
      - Image2Array:
          transpose: False
      - Normalization:
          mean: [0.45, 0.45, 0.45]
          std: [0.225, 0.225, 0.225]
          tensor_shape: [1, 1, 1, 3]
      - PackOutput:
          alpha: 8

OPTIMIZER: #OPTIMIZER field
  name: 'Momentum'
  momentum: 0.9
  learning_rate:
    iter_step: True
    name: 'CustomWarmupCosineDecay'
    max_epoch: 196
    warmup_epochs: 34
    warmup_start_lr: 0.01
    cosine_base_lr: 0.1
  weight_decay:
    name: 'L2'
    value: 1e-4
  use_nesterov: True

METRIC:
  name: 'MultiCropMetric'
  num_ensemble_views: 10
  num_spatial_crops: 3
  num_classes: 400

PRECISEBN:
  preciseBN_interval: 10
  num_iters_preciseBN: 200  #default

model_name: SlowFast
save_interval: 10
val_interval: 10
epochs: 196 #Mandatory, total epoch
log_level: "INFO"