eval_args.py

import argparse
import time
import torch.backends.cudnn as cudnn
import torch.optim
import torch.utils.data
import torchvision.transforms as transforms
from torch import nn
from torch.nn.utils.rnn import pack_padded_sequence
from models_extended import *
from datasets import *
from utils import *
from params_class import *
import torch.nn.functional as F
from nltk.translate.bleu_score import corpus_bleu

# Cuda
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")  # sets device for model and PyTorch tensors
print(f"Device: {device}")
cudnn.benchmark = True  # set to true only if inputs to model are fixed size; otherwise lot of computational overhead

def evaluate(beam_size):

    """
    Evaluation

    :param beam_size: beam size at which to generate captions for evaluation
    :return: BLEU-4 score
    """
    args = _parse_arguments()
    (data_path,
    data_folder, 
    data_name, 
    data_checkpoint, 
    data_best_checkpoint, 
    data_target_best_checkpoint,
    data_word_map_file, 
    data_train_log, 
    data_val_log, 
    data_train_mean,  
    data_train_std, 
    data_val_mean, 
    data_val_std, 
    data_test_mean, 
    data_test_std,
    emb_dim,
    attention_dim,
    decoder_dim,
    dropout )= return_params(args.which_data, args.which_model)

    # Load word map (word2ix)
    with open(data_word_map_file, 'r') as j:
        word_map = json.load(j)
    rev_word_map = {v: k for k, v in word_map.items()}
    vocab_size = len(word_map)

    # Initialize model
    decoder = DecoderWithAttention(attention_dim=attention_dim,
                                    embed_dim=emb_dim,
                                    decoder_dim=decoder_dim,
                                    vocab_size=vocab_size,
                                    dropout=dropout)

    if args.which_model == "resnet101":
        encoder = ResNet101Encoder()  # I kept it as text right now but you can import model
        print("ResNet101Encoder")
    elif args.which_model == "resnet152":
        encoder = ResNet152Encoder()
        print("ResNet152Encoder")
    elif args.which_model == "resnet50":
        encoder = ResNet50Encoder()
        print("ResNet50Encoder")
    # elif args.which_model == "resnet34":
    #     encoder = ResNet34Encoder()
    #     print("ResNet34Encoder")
    # elif args.which_model == "resnet18":
    #     encoder = ResNet18Encoder()
    #     print("ResNet18Encoder")
    else:
        print(
            f"User selected {args.which_model} model not found.\r\nPlease select one of the available models ('resnet50', 'resnet101', or 'resnet152') correctly."
        ) 
        exit()

    # Move to GPU, if available
    decoder = decoder.to(device)
    encoder = encoder.to(device)

    # Load model
    print(f"Checkpoint name: {data_best_checkpoint}")
    checkpoint = torch.load(data_best_checkpoint, map_location=(str(device)))
    # decoder = checkpoint['decoder']
    decoder.load_state_dict(checkpoint['decoder_state_dict'])
    # decoder = decoder.to(device)
    decoder.eval()
    # encoder = checkpoint['encoder']
    encoder.load_state_dict(checkpoint['encoder_state_dict'])
    encoder.fine_tune(False)
    # encoder = encoder.to(device)
    encoder.eval()

    # Normalization transform
    normalize = transforms.Normalize(mean=data_test_mean,
                                    std=data_test_std)

    # DataLoader
    loader = torch.utils.data.DataLoader(
        CaptionDataset(data_folder, data_name, 'TEST', transform=transforms.Compose([normalize])),
        batch_size=1, shuffle=True, num_workers=1, pin_memory=True)

    # TODO: Batched Beam Search
    # Therefore, do not use a batch_size greater than 1 - IMPORTANT!

    # Lists to store references (true captions), and hypothesis (prediction) for each image
    # If for n images, we have n hypotheses, and references a, b, c... for each image, we need -
    # references = [[ref1a, ref1b, ref1c], [ref2a, ref2b], ...], hypotheses = [hyp1, hyp2, ...]
    references = list()
    hypotheses = list()

    # For each image (batch_size of 1)
    for i, (image, ori_image, image_size, filename, caps, caplens, allcaps) in enumerate(
            tqdm(loader, desc="EVALUATING AT BEAM SIZE " + str(beam_size))):

        k = beam_size

        # Move to GPU device, if available
        image = image.to(device)  # (1, 3, 256, 256)

        # Encode
        encoder_out = encoder(image)  # (1, enc_image_size, enc_image_size, encoder_dim)
        enc_image_size = encoder_out.size(1)
        encoder_dim = encoder_out.size(3)

        # Flatten encoding
        encoder_out = encoder_out.view(1, -1, encoder_dim)  # (1, num_pixels, encoder_dim)
        num_pixels = encoder_out.size(1)

        # We'll treat the problem as having a batch size of k
        encoder_out = encoder_out.expand(k, num_pixels, encoder_dim)  # (k, num_pixels, encoder_dim)

        # Tensor to store top k previous words at each step; now they're just <start>
        k_prev_words = torch.LongTensor([[word_map['<start>']]] * k).to(device)  # (k, 1)

        # Tensor to store top k sequences; now they're just <start>
        seqs = k_prev_words  # (k, 1)

        # Tensor to store top k sequences' scores; now they're just 0
        top_k_scores = torch.zeros(k, 1).to(device)  # (k, 1)

        # Lists to store completed sequences and scores
        complete_seqs = list()
        complete_seqs_scores = list()

        # Start decoding
        step = 1
        h, c = decoder.init_hidden_state(encoder_out)

        smth_wrong = False
        # s is a number less than or equal to k, because sequences are removed from this process once they hit <end>
        while True:

            embeddings = decoder.embedding(k_prev_words).squeeze(1)  # (s, embed_dim)

            awe, _ = decoder.attention(encoder_out, h)  # (s, encoder_dim), (s, num_pixels)

            gate = decoder.sigmoid(decoder.f_beta(h))  # gating scalar, (s, encoder_dim)
            awe = gate * awe

            h, c = decoder.decode_step(torch.cat([embeddings, awe], dim=1), (h, c))  # (s, decoder_dim)

            scores = decoder.fc(h)  # (s, vocab_size)
            scores = F.log_softmax(scores, dim=1)

            # Add
            scores = top_k_scores.expand_as(scores) + scores  # (s, vocab_size)

            # For the first step, all k points will have the same scores (since same k previous words, h, c)
            if step == 1:
                top_k_scores, top_k_words = scores[0].topk(k, 0, True, True)  # (s)
            else:
                # Unroll and find top scores, and their unrolled indices
                top_k_scores, top_k_words = scores.view(-1).topk(k, 0, True, True)  # (s)

            # Convert unrolled indices to actual indices of scores
            # prev_word_inds = top_k_words / vocab_size  # (s)
            # prev_word_inds = torch.div(top_k_words, vocab_size) # (s)
            prev_word_inds = torch.div(top_k_words, vocab_size, rounding_mode='floor') # (s)
            next_word_inds = top_k_words % vocab_size  # (s)


            # Add new words to sequences
            seqs = torch.cat([seqs[prev_word_inds], next_word_inds.unsqueeze(1)], dim=1)  # (s, step+1)

            # Which sequences are incomplete (didn't reach <end>)?
            incomplete_inds = [ind for ind, next_word in enumerate(next_word_inds) if
                               next_word != word_map['<end>']]
            complete_inds = list(set(range(len(next_word_inds))) - set(incomplete_inds))

            # Set aside complete sequences
            if len(complete_inds) > 0:
                complete_seqs.extend(seqs[complete_inds].tolist())
                complete_seqs_scores.extend(top_k_scores[complete_inds])
            k -= len(complete_inds)  # reduce beam length accordingly

            # Proceed with incomplete sequences
            if k == 0:
                break
            seqs = seqs[incomplete_inds]
            h = h[prev_word_inds[incomplete_inds]]
            c = c[prev_word_inds[incomplete_inds]]
            encoder_out = encoder_out[prev_word_inds[incomplete_inds]]
            top_k_scores = top_k_scores[incomplete_inds].unsqueeze(1)
            k_prev_words = next_word_inds[incomplete_inds].unsqueeze(1)

            # Break if things have been going on too long
            if step > 50:
                smth_wrong = True # Predict wrong too many time and cannot came to <end> conclusion
                break
            step += 1

        if not smth_wrong:
            i = complete_seqs_scores.index(max(complete_seqs_scores))
            seq = complete_seqs[i]

        # References
        img_caps = allcaps[0].tolist()
        img_captions = list(
            map(lambda c: [w for w in c if w not in {word_map['<start>'], word_map['<end>'], word_map['<pad>']}],
                img_caps))  # remove <start> and pads
        references.append(img_captions)

        # Hypotheses
        hypotheses.append([w for w in seq if w not in {word_map['<start>'], word_map['<end>'], word_map['<pad>']}])

        assert len(references) == len(hypotheses)

    # Calculate BLEU-4 scores
    bleu4 = corpus_bleu(references, hypotheses)

    return bleu4

def _parse_arguments():
    argparser = argparse.ArgumentParser()
    argparser.add_argument("-m", "--which_model", type=str, 
    help="Which model to use 'resnet50', 'resnet101', or 'resnet152'", choices=["resnet50","resnet101", "resnet152"])
    argparser.add_argument("-d", "--which_data", type=str, 
    help="Which dataset to use 'coco2014', or 'flickr8k'", choices=["coco2014", "flickr8k"])
    argparser.add_argument("-b", "--beam_size", default=3, type=int,
    help="Beam size at which to generate captions for evaluation", choices=[1, 2, 3, 4, 5, 6, 7, 8])
    return argparser.parse_args()

if __name__ == "__main__":
    args = _parse_arguments()
    print("\nBLEU-4 score @ beam size of %d is %.4f." % (args.beam_size, evaluate(args.beam_size)))