tester.py

import os
import sys
import json
import torch
import pickle
import logging
import argparse

import evaluation
from model import get_model
from validate import norm_score, cal_perf

import util.tag_data_provider as data
from util.text2vec import get_text_encoder
import util.metrics as metrics
from util.vocab import Vocabulary

from basic.util import read_dict, log_config
from basic.constant import ROOT_PATH
from basic.bigfile import BigFile
from basic.common import makedirsforfile, checkToSkip


def parse_args():
    # Hyper Parameters
    parser = argparse.ArgumentParser()
    parser.add_argument('--rootpath', type=str, default=ROOT_PATH, help='path to datasets. (default: %s)' % ROOT_PATH)
    parser.add_argument('--testCollection', type=str, help='test collection')
    parser.add_argument('--collectionStrt', type=str, default='single', help='collection structure (single|multiple)')
    parser.add_argument('--split', default='test', type=str,
                        help='split, only for single-folder collection structure (val|test)')
    parser.add_argument('--overwrite', type=int, default=0, choices=[0, 1], help='overwrite existed file. (default: 0)')
    parser.add_argument('--log_step', default=100, type=int, help='Number of steps to print and record the log.')
    parser.add_argument('--batch_size', default=128, type=int, help='Size of a training mini-batch.')
    parser.add_argument('--workers', default=5, type=int, help='Number of data loader workers.')
    parser.add_argument('--logger_name', default='runs', help='Path to save the model and Tensorboard log.')
    parser.add_argument('--cv_name', default='cv_2021')
    parser.add_argument('--checkpoint_name', default='model_best.pth.tar', type=str,
                        help='name of checkpoint (default: model_best.pth.tar)')

    args = parser.parse_args()
    return args


def main():
    opt = parse_args()
    print(json.dumps(vars(opt), indent=2))

    rootpath = opt.rootpath
    collectionStrt = opt.collectionStrt
    resume = os.path.join(opt.logger_name, opt.checkpoint_name)

    if not os.path.exists(resume):
        logging.info(resume + ' not exists.')
        sys.exit(0)

    checkpoint = torch.load(resume)
    start_epoch = checkpoint['epoch']
    best_rsum = checkpoint['best_rsum']
    print("=> loaded checkpoint '{}' (epoch {}, best_rsum {})"
          .format(resume, start_epoch, best_rsum))
    options = checkpoint['opt']

    # collection setting
    testCollection = opt.testCollection
    collections_pathname = options.collections_pathname
    collections_pathname['test'] = testCollection
    # train
    for key in collections_pathname:
        if collections_pathname[key] == 'o_tgif':
            collections_pathname[key] = 'tgif_chen'
        elif collections_pathname[key] == 'tgif':
            collections_pathname[key] = 'tgif_li'
    print(collections_pathname)

    trainCollection = options.trainCollection
    output_dir = resume.replace(trainCollection, testCollection)
    if 'checkpoints' in output_dir:
        output_dir = output_dir.replace('/checkpoints/', '/results/')
    else:
        output_dir = output_dir.replace('/%s/' % opt.cv_name,
                                        '/results/%s/%s/' % (opt.cv_name, trainCollection))
    result_pred_sents = os.path.join(output_dir, 'id.sent.score.txt')
    pred_error_matrix_file = os.path.join(output_dir, 'pred_errors_matrix.pth.tar')
    if checkToSkip(pred_error_matrix_file, opt.overwrite):
        sys.exit(0)
    makedirsforfile(pred_error_matrix_file)

    log_config(output_dir)

    logging.info(json.dumps(vars(opt), indent=2))

    # data loader prepare
    test_cap = os.path.join(rootpath, collections_pathname['test'], 'TextData', '%s.caption.txt' % testCollection)
    if collectionStrt == 'single':
        test_cap = os.path.join(rootpath, collections_pathname['test'], 'TextData',
                                '%s%s.caption.txt' % (testCollection, opt.split))
    elif collectionStrt == 'multiple':
        test_cap = os.path.join(rootpath, collections_pathname['test'], 'TextData', '%s.caption.txt' % testCollection)
    else:
        raise NotImplementedError('collection structure %s not implemented' % collectionStrt)

    caption_files = {'test': test_cap}
    img_feat_path = os.path.join(rootpath, collections_pathname['test'], 'FeatureData', options.visual_feature)
    visual_feats = {'test': BigFile(img_feat_path)}
    assert options.visual_feat_dim == visual_feats['test'].ndims
    video2frames = {'test': read_dict(
        os.path.join(rootpath, collections_pathname['test'], 'FeatureData', options.visual_feature,
                     'video2frames.txt'))}

    # set bow vocabulary and encoding
    bow_vocab_file = os.path.join(rootpath, collections_pathname['train'], 'TextData', 'vocabulary', 'bow',
                                  options.vocab + '.pkl')
    bow_vocab = pickle.load(open(bow_vocab_file, 'rb'))
    bow2vec = get_text_encoder('bow')(bow_vocab)
    options.bow_vocab_size = len(bow_vocab)

    # set rnn vocabulary
    rnn_vocab_file = os.path.join(rootpath, collections_pathname['train'], 'TextData', 'vocabulary', 'rnn',
                                  options.vocab + '.pkl')
    rnn_vocab = pickle.load(open(rnn_vocab_file, 'rb'))
    options.vocab_size = len(rnn_vocab)

    # Construct the model
    model = get_model(options.model)(options)
    model.load_state_dict(checkpoint['model'])
    model.Eiters = checkpoint['Eiters']
    model.val_start()

    # set data loader
    video_ids_list = data.read_video_ids(caption_files['test'])
    vid_data_loader = data.get_vis_data_loader(visual_feats['test'], opt.batch_size, opt.workers, video2frames['test'],
                                               video_ids=video_ids_list)
    text_data_loader = data.get_txt_data_loader(options, caption_files['test'], rnn_vocab, bow2vec, options.bert_file, opt.batch_size, opt.workers)

    # mapping
    if options.space == 'hybrid':

        video_embs, video_tag_probs, video_locals_embs, video_local_tag_probs, video_ids = evaluation.encode_hybrid(
            model.embed_vis,
            vid_data_loader)
        cap_embs, cap_tag_probs, cap_locals_embs, cap_local_tag_probs, caption_ids = evaluation.encode_hybrid(
            model.embed_txt,
            text_data_loader)
    else:
        video_embs_global, video_embs_local, video_ids = evaluation.encode_vid(model.embed_vis, vid_data_loader)
        cap_embs, caption_ids = evaluation.encode_text(model.embed_txt, text_data_loader)

    v2t_gt, t2v_gt = metrics.get_gt(video_ids, caption_ids)

    logging.info("write into: %s" % output_dir)
    if options.space != 'latent':
        tag_vocab_path = os.path.join(rootpath, collections_pathname['train'], 'TextData', 'tags', 'video_label_th_1',
                                      'tag_vocab_%d.json' % options.tag_vocab_size)
        evaluation.pred_tag(video_tag_probs, video_ids, tag_vocab_path, os.path.join(output_dir, 'video'))
        evaluation.pred_tag(cap_tag_probs, caption_ids, tag_vocab_path, os.path.join(output_dir, 'text'))

    if options.space in ['hybrid']:
        t2v_all_errors_global = evaluation.cal_error(video_embs, cap_embs, options.measure)
        t2v_all_errors_local = evaluation.cal_error(video_locals_embs, cap_locals_embs, options.measure)

        t2v_all_errors_global_tag = evaluation.cal_error_batch(video_tag_probs, cap_tag_probs, options.measure_2)
        t2v_all_errors_local_tag = evaluation.cal_error_batch(video_local_tag_probs, cap_local_tag_probs, options.measure_2)


        t2v_all_errors_global = norm_score(t2v_all_errors_global)
        t2v_all_errors_local = norm_score(t2v_all_errors_local)
        t2v_all_errors_global_tag = norm_score(t2v_all_errors_global_tag)
        t2v_all_errors_local_tag = norm_score(t2v_all_errors_local_tag)
        t2v_all_errors = 0.6 * (t2v_all_errors_global + t2v_all_errors_local) + 0.4 * (t2v_all_errors_global_tag + t2v_all_errors_local_tag)
        cal_perf(t2v_all_errors, v2t_gt, t2v_gt)
        torch.save({'errors': t2v_all_errors, 'videos': video_ids, 'captions': caption_ids}, pred_error_matrix_file)
        logging.info("write into: %s" % pred_error_matrix_file)

    elif options.space in ['latent']:
        t2v_all_errors_1 = evaluation.cal_error(video_embs_global, cap_embs[0], options.measure)
        t2v_all_errors_1 += evaluation.cal_error(video_embs_local, cap_embs[1], options.measure)
        cal_perf(t2v_all_errors_1, v2t_gt, t2v_gt)
        torch.save({'errors': t2v_all_errors_1, 'videos': video_ids, 'captions': caption_ids}, pred_error_matrix_file)
        logging.info("write into: %s" % pred_error_matrix_file)


if __name__ == '__main__':
    main()