records/120424_ValueEmbed/c8e1a7d3-a37e-4a88-b28a-3afb2d8089ca.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
import contextlib
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    g = g.add(buf, alpha=momentum) if group['nesterov'] else buf
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x, vi, block_mask):
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q = self.c_q(x).view(B, T, self.n_head, -1)
        k = self.c_k(x).view(B, T, self.n_head, -1)
        v = self.c_v(x).view(B, T, self.n_head, -1)
        v = (1 - self.lamb) * v + self.lamb * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, vi, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            vte = nn.Embedding(config.vocab_size, config.n_embd*12),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(12, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers+i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1530 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the attention blocksize for the current step, in chunks of 64. By @fernbear.bsky.social
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        ctx = model.no_sync() if i < train_accumulation_steps else contextlib.nullcontext()
        with ctx: # there's no need to sync gradients every accumulation step
            # forward pass
            loss = model(x, y, attn_blocksize=attn_blocksize)
            # advance the dataset for the next batch
            x, y = train_loader.next_batch()
            # backward pass
            loss.backward()
        train_loss = loss.detach()
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Thu Dec  5 01:03:59 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.06             Driver Version: 535.183.06   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:19:00.0 Off |                    0 |
| N/A   38C    P0              75W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:3B:00.0 Off |                    0 |
| N/A   29C    P0              73W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:4C:00.0 Off |                    0 |
| N/A   31C    P0             117W / 700W |     41MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:5D:00.0 Off |                    0 |
| N/A   37C    P0              74W / 700W |      3MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:9B:00.0 Off |                    0 |
| N/A   39C    P0             123W / 700W |    529MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:BB:00.0 Off |                    0 |
| N/A   29C    P0             110W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:CB:00.0 Off |                    0 |
| N/A   38C    P0             108W / 700W |     22MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:DB:00.0 Off |                    0 |
| N/A   30C    P0             118W / 700W |    529MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1100000000 across 11 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1530 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1530 train_loss:10.8258 train_time:32179ms step_avg:nanms
step:2/1530 train_loss:10.0826 train_time:32290ms step_avg:nanms
step:3/1530 train_loss:8.3313 train_time:32450ms step_avg:nanms
step:4/1530 train_loss:7.6546 train_time:32611ms step_avg:nanms
step:5/1530 train_loss:7.6265 train_time:32770ms step_avg:nanms
step:6/1530 train_loss:7.0802 train_time:32932ms step_avg:nanms
step:7/1530 train_loss:7.2240 train_time:33092ms step_avg:nanms
step:8/1530 train_loss:6.7802 train_time:33253ms step_avg:nanms
step:9/1530 train_loss:6.6586 train_time:33413ms step_avg:nanms
step:10/1530 train_loss:6.5721 train_time:33574ms step_avg:nanms
step:11/1530 train_loss:6.4864 train_time:115ms step_avg:nanms
step:12/1530 train_loss:6.3776 train_time:274ms step_avg:nanms
step:13/1530 train_loss:6.2403 train_time:435ms step_avg:145.03ms
step:14/1530 train_loss:6.1898 train_time:595ms step_avg:148.87ms
step:15/1530 train_loss:6.1448 train_time:756ms step_avg:151.14ms
step:16/1530 train_loss:6.1296 train_time:917ms step_avg:152.76ms
step:17/1530 train_loss:6.1676 train_time:1076ms step_avg:153.71ms
step:18/1530 train_loss:5.9947 train_time:1236ms step_avg:154.56ms
step:19/1530 train_loss:5.9798 train_time:1397ms step_avg:155.17ms
step:20/1530 train_loss:5.6551 train_time:1556ms step_avg:155.60ms
step:21/1530 train_loss:5.9447 train_time:1717ms step_avg:156.10ms
step:22/1530 train_loss:6.1764 train_time:1877ms step_avg:156.40ms
step:23/1530 train_loss:5.8562 train_time:2037ms step_avg:156.72ms
step:24/1530 train_loss:6.0149 train_time:2197ms step_avg:156.95ms
step:25/1530 train_loss:5.6802 train_time:2357ms step_avg:157.14ms
step:26/1530 train_loss:5.6142 train_time:2517ms step_avg:157.32ms
step:27/1530 train_loss:5.7736 train_time:2677ms step_avg:157.47ms
step:28/1530 train_loss:5.4407 train_time:2838ms step_avg:157.64ms
step:29/1530 train_loss:5.6784 train_time:2998ms step_avg:157.78ms
step:30/1530 train_loss:5.4764 train_time:3158ms step_avg:157.88ms
step:31/1530 train_loss:5.4368 train_time:3319ms step_avg:158.03ms
step:32/1530 train_loss:5.2963 train_time:3478ms step_avg:158.08ms
step:33/1530 train_loss:5.5781 train_time:3638ms step_avg:158.18ms
step:34/1530 train_loss:5.5047 train_time:3798ms step_avg:158.24ms
step:35/1530 train_loss:5.6052 train_time:3957ms step_avg:158.27ms
step:36/1530 train_loss:5.5442 train_time:4118ms step_avg:158.38ms
step:37/1530 train_loss:5.4581 train_time:4277ms step_avg:158.41ms
step:38/1530 train_loss:5.3046 train_time:4437ms step_avg:158.47ms
step:39/1530 train_loss:5.3198 train_time:4598ms step_avg:158.55ms
step:40/1530 train_loss:5.2723 train_time:4757ms step_avg:158.56ms
step:41/1530 train_loss:5.2407 train_time:4917ms step_avg:158.60ms
step:42/1530 train_loss:5.1802 train_time:5077ms step_avg:158.65ms
step:43/1530 train_loss:5.2727 train_time:5237ms step_avg:158.68ms
step:44/1530 train_loss:5.2516 train_time:5396ms step_avg:158.72ms
step:45/1530 train_loss:5.3865 train_time:5557ms step_avg:158.77ms
step:46/1530 train_loss:5.1813 train_time:5717ms step_avg:158.81ms
step:47/1530 train_loss:5.0656 train_time:5877ms step_avg:158.84ms
step:48/1530 train_loss:5.2120 train_time:6037ms step_avg:158.87ms
step:49/1530 train_loss:5.1369 train_time:6197ms step_avg:158.89ms
step:50/1530 train_loss:5.2571 train_time:6356ms step_avg:158.91ms
step:51/1530 train_loss:5.1472 train_time:6516ms step_avg:158.93ms
step:52/1530 train_loss:5.0305 train_time:6676ms step_avg:158.96ms
step:53/1530 train_loss:5.1830 train_time:6836ms step_avg:158.98ms
step:54/1530 train_loss:5.0296 train_time:6996ms step_avg:159.00ms
step:55/1530 train_loss:5.4225 train_time:7156ms step_avg:159.02ms
step:56/1530 train_loss:5.0384 train_time:7317ms step_avg:159.06ms
step:57/1530 train_loss:4.8932 train_time:7476ms step_avg:159.07ms
step:58/1530 train_loss:5.0717 train_time:7637ms step_avg:159.09ms
step:59/1530 train_loss:5.0525 train_time:7796ms step_avg:159.11ms
step:60/1530 train_loss:5.1381 train_time:7956ms step_avg:159.13ms
step:61/1530 train_loss:4.8429 train_time:8116ms step_avg:159.14ms
step:62/1530 train_loss:4.9827 train_time:8276ms step_avg:159.15ms
step:63/1530 train_loss:4.9820 train_time:8436ms step_avg:159.18ms
step:64/1530 train_loss:4.9757 train_time:8596ms step_avg:159.19ms
step:65/1530 train_loss:4.8004 train_time:8756ms step_avg:159.20ms
step:66/1530 train_loss:4.9526 train_time:8917ms step_avg:159.23ms
step:67/1530 train_loss:4.8287 train_time:9076ms step_avg:159.24ms
step:68/1530 train_loss:5.0988 train_time:9236ms step_avg:159.25ms
step:69/1530 train_loss:4.7238 train_time:9396ms step_avg:159.25ms
step:70/1530 train_loss:4.8568 train_time:9556ms step_avg:159.27ms
step:71/1530 train_loss:4.9589 train_time:9717ms step_avg:159.29ms
step:72/1530 train_loss:4.8896 train_time:9876ms step_avg:159.29ms
step:73/1530 train_loss:4.7753 train_time:10036ms step_avg:159.31ms
step:74/1530 train_loss:4.9091 train_time:10197ms step_avg:159.33ms
step:75/1530 train_loss:4.8581 train_time:10356ms step_avg:159.33ms
step:76/1530 train_loss:4.8086 train_time:10517ms step_avg:159.35ms
step:77/1530 train_loss:4.9186 train_time:10677ms step_avg:159.36ms
step:78/1530 train_loss:5.1131 train_time:10836ms step_avg:159.36ms
step:79/1530 train_loss:4.8061 train_time:10997ms step_avg:159.38ms
step:80/1530 train_loss:4.8533 train_time:11157ms step_avg:159.38ms
step:81/1530 train_loss:4.6510 train_time:11318ms step_avg:159.41ms
step:82/1530 train_loss:4.8381 train_time:11477ms step_avg:159.41ms
step:83/1530 train_loss:4.7706 train_time:11637ms step_avg:159.41ms
step:84/1530 train_loss:4.7591 train_time:11797ms step_avg:159.41ms
step:85/1530 train_loss:4.6267 train_time:11957ms step_avg:159.43ms
step:86/1530 train_loss:4.8375 train_time:12117ms step_avg:159.43ms
step:87/1530 train_loss:4.7435 train_time:12277ms step_avg:159.44ms
step:88/1530 train_loss:4.7501 train_time:12437ms step_avg:159.44ms
step:89/1530 train_loss:4.6992 train_time:12597ms step_avg:159.45ms
step:90/1530 train_loss:4.6467 train_time:12756ms step_avg:159.45ms
step:91/1530 train_loss:4.6325 train_time:12917ms step_avg:159.47ms
step:92/1530 train_loss:4.7817 train_time:13076ms step_avg:159.46ms
step:93/1530 train_loss:4.5869 train_time:13236ms step_avg:159.47ms
step:94/1530 train_loss:4.6444 train_time:13397ms step_avg:159.49ms
step:95/1530 train_loss:4.6774 train_time:13556ms step_avg:159.49ms
step:96/1530 train_loss:4.5901 train_time:13717ms step_avg:159.50ms
step:97/1530 train_loss:4.6305 train_time:13876ms step_avg:159.49ms
step:98/1530 train_loss:4.5838 train_time:14036ms step_avg:159.50ms
step:99/1530 train_loss:4.6661 train_time:14197ms step_avg:159.52ms
step:100/1530 train_loss:4.6778 train_time:14357ms step_avg:159.52ms
step:101/1530 train_loss:4.5212 train_time:14517ms step_avg:159.53ms
step:102/1530 train_loss:4.6935 train_time:14677ms step_avg:159.53ms
step:103/1530 train_loss:4.5630 train_time:14837ms step_avg:159.53ms
step:104/1530 train_loss:4.5435 train_time:14997ms step_avg:159.54ms
step:105/1530 train_loss:4.5379 train_time:15157ms step_avg:159.54ms
step:106/1530 train_loss:4.6056 train_time:15318ms step_avg:159.56ms
step:107/1530 train_loss:4.5034 train_time:15477ms step_avg:159.56ms
step:108/1530 train_loss:4.3566 train_time:15637ms step_avg:159.56ms
step:109/1530 train_loss:4.4802 train_time:15797ms step_avg:159.57ms
step:110/1530 train_loss:4.4779 train_time:15957ms step_avg:159.57ms
step:111/1530 train_loss:4.4234 train_time:16117ms step_avg:159.58ms
step:112/1530 train_loss:4.5780 train_time:16277ms step_avg:159.58ms
step:113/1530 train_loss:4.4858 train_time:16437ms step_avg:159.58ms
step:114/1530 train_loss:4.3581 train_time:16597ms step_avg:159.58ms
step:115/1530 train_loss:4.5015 train_time:16759ms step_avg:159.61ms
step:116/1530 train_loss:4.4685 train_time:16923ms step_avg:159.65ms
step:117/1530 train_loss:4.3697 train_time:17087ms step_avg:159.69ms
step:118/1530 train_loss:4.6020 train_time:17252ms step_avg:159.74ms
step:119/1530 train_loss:4.4501 train_time:17416ms step_avg:159.78ms
step:120/1530 train_loss:4.3183 train_time:17578ms step_avg:159.80ms
step:121/1530 train_loss:4.2895 train_time:17742ms step_avg:159.84ms
step:122/1530 train_loss:4.4446 train_time:17906ms step_avg:159.87ms
step:123/1530 train_loss:4.2733 train_time:18071ms step_avg:159.92ms
step:124/1530 train_loss:4.5801 train_time:18234ms step_avg:159.95ms
step:125/1530 train_loss:4.4448 train_time:18397ms step_avg:159.98ms
step:125/1530 val_loss:4.3946 train_time:18445ms step_avg:160.39ms
step:126/1530 train_loss:4.4061 train_time:18564ms step_avg:160.03ms
step:127/1530 train_loss:4.4320 train_time:18729ms step_avg:160.08ms
step:128/1530 train_loss:4.3886 train_time:18892ms step_avg:160.10ms
step:129/1530 train_loss:4.7095 train_time:19056ms step_avg:160.13ms
step:130/1530 train_loss:4.3557 train_time:19219ms step_avg:160.16ms
step:131/1530 train_loss:4.3792 train_time:19383ms step_avg:160.19ms
step:132/1530 train_loss:4.3441 train_time:19546ms step_avg:160.22ms
step:133/1530 train_loss:4.4422 train_time:19710ms step_avg:160.24ms
step:134/1530 train_loss:4.2604 train_time:19874ms step_avg:160.27ms
step:135/1530 train_loss:4.4543 train_time:20037ms step_avg:160.29ms
step:136/1530 train_loss:4.2160 train_time:20200ms step_avg:160.32ms
step:137/1530 train_loss:4.3722 train_time:20365ms step_avg:160.35ms
step:138/1530 train_loss:4.2805 train_time:20529ms step_avg:160.38ms
step:139/1530 train_loss:4.3714 train_time:20692ms step_avg:160.40ms
step:140/1530 train_loss:4.4764 train_time:20856ms step_avg:160.43ms
step:141/1530 train_loss:4.3094 train_time:21021ms step_avg:160.46ms
step:142/1530 train_loss:4.3034 train_time:21185ms step_avg:160.49ms
step:143/1530 train_loss:4.2528 train_time:21348ms step_avg:160.51ms
step:144/1530 train_loss:4.3462 train_time:21511ms step_avg:160.53ms
step:145/1530 train_loss:4.2989 train_time:21674ms step_avg:160.55ms
step:146/1530 train_loss:4.1646 train_time:21838ms step_avg:160.57ms
step:147/1530 train_loss:4.3244 train_time:22003ms step_avg:160.61ms
step:148/1530 train_loss:4.3550 train_time:22168ms step_avg:160.63ms
step:149/1530 train_loss:4.3017 train_time:22331ms step_avg:160.65ms
step:150/1530 train_loss:4.4436 train_time:22495ms step_avg:160.68ms
step:151/1530 train_loss:4.2742 train_time:22657ms step_avg:160.69ms
step:152/1530 train_loss:4.2800 train_time:22822ms step_avg:160.72ms
step:153/1530 train_loss:4.3669 train_time:22986ms step_avg:160.74ms
step:154/1530 train_loss:4.3653 train_time:23148ms step_avg:160.75ms
step:155/1530 train_loss:4.2735 train_time:23312ms step_avg:160.77ms
step:156/1530 train_loss:4.3458 train_time:23477ms step_avg:160.80ms
step:157/1530 train_loss:4.4000 train_time:23641ms step_avg:160.82ms
step:158/1530 train_loss:4.2463 train_time:23805ms step_avg:160.84ms
step:159/1530 train_loss:4.3054 train_time:23968ms step_avg:160.86ms
step:160/1530 train_loss:4.1273 train_time:24130ms step_avg:160.87ms
step:161/1530 train_loss:4.3501 train_time:24295ms step_avg:160.90ms
step:162/1530 train_loss:4.3601 train_time:24460ms step_avg:160.92ms
step:163/1530 train_loss:4.3408 train_time:24623ms step_avg:160.93ms
step:164/1530 train_loss:4.1896 train_time:24787ms step_avg:160.95ms
step:165/1530 train_loss:4.2903 train_time:24950ms step_avg:160.96ms
step:166/1530 train_loss:4.3444 train_time:25113ms step_avg:160.98ms
step:167/1530 train_loss:4.2000 train_time:25276ms step_avg:161.00ms
step:168/1530 train_loss:4.2932 train_time:25440ms step_avg:161.01ms
step:169/1530 train_loss:4.1610 train_time:25604ms step_avg:161.03ms
step:170/1530 train_loss:4.0266 train_time:25769ms step_avg:161.06ms
step:171/1530 train_loss:4.1986 train_time:25932ms step_avg:161.07ms
step:172/1530 train_loss:4.2174 train_time:26095ms step_avg:161.08ms
step:173/1530 train_loss:4.2636 train_time:26257ms step_avg:161.09ms
step:174/1530 train_loss:4.4201 train_time:26420ms step_avg:161.10ms
step:175/1530 train_loss:4.2384 train_time:26583ms step_avg:161.11ms
step:176/1530 train_loss:4.0942 train_time:26746ms step_avg:161.12ms
step:177/1530 train_loss:4.0694 train_time:26908ms step_avg:161.13ms
step:178/1530 train_loss:4.1788 train_time:27070ms step_avg:161.13ms
step:179/1530 train_loss:4.1223 train_time:27232ms step_avg:161.14ms
step:180/1530 train_loss:4.1057 train_time:27396ms step_avg:161.15ms
step:181/1530 train_loss:4.2815 train_time:27557ms step_avg:161.15ms
step:182/1530 train_loss:4.1435 train_time:27721ms step_avg:161.17ms
step:183/1530 train_loss:4.1321 train_time:27884ms step_avg:161.18ms
step:184/1530 train_loss:4.1218 train_time:28046ms step_avg:161.18ms
step:185/1530 train_loss:4.2037 train_time:28209ms step_avg:161.19ms
step:186/1530 train_loss:4.1668 train_time:28372ms step_avg:161.20ms
step:187/1530 train_loss:4.2267 train_time:28533ms step_avg:161.21ms
step:188/1530 train_loss:4.1675 train_time:28837ms step_avg:162.00ms
step:189/1530 train_loss:4.1085 train_time:29168ms step_avg:162.95ms
step:190/1530 train_loss:4.2052 train_time:29328ms step_avg:162.93ms
step:191/1530 train_loss:4.0803 train_time:29492ms step_avg:162.94ms
step:192/1530 train_loss:4.0254 train_time:29654ms step_avg:162.93ms
step:193/1530 train_loss:4.2475 train_time:29817ms step_avg:162.93ms
step:194/1530 train_loss:4.1707 train_time:29981ms step_avg:162.94ms
step:195/1530 train_loss:4.3478 train_time:30143ms step_avg:162.94ms
step:196/1530 train_loss:4.1735 train_time:30307ms step_avg:162.94ms
step:197/1530 train_loss:4.0386 train_time:30470ms step_avg:162.94ms
step:198/1530 train_loss:4.1749 train_time:30630ms step_avg:162.92ms
step:199/1530 train_loss:4.0267 train_time:30793ms step_avg:162.93ms
step:200/1530 train_loss:4.1064 train_time:30956ms step_avg:162.93ms
step:201/1530 train_loss:4.0144 train_time:31118ms step_avg:162.92ms
step:202/1530 train_loss:4.2531 train_time:31282ms step_avg:162.93ms
step:203/1530 train_loss:4.0671 train_time:31443ms step_avg:162.92ms
step:204/1530 train_loss:4.1888 train_time:31606ms step_avg:162.92ms
step:205/1530 train_loss:4.2371 train_time:31769ms step_avg:162.92ms
step:206/1530 train_loss:3.9445 train_time:31931ms step_avg:162.91ms
step:207/1530 train_loss:4.0806 train_time:32094ms step_avg:162.91ms
step:208/1530 train_loss:4.0954 train_time:32255ms step_avg:162.91ms
step:209/1530 train_loss:4.2392 train_time:32418ms step_avg:162.91ms
step:210/1530 train_loss:4.1709 train_time:32583ms step_avg:162.91ms
step:211/1530 train_loss:4.0590 train_time:32744ms step_avg:162.91ms
step:212/1530 train_loss:4.1159 train_time:32908ms step_avg:162.91ms
step:213/1530 train_loss:4.0592 train_time:33070ms step_avg:162.91ms
step:214/1530 train_loss:4.1167 train_time:33231ms step_avg:162.90ms
step:215/1530 train_loss:3.9607 train_time:33396ms step_avg:162.91ms
step:216/1530 train_loss:3.9982 train_time:33560ms step_avg:162.91ms
step:217/1530 train_loss:4.0081 train_time:33724ms step_avg:162.92ms
step:218/1530 train_loss:4.0835 train_time:33887ms step_avg:162.92ms
step:219/1530 train_loss:4.0763 train_time:34049ms step_avg:162.91ms
step:220/1530 train_loss:4.0751 train_time:34211ms step_avg:162.91ms
step:221/1530 train_loss:4.0856 train_time:34374ms step_avg:162.91ms
step:222/1530 train_loss:3.9873 train_time:34536ms step_avg:162.90ms
step:223/1530 train_loss:3.9925 train_time:34697ms step_avg:162.90ms
step:224/1530 train_loss:4.2970 train_time:34861ms step_avg:162.90ms
step:225/1530 train_loss:3.9209 train_time:35025ms step_avg:162.91ms
step:226/1530 train_loss:3.9831 train_time:35188ms step_avg:162.91ms
step:227/1530 train_loss:3.9741 train_time:35350ms step_avg:162.90ms
step:228/1530 train_loss:4.1422 train_time:35514ms step_avg:162.91ms
step:229/1530 train_loss:3.9203 train_time:35681ms step_avg:162.93ms
step:230/1530 train_loss:4.0411 train_time:35847ms step_avg:162.94ms
step:231/1530 train_loss:3.9046 train_time:36013ms step_avg:162.95ms
step:232/1530 train_loss:3.9698 train_time:36179ms step_avg:162.97ms
step:233/1530 train_loss:4.0840 train_time:36345ms step_avg:162.98ms
step:234/1530 train_loss:4.0249 train_time:36511ms step_avg:163.00ms
step:235/1530 train_loss:3.9049 train_time:36678ms step_avg:163.01ms
step:236/1530 train_loss:4.0767 train_time:36844ms step_avg:163.03ms
step:237/1530 train_loss:4.0809 train_time:37010ms step_avg:163.04ms
step:238/1530 train_loss:3.9424 train_time:37177ms step_avg:163.05ms
step:239/1530 train_loss:4.0773 train_time:37343ms step_avg:163.07ms
step:240/1530 train_loss:4.1107 train_time:37509ms step_avg:163.08ms
step:241/1530 train_loss:3.9648 train_time:37673ms step_avg:163.09ms
step:242/1530 train_loss:4.1442 train_time:37840ms step_avg:163.11ms
step:243/1530 train_loss:4.0027 train_time:38007ms step_avg:163.12ms
step:244/1530 train_loss:4.0736 train_time:38172ms step_avg:163.13ms
step:245/1530 train_loss:4.1375 train_time:38337ms step_avg:163.14ms
step:246/1530 train_loss:4.0541 train_time:38504ms step_avg:163.15ms
step:247/1530 train_loss:4.0045 train_time:38669ms step_avg:163.16ms
step:248/1530 train_loss:4.1003 train_time:38836ms step_avg:163.17ms
step:249/1530 train_loss:3.9194 train_time:39001ms step_avg:163.18ms
step:250/1530 train_loss:3.9709 train_time:39167ms step_avg:163.19ms
step:250/1530 val_loss:4.0051 train_time:39214ms step_avg:163.39ms
step:251/1530 train_loss:4.0722 train_time:39334ms step_avg:163.21ms
step:252/1530 train_loss:4.1518 train_time:39501ms step_avg:163.23ms
step:253/1530 train_loss:3.9307 train_time:39668ms step_avg:163.24ms
step:254/1530 train_loss:3.8710 train_time:39832ms step_avg:163.25ms
step:255/1530 train_loss:4.0689 train_time:39998ms step_avg:163.26ms
step:256/1530 train_loss:3.9874 train_time:40165ms step_avg:163.27ms
step:257/1530 train_loss:3.9866 train_time:40330ms step_avg:163.28ms
step:258/1530 train_loss:3.9861 train_time:40495ms step_avg:163.29ms
step:259/1530 train_loss:4.0311 train_time:40664ms step_avg:163.31ms
step:260/1530 train_loss:4.0593 train_time:40830ms step_avg:163.32ms
step:261/1530 train_loss:4.0189 train_time:40995ms step_avg:163.33ms
step:262/1530 train_loss:3.9848 train_time:41161ms step_avg:163.34ms
step:263/1530 train_loss:3.8943 train_time:41327ms step_avg:163.35ms
step:264/1530 train_loss:3.9879 train_time:41493ms step_avg:163.36ms
step:265/1530 train_loss:3.8595 train_time:41660ms step_avg:163.37ms
step:266/1530 train_loss:3.9155 train_time:41826ms step_avg:163.38ms
step:267/1530 train_loss:3.9247 train_time:41991ms step_avg:163.39ms
step:268/1530 train_loss:3.9652 train_time:42157ms step_avg:163.40ms
step:269/1530 train_loss:3.8483 train_time:42323ms step_avg:163.41ms
step:270/1530 train_loss:4.0853 train_time:42489ms step_avg:163.42ms
step:271/1530 train_loss:3.9661 train_time:42656ms step_avg:163.43ms
step:272/1530 train_loss:3.9236 train_time:42822ms step_avg:163.44ms
step:273/1530 train_loss:3.9387 train_time:42987ms step_avg:163.45ms
step:274/1530 train_loss:4.0384 train_time:43154ms step_avg:163.46ms
step:275/1530 train_loss:4.0619 train_time:43321ms step_avg:163.47ms
step:276/1530 train_loss:4.2205 train_time:43486ms step_avg:163.48ms
step:277/1530 train_loss:4.0360 train_time:43652ms step_avg:163.49ms
step:278/1530 train_loss:4.0870 train_time:43817ms step_avg:163.49ms
step:279/1530 train_loss:4.0012 train_time:43984ms step_avg:163.51ms
step:280/1530 train_loss:4.2103 train_time:44151ms step_avg:163.52ms
step:281/1530 train_loss:3.9764 train_time:44318ms step_avg:163.53ms
step:282/1530 train_loss:3.9436 train_time:44485ms step_avg:163.55ms
step:283/1530 train_loss:3.9106 train_time:44650ms step_avg:163.55ms
step:284/1530 train_loss:4.0426 train_time:44816ms step_avg:163.56ms
step:285/1530 train_loss:4.0638 train_time:44982ms step_avg:163.57ms
step:286/1530 train_loss:4.0872 train_time:45147ms step_avg:163.57ms
step:287/1530 train_loss:3.9027 train_time:45311ms step_avg:163.58ms
step:288/1530 train_loss:4.0083 train_time:45476ms step_avg:163.58ms
step:289/1530 train_loss:3.8766 train_time:45643ms step_avg:163.60ms
step:290/1530 train_loss:3.8570 train_time:45807ms step_avg:163.60ms
step:291/1530 train_loss:3.9067 train_time:45972ms step_avg:163.60ms
step:292/1530 train_loss:3.8623 train_time:46138ms step_avg:163.61ms
step:293/1530 train_loss:3.8938 train_time:46303ms step_avg:163.61ms
step:294/1530 train_loss:3.9335 train_time:46467ms step_avg:163.62ms
step:295/1530 train_loss:3.8315 train_time:46631ms step_avg:163.62ms
step:296/1530 train_loss:3.8577 train_time:46797ms step_avg:163.63ms
step:297/1530 train_loss:3.8600 train_time:46962ms step_avg:163.63ms
step:298/1530 train_loss:3.9687 train_time:47128ms step_avg:163.64ms
step:299/1530 train_loss:3.8193 train_time:47292ms step_avg:163.64ms
step:300/1530 train_loss:3.9658 train_time:47458ms step_avg:163.65ms
step:301/1530 train_loss:3.9584 train_time:47624ms step_avg:163.66ms
step:302/1530 train_loss:3.9273 train_time:47790ms step_avg:163.66ms
step:303/1530 train_loss:3.9720 train_time:47956ms step_avg:163.67ms
step:304/1530 train_loss:3.9654 train_time:48121ms step_avg:163.68ms
step:305/1530 train_loss:4.4428 train_time:48286ms step_avg:163.68ms
step:306/1530 train_loss:3.9282 train_time:48451ms step_avg:163.68ms
step:307/1530 train_loss:3.8370 train_time:48615ms step_avg:163.69ms
step:308/1530 train_loss:3.9746 train_time:48780ms step_avg:163.69ms
step:309/1530 train_loss:3.8687 train_time:48947ms step_avg:163.70ms
step:310/1530 train_loss:4.0778 train_time:49111ms step_avg:163.70ms
step:311/1530 train_loss:3.9167 train_time:49274ms step_avg:163.70ms
step:312/1530 train_loss:3.8634 train_time:49442ms step_avg:163.71ms
step:313/1530 train_loss:3.9372 train_time:49606ms step_avg:163.72ms
step:314/1530 train_loss:4.0623 train_time:49771ms step_avg:163.72ms
step:315/1530 train_loss:3.9340 train_time:49936ms step_avg:163.72ms
step:316/1530 train_loss:3.7912 train_time:50102ms step_avg:163.73ms
step:317/1530 train_loss:3.8662 train_time:50268ms step_avg:163.74ms
step:318/1530 train_loss:3.9192 train_time:50432ms step_avg:163.74ms
step:319/1530 train_loss:3.8794 train_time:50598ms step_avg:163.75ms
step:320/1530 train_loss:4.0084 train_time:50764ms step_avg:163.75ms
step:321/1530 train_loss:3.9562 train_time:50929ms step_avg:163.76ms
step:322/1530 train_loss:3.9296 train_time:51093ms step_avg:163.76ms
step:323/1530 train_loss:4.0014 train_time:51260ms step_avg:163.77ms
step:324/1530 train_loss:3.9437 train_time:51425ms step_avg:163.77ms
step:325/1530 train_loss:4.0098 train_time:51590ms step_avg:163.78ms
step:326/1530 train_loss:3.8921 train_time:51755ms step_avg:163.78ms
step:327/1530 train_loss:4.3914 train_time:51921ms step_avg:163.79ms
step:328/1530 train_loss:4.0680 train_time:52086ms step_avg:163.79ms
step:329/1530 train_loss:3.7921 train_time:52251ms step_avg:163.80ms
step:330/1530 train_loss:3.7403 train_time:52416ms step_avg:163.80ms
step:331/1530 train_loss:3.9781 train_time:52582ms step_avg:163.81ms
step:332/1530 train_loss:3.9102 train_time:52748ms step_avg:163.81ms
step:333/1530 train_loss:3.8818 train_time:52912ms step_avg:163.81ms
step:334/1530 train_loss:3.8362 train_time:53076ms step_avg:163.82ms
step:335/1530 train_loss:4.0137 train_time:53242ms step_avg:163.82ms
step:336/1530 train_loss:3.9673 train_time:53407ms step_avg:163.83ms
step:337/1530 train_loss:4.4185 train_time:53572ms step_avg:163.83ms
step:338/1530 train_loss:3.9313 train_time:53738ms step_avg:163.84ms
step:339/1530 train_loss:3.8616 train_time:53903ms step_avg:163.84ms
step:340/1530 train_loss:3.9301 train_time:54068ms step_avg:163.84ms
step:341/1530 train_loss:3.8532 train_time:54234ms step_avg:163.85ms
step:342/1530 train_loss:3.8064 train_time:54402ms step_avg:163.86ms
step:343/1530 train_loss:3.8328 train_time:54570ms step_avg:163.87ms
step:344/1530 train_loss:3.9910 train_time:54736ms step_avg:163.88ms
step:345/1530 train_loss:3.8146 train_time:54906ms step_avg:163.90ms
step:346/1530 train_loss:3.7668 train_time:55073ms step_avg:163.91ms
step:347/1530 train_loss:3.7958 train_time:55243ms step_avg:163.93ms
step:348/1530 train_loss:3.8541 train_time:55410ms step_avg:163.93ms
step:349/1530 train_loss:3.8286 train_time:55577ms step_avg:163.94ms
step:350/1530 train_loss:3.5678 train_time:55747ms step_avg:163.96ms
step:351/1530 train_loss:3.8236 train_time:55916ms step_avg:163.98ms
step:352/1530 train_loss:4.1838 train_time:56085ms step_avg:163.99ms
step:353/1530 train_loss:3.6578 train_time:56253ms step_avg:164.00ms
step:354/1530 train_loss:3.9213 train_time:56419ms step_avg:164.01ms
step:355/1530 train_loss:3.7776 train_time:56588ms step_avg:164.02ms
step:356/1530 train_loss:3.8790 train_time:56755ms step_avg:164.03ms
step:357/1530 train_loss:3.7498 train_time:56925ms step_avg:164.05ms
step:358/1530 train_loss:3.8575 train_time:57092ms step_avg:164.06ms
step:359/1530 train_loss:3.7679 train_time:57262ms step_avg:164.07ms
step:360/1530 train_loss:3.4209 train_time:57431ms step_avg:164.09ms
step:361/1530 train_loss:4.0101 train_time:57599ms step_avg:164.10ms
step:362/1530 train_loss:3.9090 train_time:57768ms step_avg:164.11ms
step:363/1530 train_loss:3.8351 train_time:57934ms step_avg:164.12ms
step:364/1530 train_loss:3.7441 train_time:58102ms step_avg:164.13ms
step:365/1530 train_loss:3.9086 train_time:58271ms step_avg:164.14ms
step:366/1530 train_loss:3.8589 train_time:58440ms step_avg:164.16ms
step:367/1530 train_loss:3.8599 train_time:58606ms step_avg:164.16ms
step:368/1530 train_loss:3.8434 train_time:58773ms step_avg:164.17ms
step:369/1530 train_loss:3.7422 train_time:58942ms step_avg:164.18ms
step:370/1530 train_loss:3.8742 train_time:59109ms step_avg:164.19ms
step:371/1530 train_loss:3.7217 train_time:59276ms step_avg:164.20ms
step:372/1530 train_loss:3.6877 train_time:59445ms step_avg:164.21ms
step:373/1530 train_loss:3.9124 train_time:59612ms step_avg:164.22ms
step:374/1530 train_loss:3.8296 train_time:59780ms step_avg:164.23ms
step:375/1530 train_loss:3.7946 train_time:59949ms step_avg:164.24ms
step:375/1530 val_loss:3.8189 train_time:59997ms step_avg:164.38ms
step:376/1530 train_loss:3.8584 train_time:60119ms step_avg:164.26ms
step:377/1530 train_loss:3.7827 train_time:60424ms step_avg:164.64ms
step:378/1530 train_loss:3.8385 train_time:60603ms step_avg:164.68ms
step:379/1530 train_loss:3.8820 train_time:60929ms step_avg:165.12ms
step:380/1530 train_loss:3.9582 train_time:61096ms step_avg:165.12ms
step:381/1530 train_loss:3.8341 train_time:61263ms step_avg:165.13ms
step:382/1530 train_loss:3.8003 train_time:61432ms step_avg:165.14ms
step:383/1530 train_loss:3.7964 train_time:61600ms step_avg:165.15ms
step:384/1530 train_loss:3.8676 train_time:61767ms step_avg:165.15ms
step:385/1530 train_loss:3.7859 train_time:61935ms step_avg:165.16ms
step:386/1530 train_loss:3.8841 train_time:62103ms step_avg:165.17ms
step:387/1530 train_loss:4.0460 train_time:62271ms step_avg:165.17ms
step:388/1530 train_loss:3.7859 train_time:62439ms step_avg:165.18ms
step:389/1530 train_loss:3.7891 train_time:62608ms step_avg:165.19ms
step:390/1530 train_loss:3.8904 train_time:62777ms step_avg:165.20ms
step:391/1530 train_loss:3.8054 train_time:62943ms step_avg:165.20ms
step:392/1530 train_loss:3.9209 train_time:63112ms step_avg:165.22ms
step:393/1530 train_loss:3.7583 train_time:63280ms step_avg:165.22ms
step:394/1530 train_loss:3.8805 train_time:63448ms step_avg:165.23ms
step:395/1530 train_loss:3.6271 train_time:63616ms step_avg:165.24ms
step:396/1530 train_loss:3.8310 train_time:63783ms step_avg:165.24ms
step:397/1530 train_loss:3.8589 train_time:63951ms step_avg:165.25ms
step:398/1530 train_loss:3.8718 train_time:64119ms step_avg:165.26ms
step:399/1530 train_loss:3.7702 train_time:64286ms step_avg:165.26ms
step:400/1530 train_loss:3.8147 train_time:64453ms step_avg:165.27ms
step:401/1530 train_loss:3.9099 train_time:64621ms step_avg:165.27ms
step:402/1530 train_loss:3.8373 train_time:64789ms step_avg:165.28ms
step:403/1530 train_loss:3.9619 train_time:64956ms step_avg:165.28ms
step:404/1530 train_loss:3.6754 train_time:65122ms step_avg:165.29ms
step:405/1530 train_loss:3.7805 train_time:65290ms step_avg:165.29ms
step:406/1530 train_loss:4.0888 train_time:65456ms step_avg:165.29ms
step:407/1530 train_loss:3.7682 train_time:65623ms step_avg:165.30ms
step:408/1530 train_loss:3.8143 train_time:65790ms step_avg:165.30ms
step:409/1530 train_loss:3.8500 train_time:65956ms step_avg:165.30ms
step:410/1530 train_loss:3.7534 train_time:66122ms step_avg:165.31ms
step:411/1530 train_loss:3.7597 train_time:66290ms step_avg:165.31ms
step:412/1530 train_loss:4.1768 train_time:66457ms step_avg:165.32ms
step:413/1530 train_loss:3.6159 train_time:66623ms step_avg:165.32ms
step:414/1530 train_loss:4.0098 train_time:66791ms step_avg:165.32ms
step:415/1530 train_loss:3.7454 train_time:66956ms step_avg:165.32ms
step:416/1530 train_loss:3.7569 train_time:67123ms step_avg:165.33ms
step:417/1530 train_loss:3.9489 train_time:67292ms step_avg:165.34ms
step:418/1530 train_loss:3.6890 train_time:67459ms step_avg:165.34ms
step:419/1530 train_loss:3.8026 train_time:67624ms step_avg:165.34ms
step:420/1530 train_loss:3.7006 train_time:67793ms step_avg:165.35ms
step:421/1530 train_loss:3.6468 train_time:67958ms step_avg:165.35ms
step:422/1530 train_loss:3.7748 train_time:68125ms step_avg:165.35ms
step:423/1530 train_loss:3.8671 train_time:68294ms step_avg:165.36ms
step:424/1530 train_loss:3.6053 train_time:68460ms step_avg:165.36ms
step:425/1530 train_loss:3.7944 train_time:68627ms step_avg:165.37ms
step:426/1530 train_loss:3.6413 train_time:68795ms step_avg:165.37ms
step:427/1530 train_loss:3.8824 train_time:68961ms step_avg:165.37ms
step:428/1530 train_loss:3.8045 train_time:69128ms step_avg:165.38ms
step:429/1530 train_loss:3.7530 train_time:69296ms step_avg:165.38ms
step:430/1530 train_loss:3.6982 train_time:69463ms step_avg:165.39ms
step:431/1530 train_loss:3.6186 train_time:69631ms step_avg:165.39ms
step:432/1530 train_loss:3.7640 train_time:69799ms step_avg:165.40ms
step:433/1530 train_loss:3.8121 train_time:69965ms step_avg:165.40ms
step:434/1530 train_loss:3.7647 train_time:70133ms step_avg:165.41ms
step:435/1530 train_loss:3.8016 train_time:70300ms step_avg:165.41ms
step:436/1530 train_loss:3.8265 train_time:70467ms step_avg:165.42ms
step:437/1530 train_loss:3.7238 train_time:70633ms step_avg:165.42ms
step:438/1530 train_loss:3.6945 train_time:70800ms step_avg:165.42ms
step:439/1530 train_loss:3.7132 train_time:70968ms step_avg:165.43ms
step:440/1530 train_loss:3.8838 train_time:71136ms step_avg:165.43ms
step:441/1530 train_loss:3.7575 train_time:71304ms step_avg:165.44ms
step:442/1530 train_loss:3.7324 train_time:71472ms step_avg:165.45ms
step:443/1530 train_loss:3.6181 train_time:71639ms step_avg:165.45ms
step:444/1530 train_loss:3.9193 train_time:71805ms step_avg:165.45ms
step:445/1530 train_loss:3.8414 train_time:71973ms step_avg:165.45ms
step:446/1530 train_loss:3.8281 train_time:72139ms step_avg:165.46ms
step:447/1530 train_loss:3.7450 train_time:72307ms step_avg:165.46ms
step:448/1530 train_loss:3.8483 train_time:72474ms step_avg:165.47ms
step:449/1530 train_loss:3.6819 train_time:72641ms step_avg:165.47ms
step:450/1530 train_loss:3.7197 train_time:72807ms step_avg:165.47ms
step:451/1530 train_loss:3.5777 train_time:72975ms step_avg:165.48ms
step:452/1530 train_loss:3.7046 train_time:73142ms step_avg:165.48ms
step:453/1530 train_loss:3.6620 train_time:73311ms step_avg:165.49ms
step:454/1530 train_loss:3.6378 train_time:73478ms step_avg:165.49ms
step:455/1530 train_loss:3.8388 train_time:73645ms step_avg:165.49ms
step:456/1530 train_loss:3.7194 train_time:73815ms step_avg:165.51ms
step:457/1530 train_loss:3.7750 train_time:73985ms step_avg:165.52ms
step:458/1530 train_loss:3.8276 train_time:74154ms step_avg:165.52ms
step:459/1530 train_loss:3.6213 train_time:74324ms step_avg:165.53ms
step:460/1530 train_loss:3.7823 train_time:74494ms step_avg:165.54ms
step:461/1530 train_loss:3.6928 train_time:74664ms step_avg:165.55ms
step:462/1530 train_loss:3.7340 train_time:74833ms step_avg:165.56ms
step:463/1530 train_loss:3.7706 train_time:75004ms step_avg:165.57ms
step:464/1530 train_loss:3.7084 train_time:75174ms step_avg:165.58ms
step:465/1530 train_loss:3.7118 train_time:75342ms step_avg:165.59ms
step:466/1530 train_loss:3.7900 train_time:75512ms step_avg:165.60ms
step:467/1530 train_loss:3.8129 train_time:75682ms step_avg:165.61ms
step:468/1530 train_loss:3.7826 train_time:75851ms step_avg:165.61ms
step:469/1530 train_loss:3.6851 train_time:76021ms step_avg:165.62ms
step:470/1530 train_loss:3.7702 train_time:76191ms step_avg:165.63ms
step:471/1530 train_loss:3.8032 train_time:76360ms step_avg:165.64ms
step:472/1530 train_loss:3.7800 train_time:76531ms step_avg:165.65ms
step:473/1530 train_loss:3.7079 train_time:76701ms step_avg:165.66ms
step:474/1530 train_loss:3.5822 train_time:76871ms step_avg:165.67ms
step:475/1530 train_loss:4.0020 train_time:77040ms step_avg:165.68ms
step:476/1530 train_loss:3.7450 train_time:77209ms step_avg:165.68ms
step:477/1530 train_loss:3.5945 train_time:77380ms step_avg:165.70ms
step:478/1530 train_loss:3.8174 train_time:77549ms step_avg:165.70ms
step:479/1530 train_loss:3.7685 train_time:77719ms step_avg:165.71ms
step:480/1530 train_loss:3.9185 train_time:77889ms step_avg:165.72ms
step:481/1530 train_loss:3.7195 train_time:78057ms step_avg:165.73ms
step:482/1530 train_loss:3.5227 train_time:78228ms step_avg:165.74ms
step:483/1530 train_loss:3.7988 train_time:78397ms step_avg:165.74ms
step:484/1530 train_loss:3.6548 train_time:78568ms step_avg:165.75ms
step:485/1530 train_loss:3.6488 train_time:78737ms step_avg:165.76ms
step:486/1530 train_loss:3.5679 train_time:78908ms step_avg:165.77ms
step:487/1530 train_loss:3.6806 train_time:79077ms step_avg:165.78ms
step:488/1530 train_loss:3.8676 train_time:79245ms step_avg:165.78ms
step:489/1530 train_loss:3.7069 train_time:79416ms step_avg:165.80ms
step:490/1530 train_loss:3.5900 train_time:79584ms step_avg:165.80ms
step:491/1530 train_loss:3.6086 train_time:79753ms step_avg:165.81ms
step:492/1530 train_loss:3.7245 train_time:79923ms step_avg:165.82ms
step:493/1530 train_loss:3.5726 train_time:80095ms step_avg:165.83ms
step:494/1530 train_loss:3.6914 train_time:80263ms step_avg:165.83ms
step:495/1530 train_loss:3.6529 train_time:80434ms step_avg:165.84ms
step:496/1530 train_loss:3.5027 train_time:80605ms step_avg:165.85ms
step:497/1530 train_loss:3.7315 train_time:80775ms step_avg:165.86ms
step:498/1530 train_loss:3.7828 train_time:80944ms step_avg:165.87ms
step:499/1530 train_loss:3.8182 train_time:81114ms step_avg:165.88ms
step:500/1530 train_loss:3.7281 train_time:81284ms step_avg:165.88ms
step:500/1530 val_loss:3.6991 train_time:81332ms step_avg:165.98ms
step:501/1530 train_loss:3.8004 train_time:81454ms step_avg:165.89ms
step:502/1530 train_loss:3.7455 train_time:81623ms step_avg:165.90ms
step:503/1530 train_loss:3.7754 train_time:81793ms step_avg:165.91ms
step:504/1530 train_loss:3.7138 train_time:81961ms step_avg:165.91ms
step:505/1530 train_loss:3.8021 train_time:82131ms step_avg:165.92ms
step:506/1530 train_loss:3.6370 train_time:82300ms step_avg:165.93ms
step:507/1530 train_loss:3.7595 train_time:82470ms step_avg:165.94ms
step:508/1530 train_loss:3.8215 train_time:82642ms step_avg:165.95ms
step:509/1530 train_loss:3.7675 train_time:82812ms step_avg:165.96ms
step:510/1530 train_loss:3.5770 train_time:82981ms step_avg:165.96ms
step:511/1530 train_loss:3.7730 train_time:83151ms step_avg:165.97ms
step:512/1530 train_loss:3.7113 train_time:83322ms step_avg:165.98ms
step:513/1530 train_loss:3.6621 train_time:83491ms step_avg:165.99ms
step:514/1530 train_loss:3.8330 train_time:83660ms step_avg:165.99ms
step:515/1530 train_loss:3.7245 train_time:83829ms step_avg:166.00ms
step:516/1530 train_loss:4.0678 train_time:83997ms step_avg:166.00ms
step:517/1530 train_loss:3.6774 train_time:84166ms step_avg:166.01ms
step:518/1530 train_loss:3.7628 train_time:84334ms step_avg:166.01ms
step:519/1530 train_loss:3.6432 train_time:84503ms step_avg:166.02ms
step:520/1530 train_loss:3.6728 train_time:84672ms step_avg:166.02ms
step:521/1530 train_loss:3.6592 train_time:84841ms step_avg:166.03ms
step:522/1530 train_loss:3.6534 train_time:85012ms step_avg:166.04ms
step:523/1530 train_loss:4.2897 train_time:85182ms step_avg:166.05ms
step:524/1530 train_loss:3.7276 train_time:85351ms step_avg:166.05ms
step:525/1530 train_loss:3.6713 train_time:85520ms step_avg:166.06ms
step:526/1530 train_loss:3.6941 train_time:85690ms step_avg:166.07ms
step:527/1530 train_loss:3.6505 train_time:85858ms step_avg:166.07ms
step:528/1530 train_loss:3.6236 train_time:86027ms step_avg:166.08ms
step:529/1530 train_loss:3.8408 train_time:86196ms step_avg:166.08ms
step:530/1530 train_loss:3.6417 train_time:86366ms step_avg:166.09ms
step:531/1530 train_loss:3.9139 train_time:86536ms step_avg:166.10ms
step:532/1530 train_loss:3.7273 train_time:86704ms step_avg:166.10ms
step:533/1530 train_loss:3.6524 train_time:86874ms step_avg:166.11ms
step:534/1530 train_loss:3.6675 train_time:87043ms step_avg:166.11ms
step:535/1530 train_loss:3.5990 train_time:87213ms step_avg:166.12ms
step:536/1530 train_loss:3.7485 train_time:87384ms step_avg:166.13ms
step:537/1530 train_loss:3.7207 train_time:87554ms step_avg:166.14ms
step:538/1530 train_loss:3.6201 train_time:87724ms step_avg:166.14ms
step:539/1530 train_loss:4.1069 train_time:87895ms step_avg:166.15ms
step:540/1530 train_loss:3.6676 train_time:88062ms step_avg:166.16ms
step:541/1530 train_loss:3.7750 train_time:88232ms step_avg:166.16ms
step:542/1530 train_loss:3.5792 train_time:88401ms step_avg:166.17ms
step:543/1530 train_loss:3.5769 train_time:88570ms step_avg:166.17ms
step:544/1530 train_loss:3.6339 train_time:88739ms step_avg:166.18ms
step:545/1530 train_loss:3.5871 train_time:88909ms step_avg:166.19ms
step:546/1530 train_loss:3.6202 train_time:89079ms step_avg:166.19ms
step:547/1530 train_loss:3.6301 train_time:89248ms step_avg:166.20ms
step:548/1530 train_loss:3.6057 train_time:89418ms step_avg:166.20ms
step:549/1530 train_loss:3.7183 train_time:89586ms step_avg:166.21ms
step:550/1530 train_loss:3.6085 train_time:89756ms step_avg:166.21ms
step:551/1530 train_loss:3.6230 train_time:89923ms step_avg:166.22ms
step:552/1530 train_loss:3.9246 train_time:90092ms step_avg:166.22ms
step:553/1530 train_loss:3.7485 train_time:90261ms step_avg:166.23ms
step:554/1530 train_loss:3.7091 train_time:90432ms step_avg:166.23ms
step:555/1530 train_loss:3.6132 train_time:90599ms step_avg:166.24ms
step:556/1530 train_loss:3.6922 train_time:90767ms step_avg:166.24ms
step:557/1530 train_loss:3.2984 train_time:90937ms step_avg:166.25ms
step:558/1530 train_loss:3.6080 train_time:91106ms step_avg:166.25ms
step:559/1530 train_loss:3.6417 train_time:91274ms step_avg:166.25ms
step:560/1530 train_loss:3.6797 train_time:91444ms step_avg:166.26ms
step:561/1530 train_loss:3.6075 train_time:91613ms step_avg:166.27ms
step:562/1530 train_loss:3.5503 train_time:91780ms step_avg:166.27ms
step:563/1530 train_loss:3.7486 train_time:91950ms step_avg:166.27ms
step:564/1530 train_loss:3.5681 train_time:92119ms step_avg:166.28ms
step:565/1530 train_loss:3.6739 train_time:92288ms step_avg:166.28ms
step:566/1530 train_loss:3.6148 train_time:92593ms step_avg:166.53ms
step:567/1530 train_loss:3.5903 train_time:92772ms step_avg:166.56ms
step:568/1530 train_loss:3.6818 train_time:92944ms step_avg:166.57ms
step:569/1530 train_loss:3.6434 train_time:93270ms step_avg:166.85ms
step:570/1530 train_loss:3.6809 train_time:93440ms step_avg:166.86ms
step:571/1530 train_loss:3.7527 train_time:93610ms step_avg:166.86ms
step:572/1530 train_loss:3.7239 train_time:93782ms step_avg:166.87ms
step:573/1530 train_loss:3.7317 train_time:93956ms step_avg:166.88ms
step:574/1530 train_loss:3.7744 train_time:94128ms step_avg:166.89ms
step:575/1530 train_loss:3.7250 train_time:94298ms step_avg:166.90ms
step:576/1530 train_loss:3.7599 train_time:94470ms step_avg:166.91ms
step:577/1530 train_loss:3.6646 train_time:94641ms step_avg:166.91ms
step:578/1530 train_loss:3.6725 train_time:94814ms step_avg:166.93ms
step:579/1530 train_loss:3.6656 train_time:94987ms step_avg:166.94ms
step:580/1530 train_loss:3.5840 train_time:95157ms step_avg:166.94ms
step:581/1530 train_loss:3.6319 train_time:95329ms step_avg:166.95ms
step:582/1530 train_loss:3.8423 train_time:95499ms step_avg:166.96ms
step:583/1530 train_loss:3.6215 train_time:95671ms step_avg:166.97ms
step:584/1530 train_loss:3.5853 train_time:95843ms step_avg:166.97ms
step:585/1530 train_loss:3.7813 train_time:96014ms step_avg:166.98ms
step:586/1530 train_loss:3.5084 train_time:96188ms step_avg:166.99ms
step:587/1530 train_loss:3.6623 train_time:96358ms step_avg:167.00ms
step:588/1530 train_loss:3.6367 train_time:96529ms step_avg:167.01ms
step:589/1530 train_loss:3.9831 train_time:96701ms step_avg:167.01ms
step:590/1530 train_loss:3.7772 train_time:96873ms step_avg:167.02ms
step:591/1530 train_loss:3.4974 train_time:97045ms step_avg:167.03ms
step:592/1530 train_loss:3.5263 train_time:97219ms step_avg:167.04ms
step:593/1530 train_loss:3.4949 train_time:97393ms step_avg:167.05ms
step:594/1530 train_loss:3.5526 train_time:97564ms step_avg:167.06ms
step:595/1530 train_loss:3.9047 train_time:97737ms step_avg:167.07ms
step:596/1530 train_loss:3.6484 train_time:97911ms step_avg:167.08ms
step:597/1530 train_loss:3.5833 train_time:98079ms step_avg:167.09ms
step:598/1530 train_loss:3.6520 train_time:98254ms step_avg:167.10ms
step:599/1530 train_loss:3.4751 train_time:98423ms step_avg:167.10ms
step:600/1530 train_loss:3.5973 train_time:98594ms step_avg:167.11ms
step:601/1530 train_loss:3.6489 train_time:98768ms step_avg:167.12ms
step:602/1530 train_loss:3.6652 train_time:98941ms step_avg:167.13ms
step:603/1530 train_loss:3.7778 train_time:99113ms step_avg:167.14ms
step:604/1530 train_loss:3.6000 train_time:99283ms step_avg:167.14ms
step:605/1530 train_loss:3.6023 train_time:99455ms step_avg:167.15ms
step:606/1530 train_loss:3.5651 train_time:99630ms step_avg:167.16ms
step:607/1530 train_loss:3.8364 train_time:99799ms step_avg:167.17ms
step:608/1530 train_loss:3.6245 train_time:99971ms step_avg:167.18ms
step:609/1530 train_loss:3.6163 train_time:100140ms step_avg:167.18ms
step:610/1530 train_loss:3.6963 train_time:100310ms step_avg:167.18ms
step:611/1530 train_loss:3.5966 train_time:100481ms step_avg:167.19ms
step:612/1530 train_loss:3.5696 train_time:100654ms step_avg:167.20ms
step:613/1530 train_loss:3.7642 train_time:100824ms step_avg:167.20ms
step:614/1530 train_loss:3.6924 train_time:100995ms step_avg:167.21ms
step:615/1530 train_loss:3.6892 train_time:101165ms step_avg:167.21ms
step:616/1530 train_loss:3.6276 train_time:101335ms step_avg:167.22ms
step:617/1530 train_loss:3.5527 train_time:101507ms step_avg:167.23ms
step:618/1530 train_loss:3.6872 train_time:101677ms step_avg:167.23ms
step:619/1530 train_loss:3.5441 train_time:101851ms step_avg:167.24ms
step:620/1530 train_loss:3.5872 train_time:102022ms step_avg:167.25ms
step:621/1530 train_loss:3.9165 train_time:102194ms step_avg:167.26ms
step:622/1530 train_loss:3.5706 train_time:102367ms step_avg:167.27ms
step:623/1530 train_loss:3.6020 train_time:102539ms step_avg:167.27ms
step:624/1530 train_loss:3.6878 train_time:102711ms step_avg:167.28ms
step:625/1530 train_loss:3.6940 train_time:102881ms step_avg:167.29ms
step:625/1530 val_loss:3.6162 train_time:102930ms step_avg:167.37ms
step:626/1530 train_loss:3.7313 train_time:103051ms step_avg:167.29ms
step:627/1530 train_loss:3.7110 train_time:103224ms step_avg:167.30ms
step:628/1530 train_loss:3.7533 train_time:103393ms step_avg:167.30ms
step:629/1530 train_loss:3.5855 train_time:103564ms step_avg:167.31ms
step:630/1530 train_loss:3.7217 train_time:103733ms step_avg:167.31ms
step:631/1530 train_loss:3.7348 train_time:103905ms step_avg:167.32ms
step:632/1530 train_loss:3.6413 train_time:104076ms step_avg:167.33ms
step:633/1530 train_loss:3.5978 train_time:104248ms step_avg:167.33ms
step:634/1530 train_loss:3.6952 train_time:104418ms step_avg:167.34ms
step:635/1530 train_loss:3.9433 train_time:104587ms step_avg:167.34ms
step:636/1530 train_loss:3.5502 train_time:104758ms step_avg:167.34ms
step:637/1530 train_loss:3.3546 train_time:104928ms step_avg:167.35ms
step:638/1530 train_loss:3.5935 train_time:105096ms step_avg:167.35ms
step:639/1530 train_loss:3.6272 train_time:105267ms step_avg:167.36ms
step:640/1530 train_loss:3.5598 train_time:105437ms step_avg:167.36ms
step:641/1530 train_loss:3.5774 train_time:105607ms step_avg:167.36ms
step:642/1530 train_loss:3.6322 train_time:105776ms step_avg:167.37ms
step:643/1530 train_loss:3.5915 train_time:105947ms step_avg:167.37ms
step:644/1530 train_loss:3.5543 train_time:106116ms step_avg:167.37ms
step:645/1530 train_loss:3.7724 train_time:106288ms step_avg:167.38ms
step:646/1530 train_loss:3.6626 train_time:106459ms step_avg:167.39ms
step:647/1530 train_loss:3.6589 train_time:106628ms step_avg:167.39ms
step:648/1530 train_loss:3.7048 train_time:106801ms step_avg:167.40ms
step:649/1530 train_loss:3.7572 train_time:106971ms step_avg:167.40ms
step:650/1530 train_loss:3.6195 train_time:107142ms step_avg:167.41ms
step:651/1530 train_loss:3.7613 train_time:107313ms step_avg:167.41ms
step:652/1530 train_loss:3.5776 train_time:107484ms step_avg:167.42ms
step:653/1530 train_loss:3.6543 train_time:107652ms step_avg:167.42ms
step:654/1530 train_loss:3.4181 train_time:107824ms step_avg:167.43ms
step:655/1530 train_loss:3.5764 train_time:107993ms step_avg:167.43ms
step:656/1530 train_loss:3.5781 train_time:108164ms step_avg:167.44ms
step:657/1530 train_loss:3.4915 train_time:108336ms step_avg:167.44ms
step:658/1530 train_loss:3.6794 train_time:108506ms step_avg:167.45ms
step:659/1530 train_loss:3.5833 train_time:108677ms step_avg:167.45ms
step:660/1530 train_loss:3.6757 train_time:108848ms step_avg:167.46ms
step:661/1530 train_loss:3.7413 train_time:109019ms step_avg:167.46ms
step:662/1530 train_loss:3.6694 train_time:109189ms step_avg:167.47ms
step:663/1530 train_loss:3.5476 train_time:109360ms step_avg:167.47ms
step:664/1530 train_loss:3.6013 train_time:109529ms step_avg:167.48ms
step:665/1530 train_loss:3.4859 train_time:109700ms step_avg:167.48ms
step:666/1530 train_loss:3.7732 train_time:109870ms step_avg:167.48ms
step:667/1530 train_loss:3.6021 train_time:110042ms step_avg:167.49ms
step:668/1530 train_loss:3.6365 train_time:110212ms step_avg:167.50ms
step:669/1530 train_loss:3.4809 train_time:110385ms step_avg:167.50ms
step:670/1530 train_loss:3.5966 train_time:110555ms step_avg:167.51ms
step:671/1530 train_loss:3.5580 train_time:110725ms step_avg:167.51ms
step:672/1530 train_loss:3.5640 train_time:110895ms step_avg:167.52ms
step:673/1530 train_loss:3.8482 train_time:111067ms step_avg:167.52ms
step:674/1530 train_loss:3.6207 train_time:111238ms step_avg:167.53ms
step:675/1530 train_loss:3.7096 train_time:111408ms step_avg:167.53ms
step:676/1530 train_loss:3.4871 train_time:111579ms step_avg:167.54ms
step:677/1530 train_loss:3.5951 train_time:111750ms step_avg:167.54ms
step:678/1530 train_loss:3.5424 train_time:111922ms step_avg:167.55ms
step:679/1530 train_loss:3.6725 train_time:112092ms step_avg:167.55ms
step:680/1530 train_loss:3.5819 train_time:112262ms step_avg:167.56ms
step:681/1530 train_loss:3.6132 train_time:112433ms step_avg:167.56ms
step:682/1530 train_loss:3.6583 train_time:112608ms step_avg:167.57ms
step:683/1530 train_loss:3.7295 train_time:112783ms step_avg:167.58ms
step:684/1530 train_loss:3.6413 train_time:112954ms step_avg:167.59ms
step:685/1530 train_loss:3.6808 train_time:113127ms step_avg:167.59ms
step:686/1530 train_loss:3.6282 train_time:113299ms step_avg:167.60ms
step:687/1530 train_loss:3.6532 train_time:113471ms step_avg:167.61ms
step:688/1530 train_loss:3.2279 train_time:113648ms step_avg:167.62ms
step:689/1530 train_loss:3.3983 train_time:113822ms step_avg:167.63ms
step:690/1530 train_loss:3.5335 train_time:113996ms step_avg:167.64ms
step:691/1530 train_loss:3.4015 train_time:114169ms step_avg:167.65ms
step:692/1530 train_loss:3.6231 train_time:114341ms step_avg:167.66ms
step:693/1530 train_loss:3.6439 train_time:114513ms step_avg:167.66ms
step:694/1530 train_loss:3.5506 train_time:114686ms step_avg:167.67ms
step:695/1530 train_loss:3.5239 train_time:114857ms step_avg:167.67ms
step:696/1530 train_loss:3.8430 train_time:115029ms step_avg:167.68ms
step:697/1530 train_loss:3.5809 train_time:115202ms step_avg:167.69ms
step:698/1530 train_loss:3.6336 train_time:115373ms step_avg:167.69ms
step:699/1530 train_loss:3.7645 train_time:115548ms step_avg:167.70ms
step:700/1530 train_loss:3.5616 train_time:115721ms step_avg:167.71ms
step:701/1530 train_loss:3.5395 train_time:115891ms step_avg:167.72ms
step:702/1530 train_loss:3.5062 train_time:116066ms step_avg:167.73ms
step:703/1530 train_loss:3.4913 train_time:116237ms step_avg:167.73ms
step:704/1530 train_loss:3.5662 train_time:116410ms step_avg:167.74ms
step:705/1530 train_loss:3.5586 train_time:116586ms step_avg:167.75ms
step:706/1530 train_loss:3.5761 train_time:116763ms step_avg:167.76ms
step:707/1530 train_loss:3.6410 train_time:116937ms step_avg:167.77ms
step:708/1530 train_loss:3.5959 train_time:117109ms step_avg:167.78ms
step:709/1530 train_loss:3.5776 train_time:117284ms step_avg:167.79ms
step:710/1530 train_loss:3.5358 train_time:117454ms step_avg:167.79ms
step:711/1530 train_loss:3.5851 train_time:117627ms step_avg:167.80ms
step:712/1530 train_loss:3.6379 train_time:117804ms step_avg:167.81ms
step:713/1530 train_loss:3.6484 train_time:117981ms step_avg:167.82ms
step:714/1530 train_loss:3.5522 train_time:118152ms step_avg:167.83ms
step:715/1530 train_loss:3.5643 train_time:118324ms step_avg:167.84ms
step:716/1530 train_loss:3.5837 train_time:118496ms step_avg:167.84ms
step:717/1530 train_loss:3.7005 train_time:118669ms step_avg:167.85ms
step:718/1530 train_loss:3.5940 train_time:118842ms step_avg:167.86ms
step:719/1530 train_loss:3.6712 train_time:119014ms step_avg:167.86ms
step:720/1530 train_loss:3.8373 train_time:119190ms step_avg:167.87ms
step:721/1530 train_loss:3.4639 train_time:119363ms step_avg:167.88ms
step:722/1530 train_loss:3.7275 train_time:119535ms step_avg:167.89ms
step:723/1530 train_loss:3.7619 train_time:119707ms step_avg:167.89ms
step:724/1530 train_loss:3.5634 train_time:119880ms step_avg:167.90ms
step:725/1530 train_loss:3.6506 train_time:120052ms step_avg:167.90ms
step:726/1530 train_loss:3.5251 train_time:120225ms step_avg:167.91ms
step:727/1530 train_loss:3.5755 train_time:120400ms step_avg:167.92ms
step:728/1530 train_loss:3.7250 train_time:120574ms step_avg:167.93ms
step:729/1530 train_loss:3.6648 train_time:120747ms step_avg:167.94ms
step:730/1530 train_loss:3.6542 train_time:120921ms step_avg:167.95ms
step:731/1530 train_loss:3.5492 train_time:121093ms step_avg:167.95ms
step:732/1530 train_loss:3.5947 train_time:121265ms step_avg:167.96ms
step:733/1530 train_loss:3.8249 train_time:121439ms step_avg:167.96ms
step:734/1530 train_loss:3.5556 train_time:121611ms step_avg:167.97ms
step:735/1530 train_loss:3.6157 train_time:121784ms step_avg:167.98ms
step:736/1530 train_loss:3.7290 train_time:121957ms step_avg:167.98ms
step:737/1530 train_loss:3.6739 train_time:122128ms step_avg:167.99ms
step:738/1530 train_loss:3.5985 train_time:122300ms step_avg:167.99ms
step:739/1530 train_loss:3.5126 train_time:122472ms step_avg:168.00ms
step:740/1530 train_loss:4.1115 train_time:122649ms step_avg:168.01ms
step:741/1530 train_loss:3.4873 train_time:122822ms step_avg:168.02ms
step:742/1530 train_loss:3.5509 train_time:122994ms step_avg:168.03ms
step:743/1530 train_loss:3.5803 train_time:123167ms step_avg:168.03ms
step:744/1530 train_loss:3.6440 train_time:123341ms step_avg:168.04ms
step:745/1530 train_loss:3.5781 train_time:123513ms step_avg:168.05ms
step:746/1530 train_loss:3.5868 train_time:123686ms step_avg:168.05ms
step:747/1530 train_loss:3.6412 train_time:123859ms step_avg:168.06ms
step:748/1530 train_loss:3.5586 train_time:124035ms step_avg:168.07ms
step:749/1530 train_loss:3.5606 train_time:124208ms step_avg:168.08ms
step:750/1530 train_loss:3.5938 train_time:124379ms step_avg:168.08ms
step:750/1530 val_loss:3.5621 train_time:124428ms step_avg:168.15ms
step:751/1530 train_loss:3.5703 train_time:124554ms step_avg:168.09ms
step:752/1530 train_loss:3.6118 train_time:124725ms step_avg:168.09ms
step:753/1530 train_loss:3.6177 train_time:124900ms step_avg:168.10ms
step:754/1530 train_loss:3.5937 train_time:125074ms step_avg:168.11ms
step:755/1530 train_loss:3.6760 train_time:125382ms step_avg:168.30ms
step:756/1530 train_loss:3.4539 train_time:125567ms step_avg:168.32ms
step:757/1530 train_loss:3.7308 train_time:125741ms step_avg:168.33ms
step:758/1530 train_loss:3.6440 train_time:125913ms step_avg:168.33ms
step:759/1530 train_loss:3.5838 train_time:126245ms step_avg:168.55ms
step:760/1530 train_loss:3.6999 train_time:126416ms step_avg:168.55ms
step:761/1530 train_loss:3.3989 train_time:126589ms step_avg:168.56ms
step:762/1530 train_loss:3.5454 train_time:126761ms step_avg:168.56ms
step:763/1530 train_loss:3.6572 train_time:126934ms step_avg:168.57ms
step:764/1530 train_loss:3.3110 train_time:127106ms step_avg:168.58ms
step:765/1530 train_loss:3.7205 train_time:127278ms step_avg:168.58ms
step:766/1530 train_loss:3.5662 train_time:127451ms step_avg:168.59ms
step:767/1530 train_loss:3.5725 train_time:127622ms step_avg:168.59ms
step:768/1530 train_loss:3.5627 train_time:127796ms step_avg:168.60ms
step:769/1530 train_loss:3.5800 train_time:127968ms step_avg:168.60ms
step:770/1530 train_loss:3.6372 train_time:128139ms step_avg:168.60ms
step:771/1530 train_loss:3.8805 train_time:128313ms step_avg:168.61ms
step:772/1530 train_loss:3.4497 train_time:128484ms step_avg:168.61ms
step:773/1530 train_loss:3.6304 train_time:128655ms step_avg:168.62ms
step:774/1530 train_loss:3.6368 train_time:128827ms step_avg:168.62ms
step:775/1530 train_loss:3.6019 train_time:128999ms step_avg:168.63ms
step:776/1530 train_loss:3.4023 train_time:129173ms step_avg:168.63ms
step:777/1530 train_loss:3.3776 train_time:129345ms step_avg:168.64ms
step:778/1530 train_loss:3.4895 train_time:129518ms step_avg:168.64ms
step:779/1530 train_loss:3.5791 train_time:129690ms step_avg:168.65ms
step:780/1530 train_loss:3.5798 train_time:129862ms step_avg:168.65ms
step:781/1530 train_loss:3.6708 train_time:130034ms step_avg:168.66ms
step:782/1530 train_loss:3.5875 train_time:130206ms step_avg:168.66ms
step:783/1530 train_loss:3.5640 train_time:130376ms step_avg:168.66ms
step:784/1530 train_loss:3.5980 train_time:130549ms step_avg:168.67ms
step:785/1530 train_loss:3.5591 train_time:130720ms step_avg:168.67ms
step:786/1530 train_loss:3.4293 train_time:130894ms step_avg:168.68ms
step:787/1530 train_loss:3.7450 train_time:131066ms step_avg:168.68ms
step:788/1530 train_loss:3.4973 train_time:131239ms step_avg:168.69ms
step:789/1530 train_loss:3.5405 train_time:131412ms step_avg:168.69ms
step:790/1530 train_loss:3.6185 train_time:131584ms step_avg:168.70ms
step:791/1530 train_loss:3.7673 train_time:131759ms step_avg:168.71ms
step:792/1530 train_loss:3.7560 train_time:131933ms step_avg:168.71ms
step:793/1530 train_loss:3.4389 train_time:132103ms step_avg:168.71ms
step:794/1530 train_loss:3.5885 train_time:132276ms step_avg:168.72ms
step:795/1530 train_loss:3.6695 train_time:132451ms step_avg:168.73ms
step:796/1530 train_loss:3.7634 train_time:132627ms step_avg:168.74ms
step:797/1530 train_loss:3.5234 train_time:132801ms step_avg:168.74ms
step:798/1530 train_loss:3.6446 train_time:132976ms step_avg:168.75ms
step:799/1530 train_loss:3.5251 train_time:133153ms step_avg:168.76ms
step:800/1530 train_loss:3.5242 train_time:133326ms step_avg:168.77ms
step:801/1530 train_loss:3.6243 train_time:133500ms step_avg:168.77ms
step:802/1530 train_loss:3.4905 train_time:133676ms step_avg:168.78ms
step:803/1530 train_loss:3.4747 train_time:133850ms step_avg:168.79ms
step:804/1530 train_loss:3.6145 train_time:134023ms step_avg:168.80ms
step:805/1530 train_loss:3.5103 train_time:134200ms step_avg:168.80ms
step:806/1530 train_loss:3.5556 train_time:134373ms step_avg:168.81ms
step:807/1530 train_loss:3.6381 train_time:134546ms step_avg:168.82ms
step:808/1530 train_loss:3.5352 train_time:134720ms step_avg:168.82ms
step:809/1530 train_loss:3.4858 train_time:134894ms step_avg:168.83ms
step:810/1530 train_loss:3.5593 train_time:135066ms step_avg:168.83ms
step:811/1530 train_loss:3.5754 train_time:135239ms step_avg:168.84ms
step:812/1530 train_loss:3.5911 train_time:135413ms step_avg:168.84ms
step:813/1530 train_loss:3.6220 train_time:135584ms step_avg:168.85ms
step:814/1530 train_loss:3.5586 train_time:135757ms step_avg:168.85ms
step:815/1530 train_loss:3.5598 train_time:135931ms step_avg:168.86ms
step:816/1530 train_loss:3.6767 train_time:136108ms step_avg:168.87ms
step:817/1530 train_loss:3.7592 train_time:136281ms step_avg:168.87ms
step:818/1530 train_loss:3.5164 train_time:136454ms step_avg:168.88ms
step:819/1530 train_loss:3.7199 train_time:136627ms step_avg:168.88ms
step:820/1530 train_loss:3.4880 train_time:136803ms step_avg:168.89ms
step:821/1530 train_loss:3.5619 train_time:136976ms step_avg:168.90ms
step:822/1530 train_loss:3.6953 train_time:137152ms step_avg:168.91ms
step:823/1530 train_loss:3.5701 train_time:137324ms step_avg:168.91ms
step:824/1530 train_loss:3.5094 train_time:137497ms step_avg:168.92ms
step:825/1530 train_loss:3.6059 train_time:137674ms step_avg:168.92ms
step:826/1530 train_loss:3.4703 train_time:137851ms step_avg:168.93ms
step:827/1530 train_loss:3.7262 train_time:138024ms step_avg:168.94ms
step:828/1530 train_loss:3.6159 train_time:138198ms step_avg:168.95ms
step:829/1530 train_loss:3.6201 train_time:138374ms step_avg:168.96ms
step:830/1530 train_loss:3.5287 train_time:138550ms step_avg:168.96ms
step:831/1530 train_loss:3.5948 train_time:138723ms step_avg:168.97ms
step:832/1530 train_loss:3.5070 train_time:138898ms step_avg:168.98ms
step:833/1530 train_loss:3.6441 train_time:139074ms step_avg:168.98ms
step:834/1530 train_loss:3.4600 train_time:139249ms step_avg:168.99ms
step:835/1530 train_loss:3.4527 train_time:139423ms step_avg:169.00ms
step:836/1530 train_loss:3.7130 train_time:139598ms step_avg:169.00ms
step:837/1530 train_loss:3.3988 train_time:139774ms step_avg:169.01ms
step:838/1530 train_loss:3.5843 train_time:139947ms step_avg:169.02ms
step:839/1530 train_loss:3.4151 train_time:140122ms step_avg:169.03ms
step:840/1530 train_loss:3.4683 train_time:140295ms step_avg:169.03ms
step:841/1530 train_loss:3.5703 train_time:140468ms step_avg:169.03ms
step:842/1530 train_loss:3.5765 train_time:140642ms step_avg:169.04ms
step:843/1530 train_loss:3.5575 train_time:140815ms step_avg:169.05ms
step:844/1530 train_loss:3.4250 train_time:140987ms step_avg:169.05ms
step:845/1530 train_loss:3.6589 train_time:141161ms step_avg:169.05ms
step:846/1530 train_loss:3.5133 train_time:141336ms step_avg:169.06ms
step:847/1530 train_loss:3.4901 train_time:141511ms step_avg:169.07ms
step:848/1530 train_loss:3.6357 train_time:141683ms step_avg:169.07ms
step:849/1530 train_loss:3.4836 train_time:141857ms step_avg:169.08ms
step:850/1530 train_loss:3.4344 train_time:142031ms step_avg:169.08ms
step:851/1530 train_loss:3.7262 train_time:142205ms step_avg:169.09ms
step:852/1530 train_loss:3.4307 train_time:142378ms step_avg:169.09ms
step:853/1530 train_loss:3.5611 train_time:142550ms step_avg:169.10ms
step:854/1530 train_loss:3.6445 train_time:142723ms step_avg:169.10ms
step:855/1530 train_loss:3.5148 train_time:142897ms step_avg:169.11ms
step:856/1530 train_loss:3.5425 train_time:143070ms step_avg:169.11ms
step:857/1530 train_loss:3.5980 train_time:143246ms step_avg:169.12ms
step:858/1530 train_loss:3.4570 train_time:143421ms step_avg:169.13ms
step:859/1530 train_loss:3.5566 train_time:143595ms step_avg:169.13ms
step:860/1530 train_loss:3.5775 train_time:143766ms step_avg:169.14ms
step:861/1530 train_loss:3.6240 train_time:143944ms step_avg:169.15ms
step:862/1530 train_loss:3.5980 train_time:144121ms step_avg:169.16ms
step:863/1530 train_loss:3.5647 train_time:144297ms step_avg:169.16ms
step:864/1530 train_loss:3.3771 train_time:144471ms step_avg:169.17ms
step:865/1530 train_loss:3.5976 train_time:144642ms step_avg:169.17ms
step:866/1530 train_loss:3.9223 train_time:144820ms step_avg:169.18ms
step:867/1530 train_loss:3.4520 train_time:144994ms step_avg:169.19ms
step:868/1530 train_loss:3.6403 train_time:145165ms step_avg:169.19ms
step:869/1530 train_loss:3.6114 train_time:145339ms step_avg:169.20ms
step:870/1530 train_loss:3.4501 train_time:145515ms step_avg:169.20ms
step:871/1530 train_loss:3.3922 train_time:145688ms step_avg:169.21ms
step:872/1530 train_loss:3.6379 train_time:145863ms step_avg:169.21ms
step:873/1530 train_loss:3.4564 train_time:146037ms step_avg:169.22ms
step:874/1530 train_loss:3.2149 train_time:146215ms step_avg:169.23ms
step:875/1530 train_loss:3.6298 train_time:146389ms step_avg:169.24ms
step:875/1530 val_loss:3.5136 train_time:146439ms step_avg:169.29ms
step:876/1530 train_loss:3.4303 train_time:146564ms step_avg:169.24ms
step:877/1530 train_loss:3.6139 train_time:146739ms step_avg:169.25ms
step:878/1530 train_loss:3.4657 train_time:146913ms step_avg:169.25ms
step:879/1530 train_loss:3.6482 train_time:147087ms step_avg:169.26ms
step:880/1530 train_loss:3.3069 train_time:147258ms step_avg:169.26ms
step:881/1530 train_loss:3.4737 train_time:147431ms step_avg:169.27ms
step:882/1530 train_loss:3.6951 train_time:147602ms step_avg:169.27ms
step:883/1530 train_loss:3.8318 train_time:147775ms step_avg:169.27ms
step:884/1530 train_loss:3.5605 train_time:147951ms step_avg:169.28ms
step:885/1530 train_loss:3.4905 train_time:148123ms step_avg:169.28ms
step:886/1530 train_loss:3.5619 train_time:148297ms step_avg:169.29ms
step:887/1530 train_loss:4.0788 train_time:148472ms step_avg:169.30ms
step:888/1530 train_loss:3.8380 train_time:148650ms step_avg:169.31ms
step:889/1530 train_loss:3.5152 train_time:148823ms step_avg:169.31ms
step:890/1530 train_loss:3.5294 train_time:148995ms step_avg:169.31ms
step:891/1530 train_loss:3.3591 train_time:149169ms step_avg:169.32ms
step:892/1530 train_loss:3.7125 train_time:149341ms step_avg:169.32ms
step:893/1530 train_loss:3.4144 train_time:149514ms step_avg:169.33ms
step:894/1530 train_loss:3.6293 train_time:149690ms step_avg:169.33ms
step:895/1530 train_loss:3.6732 train_time:149865ms step_avg:169.34ms
step:896/1530 train_loss:3.4922 train_time:150038ms step_avg:169.34ms
step:897/1530 train_loss:3.5403 train_time:150214ms step_avg:169.35ms
step:898/1530 train_loss:3.5892 train_time:150389ms step_avg:169.36ms
step:899/1530 train_loss:3.4708 train_time:150562ms step_avg:169.36ms
step:900/1530 train_loss:3.4226 train_time:150733ms step_avg:169.36ms
step:901/1530 train_loss:3.6157 train_time:150906ms step_avg:169.37ms
step:902/1530 train_loss:3.6250 train_time:151079ms step_avg:169.37ms
step:903/1530 train_loss:3.5366 train_time:151254ms step_avg:169.38ms
step:904/1530 train_loss:3.4889 train_time:151429ms step_avg:169.38ms
step:905/1530 train_loss:3.4938 train_time:151599ms step_avg:169.38ms
step:906/1530 train_loss:3.7022 train_time:151774ms step_avg:169.39ms
step:907/1530 train_loss:3.5113 train_time:151947ms step_avg:169.40ms
step:908/1530 train_loss:3.5540 train_time:152120ms step_avg:169.40ms
step:909/1530 train_loss:3.4530 train_time:152295ms step_avg:169.41ms
step:910/1530 train_loss:3.5213 train_time:152474ms step_avg:169.42ms
step:911/1530 train_loss:3.6463 train_time:152652ms step_avg:169.42ms
step:912/1530 train_loss:3.5917 train_time:152831ms step_avg:169.44ms
step:913/1530 train_loss:3.4564 train_time:153010ms step_avg:169.45ms
step:914/1530 train_loss:3.7406 train_time:153188ms step_avg:169.46ms
step:915/1530 train_loss:3.5318 train_time:153366ms step_avg:169.47ms
step:916/1530 train_loss:3.6121 train_time:153540ms step_avg:169.47ms
step:917/1530 train_loss:3.5991 train_time:153715ms step_avg:169.48ms
step:918/1530 train_loss:4.8196 train_time:153896ms step_avg:169.49ms
step:919/1530 train_loss:3.4937 train_time:154075ms step_avg:169.50ms
step:920/1530 train_loss:3.5845 train_time:154250ms step_avg:169.50ms
step:921/1530 train_loss:3.5449 train_time:154428ms step_avg:169.51ms
step:922/1530 train_loss:3.5725 train_time:154605ms step_avg:169.52ms
step:923/1530 train_loss:3.6035 train_time:154780ms step_avg:169.53ms
step:924/1530 train_loss:3.6706 train_time:154955ms step_avg:169.53ms
step:925/1530 train_loss:3.6363 train_time:155131ms step_avg:169.54ms
step:926/1530 train_loss:3.5483 train_time:155304ms step_avg:169.55ms
step:927/1530 train_loss:3.5470 train_time:155477ms step_avg:169.55ms
step:928/1530 train_loss:3.7817 train_time:155654ms step_avg:169.56ms
step:929/1530 train_loss:3.6111 train_time:155829ms step_avg:169.56ms
step:930/1530 train_loss:3.3979 train_time:156006ms step_avg:169.57ms
step:931/1530 train_loss:3.4864 train_time:156179ms step_avg:169.58ms
step:932/1530 train_loss:3.6483 train_time:156356ms step_avg:169.58ms
step:933/1530 train_loss:3.3587 train_time:156533ms step_avg:169.59ms
step:934/1530 train_loss:3.5776 train_time:156711ms step_avg:169.60ms
step:935/1530 train_loss:3.4323 train_time:156889ms step_avg:169.61ms
step:936/1530 train_loss:3.5174 train_time:157067ms step_avg:169.62ms
step:937/1530 train_loss:3.6167 train_time:157247ms step_avg:169.63ms
step:938/1530 train_loss:3.5378 train_time:157421ms step_avg:169.63ms
step:939/1530 train_loss:3.6701 train_time:157601ms step_avg:169.65ms
step:940/1530 train_loss:3.4784 train_time:157775ms step_avg:169.65ms
step:941/1530 train_loss:3.5468 train_time:157951ms step_avg:169.66ms
step:942/1530 train_loss:3.3516 train_time:158129ms step_avg:169.67ms
step:943/1530 train_loss:3.7097 train_time:158309ms step_avg:169.68ms
step:944/1530 train_loss:3.3934 train_time:158626ms step_avg:169.84ms
step:945/1530 train_loss:3.4193 train_time:158810ms step_avg:169.85ms
step:946/1530 train_loss:5.0700 train_time:158990ms step_avg:169.86ms
step:947/1530 train_loss:3.5944 train_time:159167ms step_avg:169.87ms
step:948/1530 train_loss:3.4817 train_time:159341ms step_avg:169.87ms
step:949/1530 train_loss:3.3684 train_time:159673ms step_avg:170.05ms
step:950/1530 train_loss:3.4384 train_time:159846ms step_avg:170.05ms
step:951/1530 train_loss:3.4039 train_time:160025ms step_avg:170.06ms
step:952/1530 train_loss:3.4727 train_time:160200ms step_avg:170.06ms
step:953/1530 train_loss:3.5608 train_time:160376ms step_avg:170.07ms
step:954/1530 train_loss:3.4393 train_time:160556ms step_avg:170.08ms
step:955/1530 train_loss:3.4710 train_time:160732ms step_avg:170.09ms
step:956/1530 train_loss:3.4394 train_time:160908ms step_avg:170.09ms
step:957/1530 train_loss:3.4896 train_time:161086ms step_avg:170.10ms
step:958/1530 train_loss:3.5010 train_time:161263ms step_avg:170.11ms
step:959/1530 train_loss:3.5112 train_time:161440ms step_avg:170.12ms
step:960/1530 train_loss:3.4043 train_time:161615ms step_avg:170.12ms
step:961/1530 train_loss:3.6390 train_time:161790ms step_avg:170.13ms
step:962/1530 train_loss:3.5902 train_time:161964ms step_avg:170.13ms
step:963/1530 train_loss:3.5887 train_time:162140ms step_avg:170.14ms
step:964/1530 train_loss:3.4268 train_time:162317ms step_avg:170.14ms
step:965/1530 train_loss:3.4739 train_time:162490ms step_avg:170.15ms
step:966/1530 train_loss:3.7052 train_time:162664ms step_avg:170.15ms
step:967/1530 train_loss:3.5148 train_time:162837ms step_avg:170.15ms
step:968/1530 train_loss:3.5096 train_time:163014ms step_avg:170.16ms
step:969/1530 train_loss:3.5781 train_time:163189ms step_avg:170.17ms
step:970/1530 train_loss:3.3701 train_time:163362ms step_avg:170.17ms
step:971/1530 train_loss:3.5273 train_time:163537ms step_avg:170.17ms
step:972/1530 train_loss:3.4680 train_time:163712ms step_avg:170.18ms
step:973/1530 train_loss:3.5332 train_time:163886ms step_avg:170.18ms
step:974/1530 train_loss:3.5863 train_time:164062ms step_avg:170.19ms
step:975/1530 train_loss:3.4573 train_time:164237ms step_avg:170.19ms
step:976/1530 train_loss:3.6647 train_time:164412ms step_avg:170.20ms
step:977/1530 train_loss:3.5664 train_time:164588ms step_avg:170.20ms
step:978/1530 train_loss:3.3525 train_time:164762ms step_avg:170.21ms
step:979/1530 train_loss:3.6186 train_time:164938ms step_avg:170.21ms
step:980/1530 train_loss:3.4099 train_time:165115ms step_avg:170.22ms
step:981/1530 train_loss:3.5687 train_time:165293ms step_avg:170.23ms
step:982/1530 train_loss:3.5379 train_time:165466ms step_avg:170.23ms
step:983/1530 train_loss:3.5080 train_time:165641ms step_avg:170.24ms
step:984/1530 train_loss:3.4880 train_time:165815ms step_avg:170.24ms
step:985/1530 train_loss:3.5741 train_time:165993ms step_avg:170.25ms
step:986/1530 train_loss:3.4098 train_time:166168ms step_avg:170.25ms
step:987/1530 train_loss:3.4885 train_time:166341ms step_avg:170.26ms
step:988/1530 train_loss:3.4809 train_time:166517ms step_avg:170.26ms
step:989/1530 train_loss:3.4187 train_time:166690ms step_avg:170.27ms
step:990/1530 train_loss:3.6603 train_time:166868ms step_avg:170.27ms
step:991/1530 train_loss:3.4663 train_time:167041ms step_avg:170.28ms
step:992/1530 train_loss:3.4393 train_time:167220ms step_avg:170.29ms
step:993/1530 train_loss:3.4961 train_time:167399ms step_avg:170.29ms
step:994/1530 train_loss:3.5950 train_time:167572ms step_avg:170.30ms
step:995/1530 train_loss:3.5250 train_time:167746ms step_avg:170.30ms
step:996/1530 train_loss:3.4502 train_time:167920ms step_avg:170.30ms
step:997/1530 train_loss:3.7515 train_time:168094ms step_avg:170.31ms
step:998/1530 train_loss:3.4362 train_time:168267ms step_avg:170.31ms
step:999/1530 train_loss:3.5811 train_time:168440ms step_avg:170.31ms
step:1000/1530 train_loss:3.4325 train_time:168617ms step_avg:170.32ms
step:1000/1530 val_loss:3.4606 train_time:168668ms step_avg:170.37ms
step:1001/1530 train_loss:3.4906 train_time:168792ms step_avg:170.32ms
step:1002/1530 train_loss:3.3710 train_time:168965ms step_avg:170.33ms
step:1003/1530 train_loss:3.5512 train_time:169144ms step_avg:170.34ms
step:1004/1530 train_loss:3.5948 train_time:169320ms step_avg:170.34ms
step:1005/1530 train_loss:3.3855 train_time:169494ms step_avg:170.35ms
step:1006/1530 train_loss:3.4595 train_time:169670ms step_avg:170.35ms
step:1007/1530 train_loss:3.4341 train_time:169845ms step_avg:170.36ms
step:1008/1530 train_loss:3.5551 train_time:170022ms step_avg:170.36ms
step:1009/1530 train_loss:3.6537 train_time:170200ms step_avg:170.37ms
step:1010/1530 train_loss:3.5578 train_time:170372ms step_avg:170.37ms
step:1011/1530 train_loss:3.5272 train_time:170546ms step_avg:170.38ms
step:1012/1530 train_loss:3.3858 train_time:170720ms step_avg:170.38ms
step:1013/1530 train_loss:3.5294 train_time:170894ms step_avg:170.38ms
step:1014/1530 train_loss:3.6133 train_time:171071ms step_avg:170.39ms
step:1015/1530 train_loss:3.3246 train_time:171249ms step_avg:170.40ms
step:1016/1530 train_loss:3.4037 train_time:171424ms step_avg:170.40ms
step:1017/1530 train_loss:3.3918 train_time:171599ms step_avg:170.41ms
step:1018/1530 train_loss:3.3951 train_time:171773ms step_avg:170.41ms
step:1019/1530 train_loss:3.5127 train_time:171947ms step_avg:170.41ms
step:1020/1530 train_loss:3.3698 train_time:172125ms step_avg:170.42ms
step:1021/1530 train_loss:3.3464 train_time:172299ms step_avg:170.42ms
step:1022/1530 train_loss:3.4746 train_time:172475ms step_avg:170.43ms
step:1023/1530 train_loss:3.5016 train_time:172650ms step_avg:170.43ms
step:1024/1530 train_loss:3.4743 train_time:172828ms step_avg:170.44ms
step:1025/1530 train_loss:3.4750 train_time:173006ms step_avg:170.45ms
step:1026/1530 train_loss:3.6097 train_time:173182ms step_avg:170.45ms
step:1027/1530 train_loss:3.3168 train_time:173357ms step_avg:170.46ms
step:1028/1530 train_loss:3.3954 train_time:173536ms step_avg:170.47ms
step:1029/1530 train_loss:3.3076 train_time:173717ms step_avg:170.48ms
step:1030/1530 train_loss:3.5351 train_time:173893ms step_avg:170.48ms
step:1031/1530 train_loss:3.5049 train_time:174069ms step_avg:170.49ms
step:1032/1530 train_loss:3.6926 train_time:174251ms step_avg:170.50ms
step:1033/1530 train_loss:3.4829 train_time:174427ms step_avg:170.51ms
step:1034/1530 train_loss:3.3895 train_time:174604ms step_avg:170.51ms
step:1035/1530 train_loss:3.4334 train_time:174783ms step_avg:170.52ms
step:1036/1530 train_loss:3.4757 train_time:174959ms step_avg:170.53ms
step:1037/1530 train_loss:3.7839 train_time:175138ms step_avg:170.53ms
step:1038/1530 train_loss:3.6151 train_time:175317ms step_avg:170.54ms
step:1039/1530 train_loss:3.5060 train_time:175496ms step_avg:170.55ms
step:1040/1530 train_loss:3.4054 train_time:175672ms step_avg:170.56ms
step:1041/1530 train_loss:3.4824 train_time:175850ms step_avg:170.56ms
step:1042/1530 train_loss:3.5177 train_time:176024ms step_avg:170.57ms
step:1043/1530 train_loss:3.4424 train_time:176200ms step_avg:170.57ms
step:1044/1530 train_loss:3.4506 train_time:176375ms step_avg:170.58ms
step:1045/1530 train_loss:3.5087 train_time:176553ms step_avg:170.58ms
step:1046/1530 train_loss:3.4231 train_time:176728ms step_avg:170.59ms
step:1047/1530 train_loss:3.6263 train_time:176905ms step_avg:170.59ms
step:1048/1530 train_loss:3.4892 train_time:177083ms step_avg:170.60ms
step:1049/1530 train_loss:3.3959 train_time:177258ms step_avg:170.60ms
step:1050/1530 train_loss:3.3926 train_time:177437ms step_avg:170.61ms
step:1051/1530 train_loss:3.4882 train_time:177614ms step_avg:170.62ms
step:1052/1530 train_loss:3.3594 train_time:177791ms step_avg:170.62ms
step:1053/1530 train_loss:3.6846 train_time:177969ms step_avg:170.63ms
step:1054/1530 train_loss:3.5356 train_time:178149ms step_avg:170.64ms
step:1055/1530 train_loss:3.3796 train_time:178325ms step_avg:170.65ms
step:1056/1530 train_loss:3.4880 train_time:178500ms step_avg:170.65ms
step:1057/1530 train_loss:3.5725 train_time:178676ms step_avg:170.66ms
step:1058/1530 train_loss:3.2996 train_time:178854ms step_avg:170.66ms
step:1059/1530 train_loss:3.3626 train_time:179035ms step_avg:170.67ms
step:1060/1530 train_loss:3.4286 train_time:179211ms step_avg:170.68ms
step:1061/1530 train_loss:3.4118 train_time:179386ms step_avg:170.68ms
step:1062/1530 train_loss:3.3788 train_time:179563ms step_avg:170.69ms
step:1063/1530 train_loss:3.4516 train_time:179739ms step_avg:170.69ms
step:1064/1530 train_loss:3.3778 train_time:179912ms step_avg:170.69ms
step:1065/1530 train_loss:3.3577 train_time:180089ms step_avg:170.70ms
step:1066/1530 train_loss:3.4086 train_time:180266ms step_avg:170.71ms
step:1067/1530 train_loss:3.2724 train_time:180446ms step_avg:170.71ms
step:1068/1530 train_loss:3.4272 train_time:180623ms step_avg:170.72ms
step:1069/1530 train_loss:3.2902 train_time:180804ms step_avg:170.73ms
step:1070/1530 train_loss:3.5620 train_time:180980ms step_avg:170.74ms
step:1071/1530 train_loss:3.5092 train_time:181158ms step_avg:170.74ms
step:1072/1530 train_loss:3.4312 train_time:181331ms step_avg:170.75ms
step:1073/1530 train_loss:3.5204 train_time:181506ms step_avg:170.75ms
step:1074/1530 train_loss:3.4218 train_time:181684ms step_avg:170.76ms
step:1075/1530 train_loss:3.3946 train_time:181862ms step_avg:170.76ms
step:1076/1530 train_loss:3.7890 train_time:182039ms step_avg:170.77ms
step:1077/1530 train_loss:3.4237 train_time:182212ms step_avg:170.77ms
step:1078/1530 train_loss:3.0863 train_time:182396ms step_avg:170.78ms
step:1079/1530 train_loss:3.5253 train_time:182573ms step_avg:170.79ms
step:1080/1530 train_loss:3.4256 train_time:182750ms step_avg:170.79ms
step:1081/1530 train_loss:3.4916 train_time:182925ms step_avg:170.80ms
step:1082/1530 train_loss:3.5847 train_time:183101ms step_avg:170.80ms
step:1083/1530 train_loss:3.4860 train_time:183276ms step_avg:170.81ms
step:1084/1530 train_loss:3.4615 train_time:183451ms step_avg:170.81ms
step:1085/1530 train_loss:3.4271 train_time:183627ms step_avg:170.82ms
step:1086/1530 train_loss:3.6199 train_time:183804ms step_avg:170.82ms
step:1087/1530 train_loss:3.5013 train_time:183979ms step_avg:170.83ms
step:1088/1530 train_loss:3.3707 train_time:184155ms step_avg:170.83ms
step:1089/1530 train_loss:3.3731 train_time:184333ms step_avg:170.84ms
step:1090/1530 train_loss:3.4790 train_time:184511ms step_avg:170.84ms
step:1091/1530 train_loss:3.2792 train_time:184687ms step_avg:170.85ms
step:1092/1530 train_loss:3.4814 train_time:184864ms step_avg:170.85ms
step:1093/1530 train_loss:3.6006 train_time:185043ms step_avg:170.86ms
step:1094/1530 train_loss:3.4467 train_time:185218ms step_avg:170.87ms
step:1095/1530 train_loss:3.4142 train_time:185391ms step_avg:170.87ms
step:1096/1530 train_loss:3.4155 train_time:185569ms step_avg:170.87ms
step:1097/1530 train_loss:3.4843 train_time:185748ms step_avg:170.88ms
step:1098/1530 train_loss:3.5582 train_time:185927ms step_avg:170.89ms
step:1099/1530 train_loss:3.5211 train_time:186104ms step_avg:170.89ms
step:1100/1530 train_loss:3.4220 train_time:186283ms step_avg:170.90ms
step:1101/1530 train_loss:3.2853 train_time:186459ms step_avg:170.91ms
step:1102/1530 train_loss:3.3019 train_time:186638ms step_avg:170.91ms
step:1103/1530 train_loss:3.4384 train_time:186821ms step_avg:170.92ms
step:1104/1530 train_loss:3.3102 train_time:186997ms step_avg:170.93ms
step:1105/1530 train_loss:4.0547 train_time:187174ms step_avg:170.94ms
step:1106/1530 train_loss:3.2185 train_time:187349ms step_avg:170.94ms
step:1107/1530 train_loss:3.5658 train_time:187525ms step_avg:170.94ms
step:1108/1530 train_loss:3.3411 train_time:187699ms step_avg:170.95ms
step:1109/1530 train_loss:3.4968 train_time:187874ms step_avg:170.95ms
step:1110/1530 train_loss:3.4205 train_time:188048ms step_avg:170.95ms
step:1111/1530 train_loss:3.4774 train_time:188223ms step_avg:170.96ms
step:1112/1530 train_loss:3.5515 train_time:188401ms step_avg:170.96ms
step:1113/1530 train_loss:3.4209 train_time:188584ms step_avg:170.97ms
step:1114/1530 train_loss:3.3606 train_time:188764ms step_avg:170.98ms
step:1115/1530 train_loss:3.2328 train_time:188946ms step_avg:170.99ms
step:1116/1530 train_loss:3.4238 train_time:189120ms step_avg:170.99ms
step:1117/1530 train_loss:3.5866 train_time:189299ms step_avg:171.00ms
step:1118/1530 train_loss:3.6191 train_time:189479ms step_avg:171.01ms
step:1119/1530 train_loss:3.4736 train_time:189653ms step_avg:171.01ms
step:1120/1530 train_loss:3.4847 train_time:189830ms step_avg:171.02ms
step:1121/1530 train_loss:3.3843 train_time:190007ms step_avg:171.02ms
step:1122/1530 train_loss:3.4540 train_time:190182ms step_avg:171.03ms
step:1123/1530 train_loss:3.5765 train_time:190357ms step_avg:171.03ms
step:1124/1530 train_loss:3.3357 train_time:190532ms step_avg:171.03ms
step:1125/1530 train_loss:3.2295 train_time:190709ms step_avg:171.04ms
step:1125/1530 val_loss:3.4034 train_time:190760ms step_avg:171.09ms
step:1126/1530 train_loss:3.4772 train_time:190887ms step_avg:171.05ms
step:1127/1530 train_loss:3.6658 train_time:191064ms step_avg:171.05ms
step:1128/1530 train_loss:3.2290 train_time:191240ms step_avg:171.06ms
step:1129/1530 train_loss:3.5476 train_time:191417ms step_avg:171.06ms
step:1130/1530 train_loss:3.3783 train_time:191596ms step_avg:171.07ms
step:1131/1530 train_loss:3.3994 train_time:191777ms step_avg:171.08ms
step:1132/1530 train_loss:3.3635 train_time:191952ms step_avg:171.08ms
step:1133/1530 train_loss:3.4827 train_time:192265ms step_avg:171.21ms
step:1134/1530 train_loss:3.4450 train_time:192453ms step_avg:171.22ms
step:1135/1530 train_loss:3.5160 train_time:192631ms step_avg:171.23ms
step:1136/1530 train_loss:3.5598 train_time:192809ms step_avg:171.23ms
step:1137/1530 train_loss:3.4542 train_time:192985ms step_avg:171.24ms
step:1138/1530 train_loss:3.3489 train_time:193163ms step_avg:171.24ms
step:1139/1530 train_loss:3.6485 train_time:193498ms step_avg:171.39ms
step:1140/1530 train_loss:3.4519 train_time:193674ms step_avg:171.39ms
step:1141/1530 train_loss:3.5878 train_time:193856ms step_avg:171.40ms
step:1142/1530 train_loss:3.4374 train_time:194033ms step_avg:171.41ms
step:1143/1530 train_loss:3.3580 train_time:194211ms step_avg:171.41ms
step:1144/1530 train_loss:3.4405 train_time:194386ms step_avg:171.42ms
step:1145/1530 train_loss:3.5809 train_time:194560ms step_avg:171.42ms
step:1146/1530 train_loss:3.5569 train_time:194740ms step_avg:171.43ms
step:1147/1530 train_loss:3.4857 train_time:194919ms step_avg:171.43ms
step:1148/1530 train_loss:3.4913 train_time:195097ms step_avg:171.44ms
step:1149/1530 train_loss:3.3195 train_time:195276ms step_avg:171.44ms
step:1150/1530 train_loss:3.3664 train_time:195452ms step_avg:171.45ms
step:1151/1530 train_loss:3.3147 train_time:195632ms step_avg:171.46ms
step:1152/1530 train_loss:3.3953 train_time:195814ms step_avg:171.47ms
step:1153/1530 train_loss:3.4243 train_time:195993ms step_avg:171.47ms
step:1154/1530 train_loss:3.5109 train_time:196170ms step_avg:171.48ms
step:1155/1530 train_loss:3.3140 train_time:196354ms step_avg:171.49ms
step:1156/1530 train_loss:3.5294 train_time:196535ms step_avg:171.50ms
step:1157/1530 train_loss:3.4903 train_time:196713ms step_avg:171.50ms
step:1158/1530 train_loss:3.2465 train_time:196889ms step_avg:171.51ms
step:1159/1530 train_loss:3.3455 train_time:197065ms step_avg:171.51ms
step:1160/1530 train_loss:3.3367 train_time:197239ms step_avg:171.51ms
step:1161/1530 train_loss:3.0763 train_time:197418ms step_avg:171.52ms
step:1162/1530 train_loss:3.4202 train_time:197595ms step_avg:171.52ms
step:1163/1530 train_loss:3.3872 train_time:197773ms step_avg:171.53ms
step:1164/1530 train_loss:3.2877 train_time:197951ms step_avg:171.53ms
step:1165/1530 train_loss:3.2454 train_time:198126ms step_avg:171.54ms
step:1166/1530 train_loss:3.3836 train_time:198307ms step_avg:171.55ms
step:1167/1530 train_loss:3.4060 train_time:198482ms step_avg:171.55ms
step:1168/1530 train_loss:3.7170 train_time:198657ms step_avg:171.55ms
step:1169/1530 train_loss:3.3738 train_time:198834ms step_avg:171.56ms
step:1170/1530 train_loss:3.3839 train_time:199011ms step_avg:171.56ms
step:1171/1530 train_loss:3.2973 train_time:199187ms step_avg:171.57ms
step:1172/1530 train_loss:3.4183 train_time:199361ms step_avg:171.57ms
step:1173/1530 train_loss:3.5354 train_time:199540ms step_avg:171.57ms
step:1174/1530 train_loss:3.3793 train_time:199724ms step_avg:171.58ms
step:1175/1530 train_loss:3.3569 train_time:199902ms step_avg:171.59ms
step:1176/1530 train_loss:3.4234 train_time:200084ms step_avg:171.60ms
step:1177/1530 train_loss:3.4413 train_time:200267ms step_avg:171.61ms
step:1178/1530 train_loss:3.4918 train_time:200444ms step_avg:171.61ms
step:1179/1530 train_loss:3.3910 train_time:200620ms step_avg:171.62ms
step:1180/1530 train_loss:3.3489 train_time:200805ms step_avg:171.63ms
step:1181/1530 train_loss:3.3329 train_time:200983ms step_avg:171.63ms
step:1182/1530 train_loss:3.3804 train_time:201159ms step_avg:171.64ms
step:1183/1530 train_loss:3.3311 train_time:201336ms step_avg:171.64ms
step:1184/1530 train_loss:3.5063 train_time:201513ms step_avg:171.65ms
step:1185/1530 train_loss:3.5371 train_time:201694ms step_avg:171.65ms
step:1186/1530 train_loss:3.3632 train_time:201875ms step_avg:171.66ms
step:1187/1530 train_loss:3.4113 train_time:202060ms step_avg:171.67ms
step:1188/1530 train_loss:3.4374 train_time:202236ms step_avg:171.68ms
step:1189/1530 train_loss:3.2710 train_time:202415ms step_avg:171.68ms
step:1190/1530 train_loss:3.4383 train_time:202592ms step_avg:171.69ms
step:1191/1530 train_loss:3.5783 train_time:202772ms step_avg:171.70ms
step:1192/1530 train_loss:3.3867 train_time:202948ms step_avg:171.70ms
step:1193/1530 train_loss:3.2716 train_time:203122ms step_avg:171.70ms
step:1194/1530 train_loss:3.5523 train_time:203298ms step_avg:171.70ms
step:1195/1530 train_loss:3.3668 train_time:203479ms step_avg:171.71ms
step:1196/1530 train_loss:3.3812 train_time:203666ms step_avg:171.72ms
step:1197/1530 train_loss:3.2878 train_time:203844ms step_avg:171.73ms
step:1198/1530 train_loss:3.2989 train_time:204032ms step_avg:171.74ms
step:1199/1530 train_loss:3.3420 train_time:204212ms step_avg:171.75ms
step:1200/1530 train_loss:3.4435 train_time:204389ms step_avg:171.76ms
step:1201/1530 train_loss:3.4733 train_time:204567ms step_avg:171.76ms
step:1202/1530 train_loss:3.6082 train_time:204757ms step_avg:171.78ms
step:1203/1530 train_loss:3.4049 train_time:204936ms step_avg:171.78ms
step:1204/1530 train_loss:3.3053 train_time:205115ms step_avg:171.79ms
step:1205/1530 train_loss:3.4348 train_time:205292ms step_avg:171.79ms
step:1206/1530 train_loss:3.4699 train_time:205471ms step_avg:171.80ms
step:1207/1530 train_loss:3.5123 train_time:205651ms step_avg:171.81ms
step:1208/1530 train_loss:3.3923 train_time:205827ms step_avg:171.81ms
step:1209/1530 train_loss:3.2389 train_time:206006ms step_avg:171.81ms
step:1210/1530 train_loss:3.2983 train_time:206186ms step_avg:171.82ms
step:1211/1530 train_loss:3.3920 train_time:206363ms step_avg:171.83ms
step:1212/1530 train_loss:3.3917 train_time:206541ms step_avg:171.83ms
step:1213/1530 train_loss:3.4060 train_time:206720ms step_avg:171.84ms
step:1214/1530 train_loss:3.2426 train_time:206900ms step_avg:171.84ms
step:1215/1530 train_loss:3.3881 train_time:207076ms step_avg:171.85ms
step:1216/1530 train_loss:3.3191 train_time:207255ms step_avg:171.85ms
step:1217/1530 train_loss:3.3123 train_time:207432ms step_avg:171.86ms
step:1218/1530 train_loss:3.4019 train_time:207610ms step_avg:171.86ms
step:1219/1530 train_loss:3.2529 train_time:207792ms step_avg:171.87ms
step:1220/1530 train_loss:3.4694 train_time:207968ms step_avg:171.87ms
step:1221/1530 train_loss:3.5011 train_time:208144ms step_avg:171.88ms
step:1222/1530 train_loss:3.4291 train_time:208318ms step_avg:171.88ms
step:1223/1530 train_loss:3.2921 train_time:208496ms step_avg:171.88ms
step:1224/1530 train_loss:3.2468 train_time:208677ms step_avg:171.89ms
step:1225/1530 train_loss:3.3621 train_time:208855ms step_avg:171.90ms
step:1226/1530 train_loss:3.3290 train_time:209035ms step_avg:171.90ms
step:1227/1530 train_loss:3.2644 train_time:209214ms step_avg:171.91ms
step:1228/1530 train_loss:3.4409 train_time:209390ms step_avg:171.91ms
step:1229/1530 train_loss:3.3608 train_time:209570ms step_avg:171.92ms
step:1230/1530 train_loss:3.3938 train_time:209754ms step_avg:171.93ms
step:1231/1530 train_loss:3.5721 train_time:209935ms step_avg:171.94ms
step:1232/1530 train_loss:3.4914 train_time:210115ms step_avg:171.94ms
step:1233/1530 train_loss:3.4280 train_time:210292ms step_avg:171.95ms
step:1234/1530 train_loss:3.5796 train_time:210471ms step_avg:171.95ms
step:1235/1530 train_loss:3.3140 train_time:210652ms step_avg:171.96ms
step:1236/1530 train_loss:3.2876 train_time:210829ms step_avg:171.96ms
step:1237/1530 train_loss:3.2741 train_time:211007ms step_avg:171.97ms
step:1238/1530 train_loss:3.2718 train_time:211190ms step_avg:171.98ms
step:1239/1530 train_loss:3.3279 train_time:211369ms step_avg:171.98ms
step:1240/1530 train_loss:3.3801 train_time:211548ms step_avg:171.99ms
step:1241/1530 train_loss:3.4205 train_time:211727ms step_avg:172.00ms
step:1242/1530 train_loss:3.2937 train_time:211904ms step_avg:172.00ms
step:1243/1530 train_loss:3.4019 train_time:212084ms step_avg:172.01ms
step:1244/1530 train_loss:3.3989 train_time:212257ms step_avg:172.01ms
step:1245/1530 train_loss:3.4048 train_time:212435ms step_avg:172.01ms
step:1246/1530 train_loss:3.2402 train_time:212613ms step_avg:172.02ms
step:1247/1530 train_loss:3.3716 train_time:212790ms step_avg:172.02ms
step:1248/1530 train_loss:3.4242 train_time:212967ms step_avg:172.03ms
step:1249/1530 train_loss:3.4201 train_time:213147ms step_avg:172.03ms
step:1250/1530 train_loss:3.3021 train_time:213326ms step_avg:172.04ms
step:1250/1530 val_loss:3.3504 train_time:213380ms step_avg:172.08ms
step:1251/1530 train_loss:3.4879 train_time:213512ms step_avg:172.05ms
step:1252/1530 train_loss:3.3604 train_time:213687ms step_avg:172.05ms
step:1253/1530 train_loss:3.3042 train_time:213863ms step_avg:172.05ms
step:1254/1530 train_loss:3.4118 train_time:214045ms step_avg:172.06ms
step:1255/1530 train_loss:3.5162 train_time:214234ms step_avg:172.08ms
step:1256/1530 train_loss:3.3004 train_time:214417ms step_avg:172.08ms
step:1257/1530 train_loss:3.3712 train_time:214594ms step_avg:172.09ms
step:1258/1530 train_loss:3.3585 train_time:214779ms step_avg:172.10ms
step:1259/1530 train_loss:3.3250 train_time:214958ms step_avg:172.10ms
step:1260/1530 train_loss:3.2031 train_time:215136ms step_avg:172.11ms
step:1261/1530 train_loss:3.2956 train_time:215316ms step_avg:172.12ms
step:1262/1530 train_loss:3.3236 train_time:215499ms step_avg:172.12ms
step:1263/1530 train_loss:3.2369 train_time:215681ms step_avg:172.13ms
step:1264/1530 train_loss:3.4364 train_time:215859ms step_avg:172.14ms
step:1265/1530 train_loss:3.4231 train_time:216035ms step_avg:172.14ms
step:1266/1530 train_loss:3.4379 train_time:216213ms step_avg:172.14ms
step:1267/1530 train_loss:3.3645 train_time:216391ms step_avg:172.15ms
step:1268/1530 train_loss:3.4011 train_time:216569ms step_avg:172.15ms
step:1269/1530 train_loss:3.2494 train_time:216753ms step_avg:172.16ms
step:1270/1530 train_loss:3.1010 train_time:216930ms step_avg:172.17ms
step:1271/1530 train_loss:3.3994 train_time:217108ms step_avg:172.17ms
step:1272/1530 train_loss:3.3518 train_time:217284ms step_avg:172.17ms
step:1273/1530 train_loss:3.3728 train_time:217466ms step_avg:172.18ms
step:1274/1530 train_loss:3.3581 train_time:217648ms step_avg:172.19ms
step:1275/1530 train_loss:3.4295 train_time:217824ms step_avg:172.19ms
step:1276/1530 train_loss:3.4669 train_time:217999ms step_avg:172.19ms
step:1277/1530 train_loss:3.4063 train_time:218178ms step_avg:172.20ms
step:1278/1530 train_loss:3.4083 train_time:218355ms step_avg:172.20ms
step:1279/1530 train_loss:3.2633 train_time:218539ms step_avg:172.21ms
step:1280/1530 train_loss:3.3582 train_time:218723ms step_avg:172.22ms
step:1281/1530 train_loss:3.4190 train_time:218901ms step_avg:172.23ms
step:1282/1530 train_loss:3.4659 train_time:219077ms step_avg:172.23ms
step:1283/1530 train_loss:3.3278 train_time:219257ms step_avg:172.24ms
step:1284/1530 train_loss:3.3654 train_time:219436ms step_avg:172.24ms
step:1285/1530 train_loss:3.3566 train_time:219617ms step_avg:172.25ms
step:1286/1530 train_loss:3.3349 train_time:219793ms step_avg:172.25ms
step:1287/1530 train_loss:3.4850 train_time:219973ms step_avg:172.26ms
step:1288/1530 train_loss:3.2906 train_time:220153ms step_avg:172.26ms
step:1289/1530 train_loss:3.3706 train_time:220343ms step_avg:172.28ms
step:1290/1530 train_loss:3.4580 train_time:220528ms step_avg:172.29ms
step:1291/1530 train_loss:3.3844 train_time:220708ms step_avg:172.29ms
step:1292/1530 train_loss:3.4729 train_time:220889ms step_avg:172.30ms
step:1293/1530 train_loss:3.5101 train_time:221069ms step_avg:172.31ms
step:1294/1530 train_loss:3.4588 train_time:221248ms step_avg:172.31ms
step:1295/1530 train_loss:3.2783 train_time:221427ms step_avg:172.32ms
step:1296/1530 train_loss:3.3720 train_time:221607ms step_avg:172.32ms
step:1297/1530 train_loss:3.2716 train_time:221787ms step_avg:172.33ms
step:1298/1530 train_loss:3.2704 train_time:221967ms step_avg:172.33ms
step:1299/1530 train_loss:3.3948 train_time:222145ms step_avg:172.34ms
step:1300/1530 train_loss:3.3996 train_time:222322ms step_avg:172.34ms
step:1301/1530 train_loss:3.3961 train_time:222499ms step_avg:172.35ms
step:1302/1530 train_loss:3.5682 train_time:222682ms step_avg:172.35ms
step:1303/1530 train_loss:3.3039 train_time:222864ms step_avg:172.36ms
step:1304/1530 train_loss:3.5074 train_time:223045ms step_avg:172.37ms
step:1305/1530 train_loss:3.2512 train_time:223222ms step_avg:172.37ms
step:1306/1530 train_loss:3.4478 train_time:223404ms step_avg:172.38ms
step:1307/1530 train_loss:3.4515 train_time:223578ms step_avg:172.38ms
step:1308/1530 train_loss:3.2837 train_time:223756ms step_avg:172.39ms
step:1309/1530 train_loss:3.3041 train_time:223937ms step_avg:172.39ms
step:1310/1530 train_loss:3.2830 train_time:224114ms step_avg:172.40ms
step:1311/1530 train_loss:3.2927 train_time:224291ms step_avg:172.40ms
step:1312/1530 train_loss:3.3704 train_time:224470ms step_avg:172.40ms
step:1313/1530 train_loss:3.3397 train_time:224646ms step_avg:172.41ms
step:1314/1530 train_loss:3.0397 train_time:224830ms step_avg:172.42ms
step:1315/1530 train_loss:3.2675 train_time:225008ms step_avg:172.42ms
step:1316/1530 train_loss:3.3919 train_time:225182ms step_avg:172.42ms
step:1317/1530 train_loss:3.4175 train_time:225362ms step_avg:172.43ms
step:1318/1530 train_loss:3.2996 train_time:225548ms step_avg:172.44ms
step:1319/1530 train_loss:3.4233 train_time:225729ms step_avg:172.44ms
step:1320/1530 train_loss:3.4568 train_time:225910ms step_avg:172.45ms
step:1321/1530 train_loss:3.3622 train_time:226088ms step_avg:172.45ms
step:1322/1530 train_loss:3.3209 train_time:226403ms step_avg:172.56ms
step:1323/1530 train_loss:3.3185 train_time:226591ms step_avg:172.58ms
step:1324/1530 train_loss:3.4326 train_time:226771ms step_avg:172.58ms
step:1325/1530 train_loss:3.4904 train_time:226954ms step_avg:172.59ms
step:1326/1530 train_loss:3.2094 train_time:227134ms step_avg:172.59ms
step:1327/1530 train_loss:3.1669 train_time:227310ms step_avg:172.60ms
step:1328/1530 train_loss:3.4906 train_time:227488ms step_avg:172.60ms
step:1329/1530 train_loss:3.2900 train_time:227840ms step_avg:172.74ms
step:1330/1530 train_loss:3.4270 train_time:228023ms step_avg:172.74ms
step:1331/1530 train_loss:3.3252 train_time:228199ms step_avg:172.75ms
step:1332/1530 train_loss:3.7396 train_time:228382ms step_avg:172.75ms
step:1333/1530 train_loss:3.4748 train_time:228562ms step_avg:172.76ms
step:1334/1530 train_loss:3.3666 train_time:228742ms step_avg:172.77ms
step:1335/1530 train_loss:3.2880 train_time:228920ms step_avg:172.77ms
step:1336/1530 train_loss:3.2955 train_time:229104ms step_avg:172.78ms
step:1337/1530 train_loss:3.5449 train_time:229283ms step_avg:172.78ms
step:1338/1530 train_loss:3.5187 train_time:229462ms step_avg:172.79ms
step:1339/1530 train_loss:3.3357 train_time:229641ms step_avg:172.79ms
step:1340/1530 train_loss:3.2808 train_time:229820ms step_avg:172.80ms
step:1341/1530 train_loss:3.5891 train_time:229998ms step_avg:172.80ms
step:1342/1530 train_loss:3.3551 train_time:230178ms step_avg:172.81ms
step:1343/1530 train_loss:3.3605 train_time:230354ms step_avg:172.81ms
step:1344/1530 train_loss:3.4112 train_time:230533ms step_avg:172.81ms
step:1345/1530 train_loss:3.3767 train_time:230714ms step_avg:172.82ms
step:1346/1530 train_loss:3.2983 train_time:230891ms step_avg:172.82ms
step:1347/1530 train_loss:3.2768 train_time:231067ms step_avg:172.82ms
step:1348/1530 train_loss:3.3447 train_time:231245ms step_avg:172.83ms
step:1349/1530 train_loss:3.2722 train_time:231423ms step_avg:172.83ms
step:1350/1530 train_loss:3.3859 train_time:231605ms step_avg:172.84ms
step:1351/1530 train_loss:3.2389 train_time:231781ms step_avg:172.84ms
step:1352/1530 train_loss:3.3034 train_time:231960ms step_avg:172.85ms
step:1353/1530 train_loss:3.3987 train_time:232139ms step_avg:172.85ms
step:1354/1530 train_loss:3.2554 train_time:232316ms step_avg:172.85ms
step:1355/1530 train_loss:3.1886 train_time:232492ms step_avg:172.86ms
step:1356/1530 train_loss:3.5027 train_time:232671ms step_avg:172.86ms
step:1357/1530 train_loss:3.4206 train_time:232851ms step_avg:172.87ms
step:1358/1530 train_loss:3.1828 train_time:233028ms step_avg:172.87ms
step:1359/1530 train_loss:3.4363 train_time:233207ms step_avg:172.87ms
step:1360/1530 train_loss:3.3465 train_time:233387ms step_avg:172.88ms
step:1361/1530 train_loss:3.1227 train_time:233572ms step_avg:172.89ms
step:1362/1530 train_loss:3.3929 train_time:233753ms step_avg:172.89ms
step:1363/1530 train_loss:3.2818 train_time:233939ms step_avg:172.90ms
step:1364/1530 train_loss:3.2968 train_time:234119ms step_avg:172.91ms
step:1365/1530 train_loss:3.3042 train_time:234297ms step_avg:172.91ms
step:1366/1530 train_loss:3.4170 train_time:234479ms step_avg:172.92ms
step:1367/1530 train_loss:3.3939 train_time:234658ms step_avg:172.92ms
step:1368/1530 train_loss:3.3422 train_time:234841ms step_avg:172.93ms
step:1369/1530 train_loss:3.2777 train_time:235028ms step_avg:172.94ms
step:1370/1530 train_loss:3.6051 train_time:235208ms step_avg:172.95ms
step:1371/1530 train_loss:3.3101 train_time:235387ms step_avg:172.95ms
step:1372/1530 train_loss:3.3653 train_time:235569ms step_avg:172.96ms
step:1373/1530 train_loss:3.3649 train_time:235748ms step_avg:172.96ms
step:1374/1530 train_loss:3.1491 train_time:235929ms step_avg:172.97ms
step:1375/1530 train_loss:3.5316 train_time:236108ms step_avg:172.97ms
step:1375/1530 val_loss:3.3082 train_time:236159ms step_avg:173.01ms
step:1376/1530 train_loss:3.3463 train_time:236288ms step_avg:172.98ms
step:1377/1530 train_loss:3.4774 train_time:236468ms step_avg:172.98ms
step:1378/1530 train_loss:3.4651 train_time:236645ms step_avg:172.99ms
step:1379/1530 train_loss:3.1143 train_time:236830ms step_avg:172.99ms
step:1380/1530 train_loss:3.3134 train_time:237010ms step_avg:173.00ms
step:1381/1530 train_loss:3.6841 train_time:237194ms step_avg:173.01ms
step:1382/1530 train_loss:3.2083 train_time:237372ms step_avg:173.01ms
step:1383/1530 train_loss:3.3912 train_time:237553ms step_avg:173.02ms
step:1384/1530 train_loss:3.4742 train_time:237736ms step_avg:173.02ms
step:1385/1530 train_loss:3.4025 train_time:237911ms step_avg:173.03ms
step:1386/1530 train_loss:3.3364 train_time:238089ms step_avg:173.03ms
step:1387/1530 train_loss:3.2009 train_time:238268ms step_avg:173.03ms
step:1388/1530 train_loss:3.3477 train_time:238447ms step_avg:173.04ms
step:1389/1530 train_loss:3.3151 train_time:238630ms step_avg:173.05ms
step:1390/1530 train_loss:3.5633 train_time:238807ms step_avg:173.05ms
step:1391/1530 train_loss:3.2905 train_time:238985ms step_avg:173.05ms
step:1392/1530 train_loss:3.2850 train_time:239165ms step_avg:173.06ms
step:1393/1530 train_loss:3.2321 train_time:239345ms step_avg:173.06ms
step:1394/1530 train_loss:3.4934 train_time:239524ms step_avg:173.07ms
step:1395/1530 train_loss:3.3874 train_time:239702ms step_avg:173.07ms
step:1396/1530 train_loss:3.3999 train_time:239879ms step_avg:173.07ms
step:1397/1530 train_loss:3.3038 train_time:240054ms step_avg:173.07ms
step:1398/1530 train_loss:3.2506 train_time:240230ms step_avg:173.08ms
step:1399/1530 train_loss:3.3149 train_time:240411ms step_avg:173.08ms
step:1400/1530 train_loss:3.3154 train_time:240592ms step_avg:173.09ms
step:1401/1530 train_loss:3.3478 train_time:240768ms step_avg:173.09ms
step:1402/1530 train_loss:3.2958 train_time:240949ms step_avg:173.10ms
step:1403/1530 train_loss:3.4888 train_time:241134ms step_avg:173.10ms
step:1404/1530 train_loss:3.2738 train_time:241311ms step_avg:173.11ms
step:1405/1530 train_loss:3.3147 train_time:241492ms step_avg:173.11ms
step:1406/1530 train_loss:3.3123 train_time:241670ms step_avg:173.12ms
step:1407/1530 train_loss:3.1700 train_time:241847ms step_avg:173.12ms
step:1408/1530 train_loss:3.3110 train_time:242028ms step_avg:173.12ms
step:1409/1530 train_loss:3.3007 train_time:242214ms step_avg:173.13ms
step:1410/1530 train_loss:3.2852 train_time:242391ms step_avg:173.14ms
step:1411/1530 train_loss:3.3611 train_time:242567ms step_avg:173.14ms
step:1412/1530 train_loss:3.3320 train_time:242745ms step_avg:173.14ms
step:1413/1530 train_loss:3.3565 train_time:242925ms step_avg:173.15ms
step:1414/1530 train_loss:3.3239 train_time:243106ms step_avg:173.15ms
step:1415/1530 train_loss:3.4046 train_time:243290ms step_avg:173.16ms
step:1416/1530 train_loss:3.2274 train_time:243478ms step_avg:173.17ms
step:1417/1530 train_loss:3.2744 train_time:243660ms step_avg:173.18ms
step:1418/1530 train_loss:3.3876 train_time:243839ms step_avg:173.18ms
step:1419/1530 train_loss:3.3360 train_time:244022ms step_avg:173.19ms
step:1420/1530 train_loss:3.3674 train_time:244204ms step_avg:173.19ms
step:1421/1530 train_loss:3.3699 train_time:244386ms step_avg:173.20ms
step:1422/1530 train_loss:3.3322 train_time:244564ms step_avg:173.20ms
step:1423/1530 train_loss:3.3146 train_time:244744ms step_avg:173.21ms
step:1424/1530 train_loss:3.3287 train_time:244930ms step_avg:173.22ms
step:1425/1530 train_loss:3.1908 train_time:245117ms step_avg:173.23ms
step:1426/1530 train_loss:3.3223 train_time:245294ms step_avg:173.23ms
step:1427/1530 train_loss:3.2828 train_time:245476ms step_avg:173.24ms
step:1428/1530 train_loss:3.3739 train_time:245654ms step_avg:173.24ms
step:1429/1530 train_loss:3.3505 train_time:245831ms step_avg:173.24ms
step:1430/1530 train_loss:3.2620 train_time:246012ms step_avg:173.25ms
step:1431/1530 train_loss:3.3214 train_time:246194ms step_avg:173.25ms
step:1432/1530 train_loss:3.3341 train_time:246375ms step_avg:173.26ms
step:1433/1530 train_loss:3.1324 train_time:246558ms step_avg:173.27ms
step:1434/1530 train_loss:3.2869 train_time:246743ms step_avg:173.27ms
step:1435/1530 train_loss:3.1196 train_time:246925ms step_avg:173.28ms
step:1436/1530 train_loss:3.2293 train_time:247106ms step_avg:173.29ms
step:1437/1530 train_loss:3.4033 train_time:247284ms step_avg:173.29ms
step:1438/1530 train_loss:3.3780 train_time:247460ms step_avg:173.29ms
step:1439/1530 train_loss:3.3118 train_time:247638ms step_avg:173.29ms
step:1440/1530 train_loss:3.1893 train_time:247813ms step_avg:173.30ms
step:1441/1530 train_loss:3.3346 train_time:247992ms step_avg:173.30ms
step:1442/1530 train_loss:3.3805 train_time:248174ms step_avg:173.31ms
step:1443/1530 train_loss:3.4901 train_time:248363ms step_avg:173.32ms
step:1444/1530 train_loss:3.4424 train_time:248540ms step_avg:173.32ms
step:1445/1530 train_loss:3.3310 train_time:248717ms step_avg:173.32ms
step:1446/1530 train_loss:3.1937 train_time:248898ms step_avg:173.33ms
step:1447/1530 train_loss:3.2958 train_time:249081ms step_avg:173.33ms
step:1448/1530 train_loss:3.2917 train_time:249259ms step_avg:173.34ms
step:1449/1530 train_loss:3.3979 train_time:249438ms step_avg:173.34ms
step:1450/1530 train_loss:3.3852 train_time:249620ms step_avg:173.35ms
step:1451/1530 train_loss:3.2011 train_time:249796ms step_avg:173.35ms
step:1452/1530 train_loss:3.3215 train_time:249976ms step_avg:173.35ms
step:1453/1530 train_loss:3.2581 train_time:250150ms step_avg:173.35ms
step:1454/1530 train_loss:3.2883 train_time:250328ms step_avg:173.36ms
step:1455/1530 train_loss:3.3229 train_time:250510ms step_avg:173.36ms
step:1456/1530 train_loss:3.2816 train_time:250687ms step_avg:173.37ms
step:1457/1530 train_loss:3.1538 train_time:250866ms step_avg:173.37ms
step:1458/1530 train_loss:3.4188 train_time:251044ms step_avg:173.37ms
step:1459/1530 train_loss:3.2634 train_time:251228ms step_avg:173.38ms
step:1460/1530 train_loss:3.3142 train_time:251407ms step_avg:173.38ms
step:1461/1530 train_loss:3.4292 train_time:251587ms step_avg:173.39ms
step:1462/1530 train_loss:3.2608 train_time:251765ms step_avg:173.39ms
step:1463/1530 train_loss:3.4676 train_time:251949ms step_avg:173.40ms
step:1464/1530 train_loss:3.3575 train_time:252128ms step_avg:173.40ms
step:1465/1530 train_loss:3.3536 train_time:252309ms step_avg:173.41ms
step:1466/1530 train_loss:3.2866 train_time:252487ms step_avg:173.41ms
step:1467/1530 train_loss:3.3924 train_time:252667ms step_avg:173.42ms
step:1468/1530 train_loss:3.2851 train_time:252845ms step_avg:173.42ms
step:1469/1530 train_loss:3.2674 train_time:253025ms step_avg:173.42ms
step:1470/1530 train_loss:3.3243 train_time:253209ms step_avg:173.43ms
step:1471/1530 train_loss:3.2547 train_time:253392ms step_avg:173.44ms
step:1472/1530 train_loss:3.2484 train_time:253574ms step_avg:173.44ms
step:1473/1530 train_loss:3.4350 train_time:253752ms step_avg:173.45ms
step:1474/1530 train_loss:3.3042 train_time:253936ms step_avg:173.45ms
step:1475/1530 train_loss:3.1497 train_time:254123ms step_avg:173.46ms
step:1476/1530 train_loss:3.2628 train_time:254303ms step_avg:173.47ms
step:1477/1530 train_loss:3.2356 train_time:254489ms step_avg:173.48ms
step:1478/1530 train_loss:3.3052 train_time:254672ms step_avg:173.48ms
step:1479/1530 train_loss:3.3929 train_time:254855ms step_avg:173.49ms
step:1480/1530 train_loss:3.2638 train_time:255032ms step_avg:173.49ms
step:1481/1530 train_loss:3.4504 train_time:255214ms step_avg:173.50ms
step:1482/1530 train_loss:3.3623 train_time:255401ms step_avg:173.51ms
step:1483/1530 train_loss:3.2766 train_time:255591ms step_avg:173.52ms
step:1484/1530 train_loss:3.2633 train_time:255777ms step_avg:173.53ms
step:1485/1530 train_loss:3.2813 train_time:255954ms step_avg:173.53ms
step:1486/1530 train_loss:3.2215 train_time:256139ms step_avg:173.54ms
step:1487/1530 train_loss:3.3367 train_time:256322ms step_avg:173.54ms
step:1488/1530 train_loss:3.2417 train_time:256508ms step_avg:173.55ms
step:1489/1530 train_loss:3.3094 train_time:256688ms step_avg:173.56ms
step:1490/1530 train_loss:3.2504 train_time:256868ms step_avg:173.56ms
step:1491/1530 train_loss:3.1536 train_time:257050ms step_avg:173.56ms
step:1492/1530 train_loss:3.2708 train_time:257230ms step_avg:173.57ms
step:1493/1530 train_loss:3.4309 train_time:257409ms step_avg:173.57ms
step:1494/1530 train_loss:3.2937 train_time:257588ms step_avg:173.58ms
step:1495/1530 train_loss:3.0303 train_time:257771ms step_avg:173.58ms
step:1496/1530 train_loss:3.3604 train_time:257954ms step_avg:173.59ms
step:1497/1530 train_loss:3.3094 train_time:258137ms step_avg:173.60ms
step:1498/1530 train_loss:3.3468 train_time:258322ms step_avg:173.60ms
step:1499/1530 train_loss:3.3118 train_time:258510ms step_avg:173.61ms
step:1500/1530 train_loss:3.2943 train_time:258699ms step_avg:173.62ms
step:1500/1530 val_loss:3.2770 train_time:258754ms step_avg:173.66ms
step:1501/1530 train_loss:3.0854 train_time:258891ms step_avg:173.64ms
step:1502/1530 train_loss:3.3572 train_time:259081ms step_avg:173.65ms
step:1503/1530 train_loss:3.2398 train_time:259259ms step_avg:173.65ms
step:1504/1530 train_loss:3.2445 train_time:259442ms step_avg:173.66ms
step:1505/1530 train_loss:3.2087 train_time:259621ms step_avg:173.66ms
step:1506/1530 train_loss:3.2754 train_time:259805ms step_avg:173.67ms
step:1507/1530 train_loss:3.1745 train_time:260001ms step_avg:173.68ms
step:1508/1530 train_loss:3.4769 train_time:260184ms step_avg:173.69ms
step:1509/1530 train_loss:3.2790 train_time:260362ms step_avg:173.69ms
step:1510/1530 train_loss:3.2695 train_time:260544ms step_avg:173.70ms
step:1511/1530 train_loss:3.4153 train_time:260860ms step_avg:173.79ms
step:1512/1530 train_loss:3.4175 train_time:261049ms step_avg:173.80ms
step:1513/1530 train_loss:3.2678 train_time:261232ms step_avg:173.81ms
step:1514/1530 train_loss:3.0801 train_time:261415ms step_avg:173.81ms
step:1515/1530 train_loss:3.2380 train_time:261596ms step_avg:173.82ms
step:1516/1530 train_loss:3.2563 train_time:261781ms step_avg:173.83ms
step:1517/1530 train_loss:3.2977 train_time:261960ms step_avg:173.83ms
step:1518/1530 train_loss:3.2018 train_time:262145ms step_avg:173.84ms
step:1519/1530 train_loss:3.4988 train_time:262483ms step_avg:173.94ms
step:1520/1530 train_loss:3.1243 train_time:262665ms step_avg:173.95ms
step:1521/1530 train_loss:3.2026 train_time:262843ms step_avg:173.95ms
step:1522/1530 train_loss:3.3540 train_time:263028ms step_avg:173.96ms
step:1523/1530 train_loss:3.2274 train_time:263207ms step_avg:173.96ms
step:1524/1530 train_loss:3.3436 train_time:263388ms step_avg:173.97ms
step:1525/1530 train_loss:3.3363 train_time:263575ms step_avg:173.98ms
step:1526/1530 train_loss:3.2750 train_time:263763ms step_avg:173.99ms
step:1527/1530 train_loss:3.2863 train_time:263942ms step_avg:173.99ms
step:1528/1530 train_loss:3.4055 train_time:264121ms step_avg:173.99ms
step:1529/1530 train_loss:3.4047 train_time:264298ms step_avg:173.99ms
step:1530/1530 train_loss:3.2347 train_time:264475ms step_avg:174.00ms
step:1530/1530 val_loss:3.2745 train_time:264528ms step_avg:174.03ms