Fast eval option #391

kengz · 2019-07-27T20:14:33Z

Faster evaluation alternative

introduce TrackReward env wrapper as a simpler way to track total reward. This also works naturally with vec env.
retire obsolete custom total_reward tracking logic
refactor body.ckpt logic and env logic
add backward-compatible meta.rigorous_eval: int spec to use rigorous slow eval, or fast eval by inferring total_reward directly from env

slm_lab/agent/algorithm/sarsa.py

slm_lab/agent/algorithm/actor_critic.py

slm_lab/agent/algorithm/dqn.py

slm_lab/agent/algorithm/reinforce.py

slm_lab/agent/algorithm/sil.py

slm_lab/agent/algorithm/ppo.py

kengz added 18 commits July 25, 2019 09:05

remove extra try_scale_rewards from vec_env

67e06ee

refactor env base attr setting

8548f49

fix spec ref in env base frame attr infer

1d91fb1

move total_reward calc to env from body. update from env.step

29df219

move update total_reward from util to env.base

6e2823c

add info arg to _track_total_reward

ad71c8b

update obs wrapper API method

67c91fb

reorder wrappers

799f94e

add a TrackReward env wrapper for all openai envs

1171e7c

update lab env total_reward update for openai and unity

7b77f25

return random breakout spec to breakout

3b54df1

use nan as default value for total_reward for rigor

8f54917

simplify eval ckpt and gen return

809834c

update body.total_reward log to source from env

9d1f84d

refactor body ckpt

f34ba41

reorder env base methods

221c839

default eval_frequency and log_frequency to 10k, simplify code

463a4c0

add backward compatible meta.rigorous_eval spec var

e353fa6

codeclimate bot reviewed Jul 27, 2019

View reviewed changes

kengz added 4 commits July 27, 2019 14:58

missed ppo lam 0.75 for unused pong search spec

e4ead38

add ppo qbert spec

15df4da

expand row size for calc

a932d79

cleaner handle calc_df_row warning

bd2ab5f

codeclimate bot reviewed Jul 27, 2019

View reviewed changes

slm_lab/agent/algorithm/ppo.py Show resolved Hide resolved

kengz added 6 commits July 27, 2019 15:17

mute nanmean warning

31b1011

add qbert specs

41059d6

use fast eval for atari benchmarks

795897d

remove env.raw_reward attr

bc401b3

restore reward_scale from vec to low level

ad564fa

remove unused import

0e93254

kengz merged commit ebfb639 into master Jul 28, 2019

kengz deleted the fast-eval branch July 28, 2019 02:07

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fast eval option #391

Fast eval option #391

kengz commented Jul 27, 2019 •

edited

Loading

Fast eval option #391

Fast eval option #391

Conversation

kengz commented Jul 27, 2019 • edited Loading

Faster evaluation alternative

kengz commented Jul 27, 2019 •

edited

Loading