From 4c834978a6b52b5ca620fa9c61f471a9e19d5792 Mon Sep 17 00:00:00 2001
From: yycho0108 <jchocholate@gmail.com>
Date: Thu, 3 May 2018 05:15:38 -0400
Subject: [PATCH] rendering configuration

---
 main_rnn.py | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/main_rnn.py b/main_rnn.py
index f442b71..691d61e 100755
--- a/main_rnn.py
+++ b/main_rnn.py
@@ -18,6 +18,7 @@
 import sys
 import numpy as np
 import tensorflow as tf
+import time
 
 from memory import TraceMemory
 from drqn import DRQN
@@ -43,7 +44,7 @@
 ## Q-Learning Parameters
 GAMMA = .99 #Discount factor.
 N_EPOCH = np.inf #20000 #Total number of episodes to train network for.
-N_TEST = 1 #Total number of episodes to train network for.
+N_TEST = 200 #Total number of episodes to train network for.
 TAU = 1e-3#1e-3 #(1.0/100) * U_FREQ #Amount to update target network at each step.
 
 # Exploration Parameters
@@ -56,7 +57,7 @@
 N_PRE = int(1e5) #Number of steps, pre-train
 N_MEM = 10000 # ~5000 episodes
 
-GAME_STEPS = 5000
+GAME_STEPS = 999
 
 PARAMS = {
         'N_X' : N_X,
@@ -403,9 +404,6 @@ def test(self, n):
         sig = StopRequest()
         sig.start()
 
-        env.render()
-        x = raw_input('waiting ...')
-
         for i in range(n):
             if sig._stop:
                 break
@@ -429,6 +427,7 @@ def test(self, n):
                             })
                 s,r,d,_ = env.step(a[0])
                 net_reward += r
+                #time.sleep(0.01)
 
             print i, net_reward