Agenta-AI · mmabrouk · Jul 5, 2024 · Jul 3, 2024 · Jul 3, 2024 · Jul 3, 2024
diff --git a/agenta-backend/agenta_backend/services/evaluation_service.py b/agenta-backend/agenta_backend/services/evaluation_service.py
@@ -545,7 +545,7 @@ async def create_new_evaluation(
         user=app.user,
         testset=testset,
         status=Result(
-            value=EvaluationStatusEnum.EVALUATION_STARTED, type="status", error=None
+            value=EvaluationStatusEnum.EVALUATION_INITIALIZED, type="status", error=None
         ),
         variant=variant_id,
         variant_revision=str(variant_revision.id),

diff --git a/agenta-backend/agenta_backend/tasks/evaluations.py b/agenta-backend/agenta_backend/tasks/evaluations.py
@@ -94,8 +94,18 @@ def evaluate(
     loop = asyncio.get_event_loop()
 
     try:
-        # 1. Fetch data from the database
         loop.run_until_complete(DBEngine().init_db())
+
+        # 0. Update evaluation status to STARTED
+        loop.run_until_complete(
+            update_evaluation(
+                evaluation_id,
+                {"status": Result(type="status", value="EVALUATION_STARTED")},
+            )
+        )
+        self.update_state(state=states.STARTED)
+
+        # 1. Fetch data from the database
         app = loop.run_until_complete(fetch_app_by_id(app_id))
         app_variant_db = loop.run_until_complete(fetch_app_variant_by_id(variant_id))
         assert (
@@ -249,12 +259,14 @@ def evaluate(
                 evaluators_results.append(result_object)
 
             all_correct_answers = [
-                CorrectAnswer(
-                    key=ground_truth_column_name,
-                    value=data_point[ground_truth_column_name],
+                (
+                    CorrectAnswer(
+                        key=ground_truth_column_name,
+                        value=data_point[ground_truth_column_name],
+                    )
+                    if ground_truth_column_name in data_point
+                    else CorrectAnswer(key=ground_truth_column_name, value="")
                 )
-                if ground_truth_column_name in data_point
-                else CorrectAnswer(key=ground_truth_column_name, value="")
                 for ground_truth_column_name in ground_truth_column_names
             ]
             # 4. We save the result of the eval scenario in the db
@@ -351,6 +363,8 @@ def evaluate(
         )
     )
 
+    self.update_state(state=states.SUCCESS)
+
 
 async def aggregate_evaluator_results(
     app: AppDB, evaluators_aggregated_data: dict

diff --git a/agenta-backend/agenta_backend/tests/variants_main_router/test_variant_evaluators_router.py b/agenta-backend/agenta_backend/tests/variants_main_router/test_variant_evaluators_router.py
@@ -222,7 +222,7 @@ async def create_evaluation_with_evaluator(evaluator_config_name):
     assert response_data["app_id"] == payload["app_id"]
     assert (
         response_data["status"]["value"]
-        == EvaluationStatusEnum.EVALUATION_STARTED.value
+        == EvaluationStatusEnum.EVALUATION_INITIALIZED.value
     )
     assert response_data is not None