Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Prepare dane workflow for VisXP test #25

Open
7 of 8 tasks
Veldhoen opened this issue Aug 28, 2023 · 11 comments
Open
7 of 8 tasks

Prepare dane workflow for VisXP test #25

Veldhoen opened this issue Aug 28, 2023 · 11 comments
Assignees
Labels

Comments

@Veldhoen
Copy link
Member

Veldhoen commented Aug 28, 2023

Taken

  • overhevelen code van -asr naar -visxp
  • draaien met volledige example config
  • config toevoegen
  • juiste query toevoegen
  • juiste dane environment
  • monitoring instellen
  • add provenance
  • integration test (when we have a worker that has a verifiable (from within the test) output)
@Veldhoen Veldhoen changed the title #dane-workflows Prepare dane workflow Prepare dane workflow for VisXP test Aug 28, 2023
@KleinRana
Copy link
Contributor

I just created a new ticket for defining the subset query.

@jblom
Copy link
Contributor

jblom commented Sep 5, 2023

@KleinRana @Veldhoen you can put the workflow code in this fresh repo: https://github.com/beeldengeluid/dane-workflows-daan-visxp

@KleinRana
Copy link
Contributor

KleinRana commented Sep 12, 2023

TASK_SCHEDULER: # configures: dane_workflows.task_scheduler
BATCH_SIZE: 5 # number of items returned by DataProvider.get_next_batch
BATCH_LIMIT: -1 # stop after n proc_batches
MONITOR_FREQ: -1 # after each n batches call the STATUS_MONITOR
BATCH_PREFIX: your_batch_prefix # used to track different iterations of DataProvider.get_next_batch
- Geen wijzigingen-

XOMG_SEARCH_API: # configures: dane_workflows.storage.xomg_search_api
URL : https://a_search_api # all DAAN data should be fetched via a search API
CLIENT_ID : a_client_id
TOKEN : a_token
- Test versie van de search API

QUERY_GENERATOR: # for creating the base queries that feed into the DAANDataProvider
TYPE: "existing_file_in_query_dir"
- dit gaat de generator skippen en de query uit de map gebruiken

DATA_PROVIDER: # configures: daan_data_provider.py (later on see if some params can be moved to dane_workflows.data_provider)
TYPE: x_omg_lib.daan_data_provider.DAANDataProvider
CONFIG:
CONTENT_PROVIDER: content-server
DATA_DIR : queries # should store ES queries in JSON format
DAAN_COLLECTION_ID : daan-catalogue-aggr # ES index storing aggregated DAAN data
BATCH_SELECTOR:
TYPE: default # other type is default (simple offset + size paging)
MAX_ITEMS_PER_BATCH: 10
-Hetzelfde maar: check bij Jaap of we voor de content provider daan-video blijven gebruiken ivm intensiviteit-

STATUS_HANDLER: # recommended implementation; stores to local file
TYPE: dane_workflows.status.SQLiteStatusHandler
CONFIG:
DB_FILE : ./proc_stats/asr-series-query.db # Local file db
Hetzelfde, wegschrijven naar SQLLite

PROC_ENV: # Note: ExampleDataProcessingEnvironment does not have any further config
TYPE: dane_workflows.data_processing.ExampleDataProcessingEnvironment
dane_workflows.data_processing.DANEEnvironmen - we hebben de config hiervoor nog nodig

STATUS_MONITOR: # optional, for monitoring
TYPE: dane_workflows.status_monitor.ExampleStatusMonitor
CONFIG:
INCLUDE_EXTRA_INFO: False
Slack monitoring - Letop, niet extern open zetten

EXPORTER: # implement your own Exporter by subclassing from Exporter
TYPE: dane_workflows.exporter.ExampleExporter
Klopt het dat we deze niet nodig hebben en kunnen we deze gewoon weglaten

@KleinRana
Copy link
Contributor

@jblom in de dikgedrukte tekst beschrijven we de config die we denken nodig te hebben met hierbij af en toe een vraag of opmerking. Zou jij even kunnen kijken of je het daarmee eens bent?

@KleinRana
Copy link
Contributor

KleinRana commented Sep 12, 2023

Next steps:

  • overhevelen code
  • draaien met volledige example config
  • config toevoegen
  • juiste query toevoegen
  • juiste dane enviroment

@KleinRana
Copy link
Contributor

KleinRana commented Sep 12, 2023

  • Add Proverance at some point

@KleinRana
Copy link
Contributor

  • Start with intergration test when we have a worker that has a verifiable (from within the test) output.

@jblom
Copy link
Contributor

jblom commented Sep 14, 2023

@KleinRana dit is de dane-workflow die ik gisteren heb aangemaakt om DANE ASR in OpenShift mee te kunnen testen. Ik zou een equivalent hiervan gebruiken om de 1e test met DANE visXp te gaan doen: https://github.com/beeldengeluid/x-omgeving/tree/main/ansible/files/dane/dane-workflows-daan-asr-openshift

Uiteraard moeten de verbindinggegevens anders als we een DANE visxp ergens hebben draaien

@mwigham
Copy link
Contributor

mwigham commented Sep 14, 2023

@KleinRana @jblom ik dacht dat we hadden besloten om dit bij de HUC te doen ipv in OpenShift ivm mogelijke onderbreking als de trial afgelopen is?

@jblom
Copy link
Contributor

jblom commented Sep 14, 2023

@mwigham dat zeg ik: de verbindinggegevens zullen we dan aanpassen en b.v. wijzen naar het HUC (en misschien ook even naar OpenShift als het makkelijk werkt)

@mwigham
Copy link
Contributor

mwigham commented Sep 15, 2023

@jblom @KleinRana dit is klaar om verder te gaan wanneer we instellingen hebben voor een DANE_ASSET_UPLOADER en PROC_ENV

@Veldhoen Veldhoen added the VisXP label Sep 26, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

4 participants