Spark CSV Test

Adresse du fichier de données de test : https://storage.googleapis.com/ebap-data/technical-test/data-engineer/xag.csv

On dispose d'un fichier CSV, selon le modèle suivant: input.csv : userId,itemId,rating,timestamp

On souhaite construire 3 CSV de la façon suivante: aggratings.csv : userIdAsInteger,itemIdAsInteger,ratingSum lookupuser.csv : userId,userIdAsInteger lookup_product.csv : itemId,itemIdAsInteger

où: userId : identifiant unique d'un utilisateur (String) itemId : identifiant unique d'un produit (String) rating : score (Float) timestamp : timestamp unix, nombre de millisecondes écoulées depuis 1970-01-01 minuit GMT (Long/Int64) userIdAsInteger : identifiant unique d'un utilisateur (Int) itemIdAsInteger : identifiant unique d'un produit (Int) ratingSum : Somme des ratings pour le couple utilisateur/produit (Float)

Accessing the library

To start the App just run :

scala com.github.hosnimed.spark.App `input_file.csv` `output_folder`

or

>sbt run

input_file.csv : default to src/main/resources/xag.csv
output_folder : default to src/main/resources

Documentation

A link to the documentation

How to contribute

How others can contribute to the project

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Spark CSV Test

Accessing the library

Documentation

How to contribute

Files

README.md

Latest commit

History

README.md

File metadata and controls

Spark CSV Test

Accessing the library

Documentation

How to contribute