Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Encodage des fichiers .csv : soucis d'import dans PostgreSQL #13

Open
garaud opened this issue Apr 20, 2020 · 3 comments · May be fixed by #14
Open

Encodage des fichiers .csv : soucis d'import dans PostgreSQL #13

garaud opened this issue Apr 20, 2020 · 3 comments · May be fixed by #14

Comments

@garaud
Copy link

garaud commented Apr 20, 2020

Bonjour !

En prenant l'ensemble des fichiers csv par département présents sur http://data.cquest.org/geo_sirene/v2019/last/dep/, je me suis fait mordre par PostgreSQL avec un :

value too long for type character varying(26)

En effet, j'ai repris la définition des variables présentes dans les fichiers CSV https://www.sirene.fr/sirene/public/static/liste-variables en créant un table PostgreSQL avec la bonne longueur des différents champs. Par exemple :

Puis en faisant un bête COPY CSV TO, j'ai eu des chaînes parfois plus longues. Deux exemples :

  • Département 33, POLYCLI BX NORD MED VASCULAIRE N°15A33 en tant que valeur de la variable complementAdresseEtablissement qui a donc ici une longueur 39 pour 38 attendue

  • Département 13, CENTRAIX ET N°2 AV DU 8 MA pour la valeur de la variable distributionSpecialeEtablissement

Je me demande si dans le filtre ou le découpage d'entités par département, y'aura pas un soucis d'encodage qui se glisse.

Pour l'instant, j'ai augmenté la taille de mes champs.

Merci,
Damien G.

@garaud
Copy link
Author

garaud commented Apr 20, 2020

Grmbl, j'ai aussi des p'tits malheureux ¿ qui trainent dans certains champs.

@garaud
Copy link
Author

garaud commented Apr 20, 2020

Mea culpa, y'en a dans les données source aussi...

Pour le SIREN 212901102, dans les résultats de recherche de https://www.sirene.fr/sirene/public/recherche j'ai des trucs comme LOTISSEMENT N¿2

@garaud
Copy link
Author

garaud commented Apr 21, 2020

J'ai l'impression que le script de geocodage geocode.py, quand il est appelé avec plus de deux arguments à la ligne de commande, ce qui est le cas pour v2019/batch.sh n'a pas le bon encoding à la lecture du fichier .csv https://github.com/cquest/geocodage-spd/blob/master/insee-sirene/geocode.py#L71

    sirene_csv = csv.reader(open(sys.argv[1], 'r', encoding='iso8859-1'),
                            delimiter=',')

puisque les fichiers sont déjà (et enfin) publiés en utf-8.

garaud pushed a commit to Oslandia/geocodage-spd that referenced this issue Apr 21, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging a pull request may close this issue.

1 participant