Les requêtes déposées sont consignées dans les bases de données au format PDF
. Ces documents proviennent de scans effectués par des citoyens ou des avocats ayant formulé des demandes auprès des tribunaux.
Cependant, les fichiers PDF
ne sont pas dotés de capacités d'OCR, ce qui implique que le contenu textuel de ces fichiers n'est pas directement accessible ni sélectionnable. Afin de traiter ces données et d'extraire le texte correspondant, les étapes suivantes sont entreprises :
-
Les fichiers
PDF
sont convertis en images en utilisant la bibliothèquepdf2image
. Chaque page duPDF
est transformée en une image individuelle. Si lePDF
est composé de X pages, cela génère X images. Cette conversion est réalisée grâce au scriptpdf2img.py
. -
Par la suite, ces images sont soumises à une reconnaissance optique de caractères (OCR, Optical Character Recognition) pour être converties en fichiers texte au format
.txt
. Cette transformation est réalisée en utilisant la bibliothèquepytesseract
. Vous pouvez retrouver cette opération dans le scriptimg2txt.py
.