git clone https://github.com/bauarm/books-parser.git
cd ./books-parser && virtualenv venv && source venv/bin/activate
pip install -r requirement.txt
python pdfSpliter.py
python pdfToImg.py
Для работы библиотеки Wand необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально. Возможны проблемы с настройками безопасности. Необходима правка файла /etc/ImageMagick-6/policy.xml
vi /etc/ImageMagick-6/policy.xml
Данная строка
<policy domain="coder" rights="none" pattern="PDF" />
Заменяется этой
<policy domain="coder" rights="read|write" pattern="PDF" />
python pngToTxt.py
Для работы скрипта на машине должен быть установлен Tesseract OCR
tesseract --version
Если не установленна
sudo apt install tesseract-ocr
Установка русского языкового пакета
sudo apt-get install tesseract-ocr-rus
Так же для работы скрипта необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально.
convert -version
Если не установленна. Команда для установки imagemagick
sudo apt install imagemagick