Skip to content

bauarm/books-parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсер для пакетного извлечения текста из отсканированных книг

books-parser

Установка в виртуальное окружение

Скачать репозиторий

git clone https://github.com/bauarm/books-parser.git

Установить и активировать виртуальное окружение

cd ./books-parser && virtualenv venv && source venv/bin/activate

Установить все пакеты из requirement.txt

pip install -r requirement.txt

Назначение файлов

Файл pdfSpliter.py

Разделяет книгу в формате PDF на отдельные страницы
python pdfSpliter.py

Файл pdfToImg.py

Перегоняет PDF в PNG картинки
python pdfToImg.py

Для работы библиотеки Wand необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально. Возможны проблемы с настройками безопасности. Необходима правка файла /etc/ImageMagick-6/policy.xml

vi /etc/ImageMagick-6/policy.xml

Данная строка

<policy domain="coder" rights="none" pattern="PDF" />

Заменяется этой

<policy domain="coder" rights="read|write" pattern="PDF" />

Файл pngToTxt.py

Извлекает текст из картинок
python pngToTxt.py

Для работы скрипта на машине должен быть установлен Tesseract OCR

Проверка на наличие установленной программы Tesseract OCR
tesseract --version

Если не установленна

sudo apt install tesseract-ocr

Установка русского языкового пакета

sudo apt-get install tesseract-ocr-rus

Так же для работы скрипта необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально.

Проверка на наличие установленной программы ImageMagick
convert -version

Если не установленна. Команда для установки imagemagick

sudo apt install imagemagick

About

No description or website provided.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages