Skip to content

Latest commit

 

History

History
69 lines (66 loc) · 2.68 KB

README.md

File metadata and controls

69 lines (66 loc) · 2.68 KB

Парсер для пакетного извлечения текста из отсканированных книг

books-parser

Установка в виртуальное окружение

Скачать репозиторий

git clone https://github.com/bauarm/books-parser.git

Установить и активировать виртуальное окружение

cd ./books-parser && virtualenv venv && source venv/bin/activate

Установить все пакеты из requirement.txt

pip install -r requirement.txt

Назначение файлов

Файл pdfSpliter.py

Разделяет книгу в формате PDF на отдельные страницы
python pdfSpliter.py

Файл pdfToImg.py

Перегоняет PDF в PNG картинки
python pdfToImg.py

Для работы библиотеки Wand необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально. Возможны проблемы с настройками безопасности. Необходима правка файла /etc/ImageMagick-6/policy.xml

vi /etc/ImageMagick-6/policy.xml

Данная строка

<policy domain="coder" rights="none" pattern="PDF" />

Заменяется этой

<policy domain="coder" rights="read|write" pattern="PDF" />

Файл pngToTxt.py

Извлекает текст из картинок
python pngToTxt.py

Для работы скрипта на машине должен быть установлен Tesseract OCR

Проверка на наличие установленной программы Tesseract OCR
tesseract --version

Если не установленна

sudo apt install tesseract-ocr

Установка русского языкового пакета

sudo apt-get install tesseract-ocr-rus

Так же для работы скрипта необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально.

Проверка на наличие установленной программы ImageMagick
convert -version

Если не установленна. Команда для установки imagemagick

sudo apt install imagemagick