Парсер для пакетного извлечения текста из отсканированных книг

books-parser

Установка в виртуальное окружение

Скачать репозиторий

git clone https://github.com/bauarm/books-parser.git

Установить и активировать виртуальное окружение

cd ./books-parser && virtualenv venv && source venv/bin/activate

Установить все пакеты из requirement.txt

pip install -r requirement.txt

Назначение файлов

Файл pdfSpliter.py

Разделяет книгу в формате PDF на отдельные страницы

python pdfSpliter.py

Файл pdfToImg.py

Перегоняет PDF в PNG картинки

python pdfToImg.py

Для работы библиотеки Wand необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально. Возможны проблемы с настройками безопасности. Необходима правка файла /etc/ImageMagick-6/policy.xml

vi /etc/ImageMagick-6/policy.xml

Данная строка

<policy domain="coder" rights="none" pattern="PDF" />

Заменяется этой

<policy domain="coder" rights="read|write" pattern="PDF" />

Файл pngToTxt.py

Извлекает текст из картинок

python pngToTxt.py

Для работы скрипта на машине должен быть установлен Tesseract OCR

Проверка на наличие установленной программы Tesseract OCR

tesseract --version

Если не установленна

sudo apt install tesseract-ocr

Установка русского языкового пакета

sudo apt-get install tesseract-ocr-rus

Так же для работы скрипта необходима программа ImageMagick . На Ubuntu ImageMagick обычно установленна изначально.

Проверка на наличие установленной программы ImageMagick

convert -version

Если не установленна. Команда для установки imagemagick

sudo apt install imagemagick

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Парсер для пакетного извлечения текста из отсканированных книг

books-parser

Установка в виртуальное окружение

Скачать репозиторий

Установить и активировать виртуальное окружение

Установить все пакеты из requirement.txt

Назначение файлов

Файл pdfSpliter.py

Разделяет книгу в формате PDF на отдельные страницы

Файл pdfToImg.py

Перегоняет PDF в PNG картинки

Файл pngToTxt.py

Извлекает текст из картинок

Проверка на наличие установленной программы Tesseract OCR

Проверка на наличие установленной программы ImageMagick

Files

README.md

Latest commit

History

README.md

File metadata and controls

Парсер для пакетного извлечения текста из отсканированных книг

books-parser

Установка в виртуальное окружение

Скачать репозиторий

Установить и активировать виртуальное окружение

Установить все пакеты из requirement.txt

Назначение файлов

Файл pdfSpliter.py

Разделяет книгу в формате PDF на отдельные страницы

Файл pdfToImg.py

Перегоняет PDF в PNG картинки

Файл pngToTxt.py

Извлекает текст из картинок

Проверка на наличие установленной программы Tesseract OCR

Проверка на наличие установленной программы ImageMagick