Как проверить, что PDF сканируется или может извлекаться нормально без распознавания текста? (Python) - PullRequest
0 голосов
/ 10 февраля 2020

У меня есть тысячи PDF-файлов (отсканированные и текстовые). Мне нужно извлечь детали из них. Я использую Tesseract OCR во всех файлах, и это занимает больше времени, чем обычное извлечение текста.

Как решить эту проблему в python?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...