Запуск Tesseract или альтернативного модуля OCR в среде python без загрузки файла .exe - PullRequest
0 голосов
/ 03 марта 2020

Я ищу реализацию распознавания текста, предпочтительно в Python, которая могла бы извлекать текст из отсканированного PDF (печатного машинного текста). Однако из-за политики компании и соображений безопасности я не могу загрузить исполняемые файлы (.exe), поэтому любые библиотеки Python, основанные на Tesseract, в настоящее время не работают для меня ... Кто-нибудь еще также сталкивался с этой проблемой? (Я предполагаю, что это довольно распространено в больших компаниях). Я хотел бы найти обходной путь, либо способ создания tesseract без загрузки файла .exe, либо альтернативную реализацию OCR.

Уже спасибо! Я работаю на машине Windows 7 ..

1 Ответ

1 голос
/ 03 марта 2020

К сожалению, Pytesseract является лишь оболочкой для двоичного файла Tesseract (.exe на Windows), поэтому вам, вероятно, придется просить и умолять ИТ-специалистов разрешить это. Один из вариантов может состоять в том, чтобы собрать Tesseract из исходного кода, поэтому вы не загрузили «random» .exe ...

Другой вариант, конечно, использовать API для OCR, но если такой жесткий (и я полагаю, что бюджеты тоже), это может не сработать и для вас.

...