Question

Я ищу реализацию распознавания текста, предпочтительно в Python, которая могла бы извлекать текст из отсканированного PDF (печатного машинного текста). Однако из-за политики компании и соображений безопасности я не могу загрузить исполняемые файлы (.exe), поэтому любые библиотеки Python, основанные на Tesseract, в настоящее время не работают для меня ... Кто-нибудь еще также сталкивался с этой проблемой? (Я предполагаю, что это довольно распространено в больших компаниях). Я хотел бы найти обходной путь, либо способ создания tesseract без загрузки файла .exe, либо альтернативную реализацию OCR.

Уже спасибо! Я работаю на машине Windows 7 ..

AKX · Answer 1 · 03 марта 2020

К сожалению, Pytesseract является лишь оболочкой для двоичного файла Tesseract (.exe на Windows), поэтому вам, вероятно, придется просить и умолять ИТ-специалистов разрешить это. Один из вариантов может состоять в том, чтобы собрать Tesseract из исходного кода, поэтому вы не загрузили «random» .exe ...

Другой вариант, конечно, использовать API для OCR, но если такой жесткий (и я полагаю, что бюджеты тоже), это может не сработать и для вас.

Запуск Tesseract или альтернативного модуля OCR в среде python без загрузки файла .exe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Запуск Tesseract или альтернативного модуля OCR в среде python без загрузки файла .exe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы