Как пакетно распознать несколько файлов изображений для нескольких текстовых файлов, используя Tesseract - PullRequest
0 голосов
/ 22 ноября 2018

В настоящее время я использую tesseract для распознавания некоторых jpeg-файлов в txt-файлы (в Ubuntu 16.04).Как правило, это ~ 500 файлов в одном каталоге.

Я знаю, что могу сделать это, создав текстовый файл со всеми именами файлов (savelist.txt), а затем выполните:

tesseract savedlist.txt output.txt

однако output.txt - это один файл со всеми результатами ocr.

Мне нужно иметь возможность сохранять результаты ocr в отдельных текстовых файлах с тем же именем файла, что и исходный файл изображения.Например:

входной файл: image456.jpeg
выходной файл: image456.txt

Поэтому я ищу сценарий командной строки, который может выполнить эту обработку.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...