Тессеракт множественный выходной формат - PullRequest
0 голосов
/ 06 ноября 2018

Мой контекст

Я использую tesseract для извлечения текста из изображения.

Я генерирую .tsv , чтобы извлечь извлеченный текст и выполнить какое-либо регулярное выражение с ним, и .pdf , чтобы получить PDF с возможностью поиска.

Я делаю это, звоня в тессеракт 2 раза:

  • Тот, кто просит .tsv
  • Один просит .pdf

Но я чувствую, что это не очень эффективно (одни и те же вычисления должны быть выполнены два раза)

Что я хочу

Я хочу, чтобы мои вычисления проходили быстрее. И моя идея состоит в том, чтобы вызывать tesseract только один раз, но указав два формата вывода

Возможно ли это? Если так, то как?

1 Ответ

0 голосов
/ 07 ноября 2018

Вы можете попробовать команду:

tesseract yourimage.tif out pdf tsv

...