Мой контекст
Я использую tesseract для извлечения текста из изображения.
Я генерирую .tsv , чтобы извлечь извлеченный текст и выполнить какое-либо регулярное выражение с ним, и .pdf , чтобы получить PDF с возможностью поиска.
Я делаю это, звоня в тессеракт 2 раза:
- Тот, кто просит .tsv
- Один просит .pdf
Но я чувствую, что это не очень эффективно (одни и те же вычисления должны быть выполнены два раза)
Что я хочу
Я хочу, чтобы мои вычисления проходили быстрее. И моя идея состоит в том, чтобы вызывать tesseract только один раз, но указав два формата вывода
Возможно ли это? Если так, то как?