Есть ли способ проверить, какую PDF-стратегию будет использовать FSCrawler? - PullRequest
1 голос
/ 03 августа 2020

Я использую функцию REST FSCrawler для сканирования PDF-файлов по мере их загрузки. В настоящее время я использую стратегию ocr_and_text pdf, однако ocr занимает слишком много времени, чтобы пользователь ждал ответа. Я хотел бы синхронно отправить PDF-файл в fscrawler, чтобы использовать извлечение текста, и если это не сработает, отправить в асинхронную фоновую задачу для ocr.

Есть ли способ сделать это с помощью FSCrawler? Или есть способ использовать несколько стратегий pdf?

1 Ответ

0 голосов
/ 27 августа 2020

Вам следует попробовать изменить pdf_strategy на auto.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...