Я хочу извлечь определенные страницы из PDF в таблицы в CSV. Для этой задачи я использую tabula-py, textract (я получаю лучшие результаты из метода PyPDF2), PyPDF2.
Для каждого PDF я разделяю каждую страницу, затем использую textract. Если я нахожу нужный текст, я экспортирую таблицу в CSV с помощью tabula-py. Проблема в том, что это медленный процесс.
Будет ли использование эластичного стека ускорить процесс? Я имею в виду индексирование PDF, а затем использование Python API для извлечения текста, который я хочу?