Как наиболее эффективно извлекать таблицы из определенных страниц из PDF в CSV? - PullRequest
0 голосов
/ 17 июня 2019

Я хочу извлечь определенные страницы из PDF в таблицы в CSV. Для этой задачи я использую tabula-py, textract (я получаю лучшие результаты из метода PyPDF2), PyPDF2.

Для каждого PDF я разделяю каждую страницу, затем использую textract. Если я нахожу нужный текст, я экспортирую таблицу в CSV с помощью tabula-py. Проблема в том, что это медленный процесс.

Будет ли использование эластичного стека ускорить процесс? Я имею в виду индексирование PDF, а затем использование Python API для извлечения текста, который я хочу?

...