Question

Я хочу извлечь определенные страницы из PDF в таблицы в CSV. Для этой задачи я использую tabula-py, textract (я получаю лучшие результаты из метода PyPDF2), PyPDF2.

Для каждого PDF я разделяю каждую страницу, затем использую textract. Если я нахожу нужный текст, я экспортирую таблицу в CSV с помощью tabula-py. Проблема в том, что это медленный процесс.

Будет ли использование эластичного стека ускорить процесс? Я имею в виду индексирование PDF, а затем использование Python API для извлечения текста, который я хочу?

Как наиболее эффективно извлекать таблицы из определенных страниц из PDF в CSV?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как наиболее эффективно извлекать таблицы из определенных страниц из PDF в CSV?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы