Постановка задачи:
У меня есть PDF, структура которого похожа на таблицы, но строки не видны.Ниже приведен пример:
На рисунке выше показано, как выглядит моя таблица на одной из страниц PDF.
Мои исследования
Как извлечь таблицу в виде текста из PDF с помощью Python? - Прошел этот вопрос и увидел все ответы.Бесполезно
Tabula : пробовал tabula API, но он только извлекает заголовки, а не текст, вероятно, из-за отсутствия строк.
Я могу преобразовать весь PDF в текст, а затем попытаться извлечь его с помощью регулярных выражений или манипуляций с данными.Но это может быть очень утомительно и требует много времени.Кроме того, поскольку PDF-файл изменяется, все кодирование должно быть выполнено снова.
Ask
Является ли это любым пакетом API или Python, который может помочьмне сделать это ( Windows и Python 3.x )?