Camelot - фантастическая библиотека Python для извлечения таблиц из файла PDF в виде фрейма данных. Однако я ищу решение, которое также возвращает текст описания таблицы, написанный прямо над таблицей.
Код, который я использую для извлечения таблиц из pdf, таков:
import camelot
tables = camelot.read_pdf('test.pdf', pages='all',lattice=True, suppress_stdout = True)
Я хотел бы извлечь текст, написанный над таблицей, т. Е. ОСОБЕННОСТИ , как показано на рисунке ниже.
Какой для меня должен быть наилучший подход? ценю любую помощь. спасибо