Я хочу извлечь таблицу из файлов PDF, которые выглядят следующим образом:
Файл PDF содержит текст и не является отсканированным изображением. Я пытался использовать Камелот безуспешно. Аромат lattice
не работает, потому что нет вертикальных линий, а фрейм stream
не может правильно разделить строки. Я играл с row_tol
, но поскольку строки имеют разную высоту, это не сработало на всех рядах.
Есть ли способ использовать метод lattice
, но рассмотреть разделители столбцов для вертикальных линий? Или есть другой способ извлечения таблицы?