Извлечение таблицы из таблицы PDF без вертикальных линий - PullRequest
0 голосов
/ 04 октября 2019

Я хочу извлечь таблицу из файлов PDF, которые выглядят следующим образом: enter image description here

Файл PDF содержит текст и не является отсканированным изображением. Я пытался использовать Камелот безуспешно. Аромат lattice не работает, потому что нет вертикальных линий, а фрейм stream не может правильно разделить строки. Я играл с row_tol, но поскольку строки имеют разную высоту, это не сработало на всех рядах.

Есть ли способ использовать метод lattice, но рассмотреть разделители столбцов для вертикальных линий? Или есть другой способ извлечения таблицы?

1 Ответ

0 голосов
/ 14 октября 2019

Я не уверен, что ваши таблицы всегда следуют одной и той же схеме / логике. Но если они это сделают, вы можете попробовать Poppler и использовать преобразование текста с учетом Layout и вручную проанализировать его в CSV или какой-либо другой формат.

PDF - очень уродливый формат для табличных данных.

...