Question

Я хочу извлечь таблицу из файлов PDF, которые выглядят следующим образом:

Файл PDF содержит текст и не является отсканированным изображением. Я пытался использовать Камелот безуспешно. Аромат lattice не работает, потому что нет вертикальных линий, а фрейм stream не может правильно разделить строки. Я играл с row_tol, но поскольку строки имеют разную высоту, это не сработало на всех рядах.

Есть ли способ использовать метод lattice, но рассмотреть разделители столбцов для вертикальных линий? Или есть другой способ извлечения таблицы?

Hirschdude · Answer 1 · 14 октября 2019

Я не уверен, что ваши таблицы всегда следуют одной и той же схеме / логике. Но если они это сделают, вы можете попробовать Poppler и использовать преобразование текста с учетом Layout и вручную проанализировать его в CSV или какой-либо другой формат.

PDF - очень уродливый формат для табличных данных.

Извлечение таблицы из таблицы PDF без вертикальных линий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение таблицы из таблицы PDF без вертикальных линий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы