Извлечение таблиц из PDF-файлов при наличии многострочных строк - приветствуются все решения - PullRequest
0 голосов
/ 11 октября 2019

У меня есть несколько PDF-файлов с таблицами различной структуры и размера, которые я хотел бы обнаружить и извлечь. Я бы использовал что-то вроде tabulizeR или Tabula, но большинство этих таблиц имеют несколько строк на ячейку, и эти инструменты, похоже, не в состоянии их обработать. Я нашел много людей, задававших этот вопрос, но не получил ответов. Если бы можно было автоматизировать процесс, было бы еще лучше, поскольку у меня много PDF-файлов. Я не уверен, как поделиться примером PDF, но изображение ниже - пример того, как выглядят некоторые из более уродливых таблиц.

Я в основном использую R, но, черт возьми, я буду использовать COBOL, если эточто нужноКто-нибудь знает, как это решить?

An ugly PDF table

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...