У меня есть несколько PDF-файлов с таблицами различной структуры и размера, которые я хотел бы обнаружить и извлечь. Я бы использовал что-то вроде tabulizeR или Tabula, но большинство этих таблиц имеют несколько строк на ячейку, и эти инструменты, похоже, не в состоянии их обработать. Я нашел много людей, задававших этот вопрос, но не получил ответов. Если бы можно было автоматизировать процесс, было бы еще лучше, поскольку у меня много PDF-файлов. Я не уверен, как поделиться примером PDF, но изображение ниже - пример того, как выглядят некоторые из более уродливых таблиц.
Я в основном использую R, но, черт возьми, я буду использовать COBOL, если эточто нужноКто-нибудь знает, как это решить?
