Question

У меня есть несколько PDF-файлов с таблицами различной структуры и размера, которые я хотел бы обнаружить и извлечь. Я бы использовал что-то вроде tabulizeR или Tabula, но большинство этих таблиц имеют несколько строк на ячейку, и эти инструменты, похоже, не в состоянии их обработать. Я нашел много людей, задававших этот вопрос, но не получил ответов. Если бы можно было автоматизировать процесс, было бы еще лучше, поскольку у меня много PDF-файлов. Я не уверен, как поделиться примером PDF, но изображение ниже - пример того, как выглядят некоторые из более уродливых таблиц.

Я в основном использую R, но, черт возьми, я буду использовать COBOL, если эточто нужноКто-нибудь знает, как это решить?

Извлечение таблиц из PDF-файлов при наличии многострочных строк - приветствуются все решения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Извлечение таблиц из PDF-файлов при наличии многострочных строк - приветствуются все решения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы