Мне нужен автоматический c код для извлечения pdf таблицы в R.
Итак, я искал сайт, нашел пакет tabulizer.
и я использую
extract_tables(f2,pages = 25,guess=TRUE,encoding = 'UTF-8',method="stream")#f2 is pdf file name
Я перепробовал каждый тип метода, но результат не аккуратный.
Некоторые столбцы перепутаны, и, как вы можете видеть, изображение пустое.
Думаю, я бы изменил данные напрямую. Но цель состоит в том, чтобы автоматизировать это. Так что нужен общий метод. И каждый файл PDF не организован. Некоторые таблицы очень аккуратны, каждая строка соответствует друг другу, а другие нет. Как вы можете видеть на моем итоговом изображении, в столбце 4 число смешивается в одном столбце. В других столбцах число совпадает одно за другим, я имею в виду, что я хочу сделать столбец аккуратным, как таблица в pdf.
Есть ли какой-нибудь пакет или какой-нибудь метод для аккуратного извлечения таблицы?
мой код Результат
таблица в PDF