Есть ли способ извлечь pid таблицы Tidy с R? - PullRequest
0 голосов
/ 07 апреля 2020

Мне нужен автоматический c код для извлечения pdf таблицы в R.

Итак, я искал сайт, нашел пакет tabulizer.

и я использую

extract_tables(f2,pages = 25,guess=TRUE,encoding = 'UTF-8',method="stream")#f2 is pdf file name

Я перепробовал каждый тип метода, но результат не аккуратный.

Некоторые столбцы перепутаны, и, как вы можете видеть, изображение пустое.

Думаю, я бы изменил данные напрямую. Но цель состоит в том, чтобы автоматизировать это. Так что нужен общий метод. И каждый файл PDF не организован. Некоторые таблицы очень аккуратны, каждая строка соответствует друг другу, а другие нет. Как вы можете видеть на моем итоговом изображении, в столбце 4 число смешивается в одном столбце. В других столбцах число совпадает одно за другим, я имею в виду, что я хочу сделать столбец аккуратным, как таблица в pdf.

Есть ли какой-нибудь пакет или какой-нибудь метод для аккуратного извлечения таблицы?

мой код Результат

таблица в PDF

...