Я хочу извлечь таблицу из pdf-файла и проанализировать ее в R. Я использую функцию tabulizer :: extract_tables ().
Таблица переходит более одногостраница (с 6 по 9).Когда я использую функцию extract_table, я получаю объект списка с 12 элементами.Таблица, которую я хочу, состоит из элементов от out[[1]]
до out[[4]]
Проблемы: моя таблица не имеет заголовка на всех страницах, а документ имеет свой собственный заголовок.Следовательно, функция не может определить правильное количество столбцов.Элемент out[[1]]
имеет 4 столбца, out[[2]]
и out[[3]]
имеют 2 столбца, а out[[4]]
имеет 1 столбец.Можно ли хотя бы получить правильное количество столбцов во всех 4 элементах?
Код:
library(tabulizer)
arquivo <- "1236_Pombos_PE.pdf"
out <- extract_tables(arquivo, output = "data.frame", encoding = "UTF-8")