Извлечение таблиц из PDF-файлов, занимающих одну страницу в R - PullRequest
0 голосов
/ 27 февраля 2019

Я хочу извлечь таблицу из pdf-файла и проанализировать ее в R. Я использую функцию tabulizer :: extract_tables ().

Таблица переходит более одногостраница (с 6 по 9).Когда я использую функцию extract_table, я получаю объект списка с 12 элементами.Таблица, которую я хочу, состоит из элементов от out[[1]] до out[[4]]

Проблемы: моя таблица не имеет заголовка на всех страницах, а документ имеет свой собственный заголовок.Следовательно, функция не может определить правильное количество столбцов.Элемент out[[1]] имеет 4 столбца, out[[2]] и out[[3]] имеют 2 столбца, а out[[4]] имеет 1 столбец.Можно ли хотя бы получить правильное количество столбцов во всех 4 элементах?

Код:

library(tabulizer)

arquivo <- "1236_Pombos_PE.pdf"
out <- extract_tables(arquivo, output = "data.frame", encoding = "UTF-8")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...