ЦРУ публикует список мировых лидеров и министров кабинетов по всем странам несколько раз в год. Эта информация в формате PDF.
Я хочу преобразовать этот PDF в CSV, используя R, а затем отделить и привести в порядок данные.
Я получаю PDF от "https://www.cia.gov/library/publications/resources/world-leaders-1/"
по ссылке «PDF-версия для предыдущих лет», расположенной в центре правой части страницы.
В каждом PDF-файле есть несколько вводных страниц, а затем перечислены лидеры и министры для каждой страны.
С каждым «Заголовком» и «Именем» отделяются «..........» различной длины.
Я пытался использовать пакет pdftools для преобразования из PDF, но я не совсем уверен, как обращаться с форматом данных для сортировки и очистки.
Вот первые шаги, которые я предпринял для загруженного PDF
library(pdftools)
text <- pdf_text("Data/April2006ChiefsDirectory.pdf")
test <- as.data.frame(text)
Начиная с одного PDF, я хочу перечислить каждого министра в отдельной строке с отдельными столбцами для года, страны, названия и имени.
На этом шаге, который я уже сделал, преобразование PDF-файла в формат .csv без дополнительной очистки, данные находятся в одном столбце, и в каждой строке есть строка текста, содержащая заголовок и имя для нескольких стран.
Я новичок в обработке данных, любая помощь будет принята с благодарностью.