Как правильно извлечь многостраничные таблицы из PDF-файлов? - PullRequest
2 голосов
/ 10 марта 2020

Я пытался использовать tabulizer, чтобы избежать жесткого анализа, который может измениться в следующем отчете. Мне было интересно, если бы у всех вас были лучшие идеи.

library(tabulizer)
library(tidyverse)

who <- "https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200309-sitrep-49-covid-19.pdf"

page1 <- tabulizer::extract_tables(who, pages = 4, output = "data.frame") %>% 
  as.data.frame() %>% 
  slice(5:n()) %>% 
  select(-`X.1`)

page2 <- tabulizer::extract_tables(who, pages = 5, output = "data.frame") %>% 
  as.data.frame() %>% 
  rbind(colnames(.))

page3 <- tabulizer::extract_tables(who, pages = 6, output = "data.frame") %>% 
  as.data.frame() %>% 
  rbind(colnames(.))

colnames(page2) <- colnames(page1)
colnames(page3) <- colnames(page1)

dat <- page1 %>% rbind(page2) %>% rbind(page3)

Если вы запустите это, вы заметите, что регион и итоги должны быть удалены, но разделенные страницы и высокие строки - вот где у меня возникают проблемы. .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...