Код R: Извлечение и приведение в порядок таблицы PDF с объединенными ячейками - PullRequest
0 голосов
/ 11 октября 2019

У меня есть PDF с таблицей, которую я не могу привести в порядок. Таблица была создана в Excel, сохранена в формате PDF, и у меня нет доступа к исходному файлу Excel. Я опубликовал похожую таблицу Здесь

Пока что я пробовал:

library(tabulizer)
library(tidyverse)

raw <- extract_tables("Example.pdf")
raw <- do.call(rbind,raw)

Из-за объединенных ячеек работать не так просто.

В идеале я хотел бы, чтобы широкие рамки данных выглядели так:

out <- data.frame(Name = c("Client1","Client1","Client1"),
                  Contract_Date = c("10/1/2019","10/1/2020","10/1/2021"),
                  Retail_Channel1_Discount = c("20%","20%","20%"),
                  Retail_Channel2_Discount = c("80%","80%","80%"),
                  Retail_Channel1_Fee = c("$0.50","$0.50","$0.50"),
                  Retail_Channel2_Fee = c("$0.50","$0.50","$0.50"),
                  Supply_Chain_Channel1_Discount = c("25%","25%","25%"),
                  Supply_Chain_Channel2_Discount = c("75%","75%","75%"),
                  Admin_Fee1 = c(0,0,0),
                  Agreed_Terms_Discount = c("20%","20%","20%"),
                  Admin_Fee2 = c(0,0,0),
                  Brand1_Discount = c("$0.80","$0.90","$1.00"),
                  Brand2_Discount = c("$5.00","$6.00","$7.00"),
                  Brand3_Discount = c("$3.00","$3.00","$3.00")
                  )

Таким образом, я могу автоматизировать процесс очистки и просто добавлять новую информацию о клиенте внизу.

...