У меня есть PDF с таблицей, которую я не могу привести в порядок. Таблица была создана в Excel, сохранена в формате PDF, и у меня нет доступа к исходному файлу Excel. Я опубликовал похожую таблицу Здесь
Пока что я пробовал:
library(tabulizer)
library(tidyverse)
raw <- extract_tables("Example.pdf")
raw <- do.call(rbind,raw)
Из-за объединенных ячеек работать не так просто.
В идеале я хотел бы, чтобы широкие рамки данных выглядели так:
out <- data.frame(Name = c("Client1","Client1","Client1"),
Contract_Date = c("10/1/2019","10/1/2020","10/1/2021"),
Retail_Channel1_Discount = c("20%","20%","20%"),
Retail_Channel2_Discount = c("80%","80%","80%"),
Retail_Channel1_Fee = c("$0.50","$0.50","$0.50"),
Retail_Channel2_Fee = c("$0.50","$0.50","$0.50"),
Supply_Chain_Channel1_Discount = c("25%","25%","25%"),
Supply_Chain_Channel2_Discount = c("75%","75%","75%"),
Admin_Fee1 = c(0,0,0),
Agreed_Terms_Discount = c("20%","20%","20%"),
Admin_Fee2 = c(0,0,0),
Brand1_Discount = c("$0.80","$0.90","$1.00"),
Brand2_Discount = c("$5.00","$6.00","$7.00"),
Brand3_Discount = c("$3.00","$3.00","$3.00")
)
Таким образом, я могу автоматизировать процесс очистки и просто добавлять новую информацию о клиенте внизу.