Итак, это не сработает вообще.В этом документе нет текста, за исключением символов разрыва страницы.Это все изображения.
Если rJava
работает в вашей системе, и вы можете и удобно устанавливать пакеты из ненадежных источников, таких как GitHub, вы можете установить pdfbox
(обратите внимание на предупреждение системы безопасности)поскольку я не обновил pdfbox
JAR-файлов, но единственная уязвимость - это потенциальный процесс отказа в обслуживании) для проверки этого, поскольку он менее хрупок, чем pdftools
.
Когда я использую httr::write_disk()
или curl::curl_download()
методы, чтобы получить PDF (парень, который тоже требует много времени в США). Затем я сделал:
pdfbox::extract_text("~/Downloads/ill-bet-this-is-all-images.pdf")
## # A tibble: 14 x 2
## page text
## <int> <chr>
## 1 1 "\n"
## 2 2 "\n"
## 3 3 "\n"
## 4 4 "\n"
## 5 5 "\n"
## 6 6 "\n"
## 7 7 "\n"
## 8 8 "\n"
## 9 9 "\n"
## 10 10 "\n"
## 11 11 "\n"
## 12 12 "\n"
## 13 13 "\n"
## 14 14 "\n"
Boom: без текста.
Вам понадобитсяиспользовать некоторые инструменты распознавания изображений в текст rOpenSci, чтобы получить что-то значимое из этого документа.