Я написал сценарий для загрузки всех отчетов о правах человека с веб-сайта государственных департаментов.Проблема в том, что у меня нет кода, для которого PDF-файлы представляют собой Отчеты по правам человека, другие отчеты и какие коды вообще не соответствуют ни одному PDF-документу.Я выяснил, как определить файлы, не относящиеся к PDF, по размеру загруженного файла, и я могу использовать пакет pdftools, чтобы увидеть, какие из настоящих PDF-файлов являются Отчетами по правам человека, и соответствующим образом изменить их.
Но мне интересно, могу ли я как-то указать, загружать только PDF-файлы при начальной загрузке?Когда я запускаю этот код:
### pdf codes on state department
pdf_code <- seq(277000, 277999, 1)
### download 2017
for (i in seq_along(pdf_code)){
download(paste0("https://www.state.gov/documents/organization/",
pdf_code[i], ".pdf"),
paste0(pdf_code[i], ".pdf"), mode = "wb")}
Я вижу в консоли, что он анализирует тип содержимого загрузки, например:
trying URL 'https://www.state.gov/documents/organization/265992.pdf'
Content type 'text/html' length 25403 bytes (24 KB)
downloaded 24 KB
trying URL 'https://www.state.gov/documents/organization/265993.pdf'
Content type 'application/pdf' length 78527 bytes (76 KB)
downloaded 76 KB
Есть ли в любом случае я могууказать, чтобы он загружал только файлы с типом контента application / pdf?