Это может быть простой вопрос R, но я все еще учусь.
У меня есть длинный список URL-адресов из EPA, содержащихся в CSV, которые ссылаются на определенные разрешения / средства разгрузки.Каждая строка CSV содержит один URL.Некоторые URL-адреса переходят на активную страницу с информацией о доступном объекте, а другие (те, которые я в конечном итоге заинтересован в идентификации) переходят на страницу, которая гласит: «Не найден программный объект для NPDES - [номер разрешения]».
Я хочу использовать R, чтобы просмотреть этот список URL-адресов csv, открыть каждый URL-адрес и вернуть значение ИСТИНА или ЛОЖЬ в зависимости от того, хорош URL или нет.«Плохой» URL-адрес основан на том, возвращает ли страница текст «Не найдены средства программы».В идеале возвращаемые значения ИСТИНА или ЛОЖЬ можно добавить в столбец рядом с URL-адресом сайта, чтобы я мог легко просмотреть и определить, какие ссылки являются хорошими, а какие нет.
Буду признателен за любые советы, которые вы могли быесть, с чего начать!
Я смог настроить это для работы с одной ссылкой за раз, используя библиотеку (httr).
# Bad URL
site1 <- GET("https://iaspub.epa.gov/enviro/fii_query_dtl.disp_program_facility?pgm_sys_id_in=VA0086738&pgm_sys_acrnm_in=NPDES")
contents1 <- content(site1, "text")
any(grepl("No program facility found", contents1))
# [1] TRUE
# Good URL
site2 <- GET("https://iaspub.epa.gov/enviro/fii_query_dtl.disp_program_facility?pgm_sys_id_in=VAG401896&pgm_sys_acrnm_in=NPDES")
contents2 <- content(site2, "text")
any(grepl("No program facility found", contents2))
# [1] FALSE