html_nodes больше не извлекает строки таблицы после обновления сайта - PullRequest
0 голосов
/ 24 декабря 2018

Несколько лет назад я попросил помочь очистить список доступных моделей на nomads.ncep.noaa.gov. Решение описано здесь. Я добавил первый ответ в свой пакет R rNOMADS и с тех пор использую его.Однако с тех пор, как NCEP объявил о переходе на https, решение не сработало.Я знаю, что это не только из-за переключения, потому что другие https-сайты (например, imdb) по-прежнему могут быть удалены.

Я подозреваю, что они действительно изменили структуру сайта.Я попытался использовать Selectorgadget, чтобы выяснить, могу ли я просто установить новый селектор CSS, но не повезло.

Я в растерянности ... веб-сайты, которые используют rNOMADS в качестве бэкэнда, не работают, мои пользователи отправляютмне по электронной почте, и я не уверен, как решить проблему.

Любое руководство приветствуется / крайне необходимо.

Ответы [ 2 ]

0 голосов
/ 03 января 2019

Все функции из rNOMADS работают для меня, меняя URL сервера.На электронное письмо от [NCEP.list.NOMADS-ftpprd] скажите:

В настоящее время только следующие URL-адреса веб-сайтов имеют новые изменения для тестирования:

https://nomads -cprk.ncep.noaa.gov/

https://origin.ftp.ncep.noaa.gov/

Новые URL работают!

0 голосов
/ 24 декабря 2018

Я взломал это, и я думаю, что начинать нужно с вашего предыдущего поста с использованием XML :: htmlParse

library(XML)
library(dplyr)
library(rvest)
doc_http <- htmlParse("http://nomads.ncep.noaa.gov/")
doc_https <- htmlParse("https://nomads.ncep.noaa.gov/")

doc_http возвращает

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

, за которыми следуют два сценария, один длинный сценарий Citrix

doc_http возвращает только

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"    "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><p>https://nomads.ncep.noaa.gov/</p></body></html>

, что означает отсутствие XML.Таким образом, в той степени, в которой синтаксический анализ RNomads html основан на импорте XML, похоже, вам нужен серьезный рефакторинг.

...