Таблицы очистки веб-страниц на веб-сайте с R, состояние таблицы данных неизвестно - PullRequest
0 голосов
/ 25 октября 2018

У меня есть две ссылки для очистки с помощью R:

  1. https://bettereducation.com.au/school/Primary/vic/vic_top_primary_schools.aspx

  2. https://reiv.com.au/market-insights/all-suburbs

Я застрял при получении данных таблицы HTML и перемещениина следующую страницу.Это потому, что я не знаю, является ли таблица javascript или iframe.

Я надеюсь, что в R есть какой-то способ имитировать пользователя, который щелкает дальше и продолжает получать данные для продвижения.Другая проблема заключается в том, что большинство инструментов работают на тот факт, что ссылка меняется, и они переходят с одной ссылки на другую, в приведенных выше двух ссылках не меняется при получении необходимой информации.

Вот мой код.Пожалуйста, не стесняйтесь указывать на лучшие библиотеки или методы.

packages_needed <- c("rvest" , "stringr" , "rebus" , "lubridate")

if(length(setdiff(packages_needed, rownames(installed.packages()))) > 0 ) 
{      
  print("These were not found")
  setdiff(packages_needed, rownames(installed.packages())) 

  install.packages(setdiff(packages_needed,rownames(installed.packages())))      
}

for (libs in seq_along(packages_needed)) {
  library(packages_needed[libs], character.only = TRUE)
}

url_base <- ("https://bettereducation.com.au/school/Primary/vic/vic_top_primary_schools.aspx")
session <- html_session(url_base)

read_website <- read_html("https://bettereducation.com.au/school/Primary/vic/vic_top_primary_schools.aspx")

school_html <- html_nodes(read_website, 
                          "#ctl00_ContentPlaceHolder1_GridView1_ctl02_LinkSchool")

school_text <- html_text (school_html)

Пожалуйста, помогите очистить гуру!

...