У меня есть две ссылки для очистки с помощью R:
https://bettereducation.com.au/school/Primary/vic/vic_top_primary_schools.aspx
https://reiv.com.au/market-insights/all-suburbs
Я застрял при получении данных таблицы HTML и перемещениина следующую страницу.Это потому, что я не знаю, является ли таблица javascript или iframe.
Я надеюсь, что в R есть какой-то способ имитировать пользователя, который щелкает дальше и продолжает получать данные для продвижения.Другая проблема заключается в том, что большинство инструментов работают на тот факт, что ссылка меняется, и они переходят с одной ссылки на другую, в приведенных выше двух ссылках не меняется при получении необходимой информации.
Вот мой код.Пожалуйста, не стесняйтесь указывать на лучшие библиотеки или методы.
packages_needed <- c("rvest" , "stringr" , "rebus" , "lubridate")
if(length(setdiff(packages_needed, rownames(installed.packages()))) > 0 )
{
print("These were not found")
setdiff(packages_needed, rownames(installed.packages()))
install.packages(setdiff(packages_needed,rownames(installed.packages())))
}
for (libs in seq_along(packages_needed)) {
library(packages_needed[libs], character.only = TRUE)
}
url_base <- ("https://bettereducation.com.au/school/Primary/vic/vic_top_primary_schools.aspx")
session <- html_session(url_base)
read_website <- read_html("https://bettereducation.com.au/school/Primary/vic/vic_top_primary_schools.aspx")
school_html <- html_nodes(read_website,
"#ctl00_ContentPlaceHolder1_GridView1_ctl02_LinkSchool")
school_text <- html_text (school_html)
Пожалуйста, помогите очистить гуру!