read_html()
обычно возвращает все html страницы для данного URL.
Но когда я пробую этот URL, я вижу, что не вся страница возвращается.
Почему это (и что более важно, как я могу исправитьэто)?
Воспроизводимый пример
page_html <- "https://raw.githubusercontent.com/mjaniec2013/ExecutionTime/master/ExecutionTime.R" %>%
read_html
page_html %>% html_text %>% cat
# We can see not all the page html has been retrieved
# And just to be sure
page_html %>% as.character
Заметки
- Похоже, github - это нормально, когда боты посещают , так что я неНе думаю, что это проблема, связанная с github
- Я попытался сделать то же самое с библиотекой ruby
Nokogiri
.Это дает точно такой же результат, как read_html
.Похоже, что это не то, что специфично для R или read_html()