Я пытаюсь получить доступ к странице Википедии, чтобы получить список страниц и получить следующую ошибку:
library(RCurl) u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4" getURL(u) [1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n"
Я надеюсь попасть на эту страницу через API Википедии, но Я не уверен, что это будет работать .
И дело в том, что другие страницы читаются без проблем, например:
u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk" getURL(u)
Есть предложения?
Примечание: в общем, я бы предпочел не чистить вики-страницы и не просматривать API, но я боюсь, что эти конкретные страницы еще не доступны через API ...
Согласно документации RCurl, вы можете указать дополнительный заголовок, добавив параметр httpheader:
RCurl
httpheader
getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info"))