Есть обходные пути, но лучшая идея - быть хорошим гражданином в соответствии с их условиями.Возможно, вы захотите подтвердить, что вы следуете их Условиям обслуживания :
Если вы используете поисковую систему или робота, или вы повторно публикуете значительную часть всего контента Quora (какмы можем определить по нашему усмотрению), вы должны дополнительно следовать этим правилам:
- Вы должны использовать описательный заголовок агента пользователя.
- Вы должны следовать robots.txt по адресувсе время.
- Вы должны уточнить, как с вами связаться, либо в строке вашего агента пользователя, либо на вашем веб-сайте, если таковой имеется.
Вы можете установить свой пользователь-заголовок агента легко с помощью OpenURI :
Additional header fields can be specified by an optional hash argument.
open("http://www.ruby-lang.org/en/",
"User-Agent" => "Ruby/#{RUBY_VERSION}",
"From" => "foo@bar.invalid",
"Referer" => "http://www.ruby-lang.org/") {|f|
# ...
}
Robots.txt можно получить из http://www.quora.com/robots.txt
.Вам нужно будет проанализировать его и соблюдать его настройки, иначе вас снова забанят.
Кроме того, вы можете захотеть ограничить скорость вашего кода, засыпая между циклами.
Кроме того, если вы spidering на их сайте для контента, вы можете захотеть заглянуть в страницы кэширования локально или использовать один из пакетов spidering.Легко написать паука.Это больше работы, чтобы написать тот, который будет хорошо играть с сайтом, но лучше, чем не иметь возможности «пауковать» их сайт вообще.