анемон игнорирует ссылки URL, включая определенную фразу - PullRequest
2 голосов
/ 06 сентября 2011

Я использую веб-скребок с анемоном на ruby, и у меня возникают проблемы с сервером, когда он посещает страницы, требующие входа в систему.

На всех страницах есть фраза, скажем, "account" в URL, и я хочу, чтобы программа полностью игнорировала и не переходила ни на одну ссылку с пунктом назначения, содержащим эту строку.

Как я могу это сделать?

1 Ответ

4 голосов
/ 06 сентября 2011

У анемона есть метод skip_links_like :

skip_links_like (* Patterns)
Добавьте один или несколько шаблонов Regex для URL, которые должныне следует следовать

Поэтому добавление чего-то вроде

skip_links_like /\/account\//

должно позаботиться об этом:

Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
    anemone.skip_links_like /\/account\//
    #...
end
...