Gocolly Scraper работает с некоторыми URL-адресами, предсказуемо не работает с другими в том же домене - PullRequest
0 голосов
/ 12 марта 2020

Я очищаю сайт, используя gocolly. Когда я посещаю определенный URL, я могу получить доступ к контенту правильно. Однако, если я изменяю переменную пути, вызов завершается с ошибкой 403. Странно то, что это происходит предсказуемо, это означает, что одни и те же URL-адреса всегда работают, в то время как другие всегда терпят неудачу.

Код для создания скребка выглядит следующим образом:

    c := colly.NewCollector(
        colly.AllowedDomains("www.thewebsite.com"),
        colly.CacheDir("./thewebsite_cache"),
    )

Чтобы посетить указанный c urls, я просто называю следующее:

    c.Visit("https://www.thewebsite.com/somepath/itworks/")
    c.Visit("https://www.thewebsite.com/somepath/notworking/")

Мне было интересно, что может быть причиной такого поведения. Может ли это быть связано с мерами безопасности сайта? Или это хорошо известная проблема, которую можно как-то исправить?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...