Я пытаюсь отказаться от сайта. Я использую методы Goutte или CURL для других сайтов без проблем (на PHP). Но этот сайт сопротивляется; -)
Поскольку мои типичные методы не работали, я попытался перейти на вкладку «Сеть разработчиков» и скопировать команду CURL, сгенерированную по запросу (со всем, куки, все заголовки и т. Д.), Чтобы получить первые 5 страниц. результата поиска.
Я проанализировал запрос, и единственное, что изменилось - это параметр "page", ничего больше.
Вот проблема: если я запускаю 5 команд CURL в консоли (по одной каждые 10 секунд), на 3-м или 4-м веб-сайте откроется веб-страница, сообщающая, что «возможно, я робот» XD
Может быть, у них есть модуль веб-сервера или какой-то фрагмент кода, который блокирует слишком много запросов от IP-адреса или куки-файла браузера ... но дело в том, что если я сделаю это с моим браузером (Chrome или Firefox), и имитирую загрузить эти 5 страниц результатов (по одной каждые 10 секунд снова), я могу загрузить их без проблем.
Следовательно, вопрос в том ... что делают браузеры, которые я не могу воспроизвести в Goutte или даже в сгенерированной CURL команде?
Я хотел бы обсудить этот вопрос, а не фокусироваться на самом веб-сайте, потому что это не то, что я нашел только на этом сайте, это то, что я иногда видел на других сайтах.