Очистка веб-сайта для (действительно) имитации пользовательских запросов - PullRequest
0 голосов
/ 24 апреля 2019

Я пытаюсь отказаться от сайта. Я использую методы Goutte или CURL для других сайтов без проблем (на PHP). Но этот сайт сопротивляется; -)

Поскольку мои типичные методы не работали, я попытался перейти на вкладку «Сеть разработчиков» и скопировать команду CURL, сгенерированную по запросу (со всем, куки, все заголовки и т. Д.), Чтобы получить первые 5 страниц. результата поиска.

Я проанализировал запрос, и единственное, что изменилось - это параметр "page", ничего больше.

Вот проблема: если я запускаю 5 команд CURL в консоли (по одной каждые 10 секунд), на 3-м или 4-м веб-сайте откроется веб-страница, сообщающая, что «возможно, я робот» XD

Может быть, у них есть модуль веб-сервера или какой-то фрагмент кода, который блокирует слишком много запросов от IP-адреса или куки-файла браузера ... но дело в том, что если я сделаю это с моим браузером (Chrome или Firefox), и имитирую загрузить эти 5 страниц результатов (по одной каждые 10 секунд снова), я могу загрузить их без проблем.

Следовательно, вопрос в том ... что делают браузеры, которые я не могу воспроизвести в Goutte или даже в сгенерированной CURL команде?

Я хотел бы обсудить этот вопрос, а не фокусироваться на самом веб-сайте, потому что это не то, что я нашел только на этом сайте, это то, что я иногда видел на других сайтах.

1 Ответ

0 голосов
/ 24 апреля 2019

Я проанализировал запрос, и единственное, что изменилось, это параметр "page", ничего больше.

Можете ли вы поделиться с нами запросом?(При необходимости скрывая отправленные данные).

Без этого я предлагаю вам взглянуть на заголовок user_agent

...