Как разблокировать cURL на ANY_XYZ_WEBSITE.com? - PullRequest
0 голосов
/ 07 декабря 2011

У меня есть веб-сайт, который собирал данные с сайта «ANY_XYZ_WEBSITE.com».

Я использовал cURL для автоматического сбора данных, а затем модифицировал их для своих нужд.Но недавно "ANY_XYZ_WEBSITE.com" заблокировал все запросы cURL, и я не могу получить данные с их сайта.Есть ли другой способ получить данные?

Я использую PHP на IIS.

Ответы [ 3 ]

2 голосов
/ 07 декабря 2011

С большой вероятностью они блокируют вас на основе заголовка User-Agent.

Итак -

curl_setopt($ch, CURLOPT_USERAGENT, "SomethingElse/1.0");

до запуска запроса.

Если вы хотите маскироваться под настоящий браузер, http://www.user -agents.org / - это исчерпывающий ресурс различных пользовательских агентов, которые в настоящее время используются.

Но я поддерживаю мнение Полинома - возможно, причина в том, что сайт блокирует cURL, так что просто не злитесь, запрашивая у них данные.

0 голосов
/ 07 декабря 2011
  1. Никогда не нажимайте параллельно / более одного раза в одном и том же домене с интервалом три секунды минимум.Если вы можете подождать, попробуйте сохранить его как минимум десять секунд.

  2. Убедитесь, что ваш сканер прочитал и следовал файлу robot.txt перед сканированием домена.

p, s,: Ваш завиток не был заблокирован, вы были заблокированы.И это не проблема user_agent.

Что теперь делать?

Набраться терпения.Немного подождать.Обновите свой IP (если он динамический) и нажмите снова, но следуйте приведенным выше двум инструкциям.Если вы все еще заблокированы, вам нужно указать свой код и веб-сайт, о котором вы говорите, для юридического решения.

0 голосов
/ 07 декабря 2011

Вы можете попробовать изменить строку агента. CURLOPT_USERAGENT

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...