Wget перенаправляет, хотя роботы выключены - PullRequest
0 голосов
/ 15 декабря 2018

Я использую wget для загрузки данных для исследовательского проекта по крайне правому экстремизму.У меня есть список URL-адресов, но URL-адреса не загружаются.(Они работают в браузере.)

Все URL структурированы следующим образом:

https://www.forum.org/forum/printthread.php?t=1182735&pp=100

Но wget перенаправляет на первую страницу.Однако эти URL работают нормально с wget:

https://www.forum.org/forum/printthread.php?t=1182735

Кажется, проблема в последнем бите URL, &pp=100.

То, что я до сих пор пробовал:

  1. Избегайте символа & (\&) или замените его на % или %20.
  2. Выключите роботов.

Воткод wget, который я использую:

cat urls.txt | parallel -j 4 wget -e robots=off --no-check-certificate --auth-no-challenge --load-cookies cookies.txt --keep-session-cookies --random-wait --max-redirect=0 -P forumfiles -a wget_log_15dec2018

Редактировать: для чего бы то ни было, URL-адреса загружаются с HTTrack.Что делает меня еще более любопытным об этой проблеме wget.

Edit2: изменены исходные URL для анонимности.

Edit3: благодаря ответу ниже, работает следующий код:

cat urls.txt | parallel -j 4 wget --no-check-certificate --auth-no-challenge --load-cookies cookies.txt -nc --keep-session-cookies  -U "Mozilla/5.0" --random-wait --max-redirect=0 -P forumfiles -a wget_log_17dec2018

1 Ответ

0 голосов
/ 15 декабря 2018

Интересно, что приведенный вами пример веб-сайта возвращает результаты, основанные на строке user-agent.При использовании пользовательского агента по умолчанию сервер возвращает ответ 301 и просит wget загрузить только первую страницу.

Вы можете просто изменить строку пользовательского агента, чтобы она работала.например: --user-agent=mozilla

...