Я использую wget для загрузки данных для исследовательского проекта по крайне правому экстремизму.У меня есть список URL-адресов, но URL-адреса не загружаются.(Они работают в браузере.)
Все URL структурированы следующим образом:
https://www.forum.org/forum/printthread.php?t=1182735&pp=100
Но wget перенаправляет на первую страницу.Однако эти URL работают нормально с wget:
https://www.forum.org/forum/printthread.php?t=1182735
Кажется, проблема в последнем бите URL, &pp=100
.
То, что я до сих пор пробовал:
- Избегайте символа
&
(\&
) или замените его на %
или %20
. - Выключите роботов.
Воткод wget, который я использую:
cat urls.txt | parallel -j 4 wget -e robots=off --no-check-certificate --auth-no-challenge --load-cookies cookies.txt --keep-session-cookies --random-wait --max-redirect=0 -P forumfiles -a wget_log_15dec2018
Редактировать: для чего бы то ни было, URL-адреса загружаются с HTTrack.Что делает меня еще более любопытным об этой проблеме wget.
Edit2: изменены исходные URL для анонимности.
Edit3: благодаря ответу ниже, работает следующий код:
cat urls.txt | parallel -j 4 wget --no-check-certificate --auth-no-challenge --load-cookies cookies.txt -nc --keep-session-cookies -U "Mozilla/5.0" --random-wait --max-redirect=0 -P forumfiles -a wget_log_17dec2018