Как получить внешние файлы, если wget erobots = off не работает? - PullRequest
0 голосов
/ 16 июня 2020

Я хотел бы загрузить все PDF-файлы, ссылки на которые есть на веб-сайте, с помощью wget на Ma c OS (zsh).

Я пробовал:

wget -r -p -k --random-wait --limit-rate=50k -A .pdf -erobots=off https://unfccc.int/process-and-meetings/bodies/constituted-bodies/executive-committee-of-the-warsaw-international-mechanism-for-loss-and-damage-wim-excom/task-force-on-displacement/implementation-updates-task-force-on-displacement\#eq-1

и я также безрезультатно добавил следующие параметры:

  • --span-hosts
  • --no-check-certificate
  • --no-cookies
  • -H

Ошибка всегда одна и та же:

атрибут no-follow найден в файлеff ccc .int / process-and-sessions / Body / официальные органы / исполнительный комитет-варшавский-международный-механизм-для-потери-и-ущерба-вим-экском / целевая группа-по-перемещению / реализация-обновления-целевая группа-по-перемещению . Не буду переходить по ссылкам на этой странице

1 Ответ

0 голосов
/ 17 июля 2020

Сначала убедитесь, что у вас есть разрешение на сканирование страниц, я не собираюсь нести ответственность за плохие вещи, случившиеся с вами или кем-либо после обхода атрибута запрета следования роботов!

Уловки для игнорирования всех ограничений и быть плохим поисковым роботом, вам просто нужно включить:
-e robots=off в вашу команду.

Да, вы включили его в свои команды, но у вас есть несколько опечаток! Так же, как @ x00 говорит, что это должно быть -e robots=off вместо -erobots=off.

Я не знаю, почему @ x00 не отвечает на вопрос своим ответом: /

Примечание : Для x00, если вы хотите, чтобы я удалил свой ответ, потому что он почти аналогичен вашему комментарию, просто введите команду под моим ответом, и я удалю его для вас в любое время!

...