Я хотел бы загрузить первые десять страниц результатов запроса Google.
Я думал о том, чтобы сделать что-то вроде:
wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains WHICH_DOMAIN_HERE \
--no-parent \
"SOME LINK HERE"
Однако у меня есть проблемывыбрав WHICH_DOMAIN_HERE: я хочу, чтобы это был только один домен (так как я ограничиваю поиск в Google с site: domain.com), но я не уверен, как указать и Google, и этот домен, поэтому он действительно загружает все.Для НЕКОТОРОЙ ССЫЛКИ ЗДЕСЬ, опять же, я не уверен, что поставить, это должен быть URL-адрес Google, я полагаю, что он выполняет запрос и выдает все это на одной странице.
Еще одно беспокойство, которое я имею, заключается в том, что Google будетзаблокируйте его, потому что это wget.
Просто примечание: то, что я хочу сделать, является абсолютно этичным, веб-сайт, с которого я хочу скачать ссылки, является веб-сайтом под контролем "моего" (учреждения), который был перенесен вновый веб-сайт, и я пытаюсь восстановить часть старого контента.
Следует также отметить, что глубина сканирования должна составлять 1 или 2 (в зависимости от того, как вы считаете): страница Google -> страницав запросе и все тут.