Как скачать все ссылки на запрос в Google? - PullRequest
0 голосов
/ 19 июня 2019

Я хотел бы загрузить первые десять страниц результатов запроса Google.

Я думал о том, чтобы сделать что-то вроде:

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains WHICH_DOMAIN_HERE \
     --no-parent \
        "SOME LINK HERE"

Однако у меня есть проблемывыбрав WHICH_DOMAIN_HERE: я хочу, чтобы это был только один домен (так как я ограничиваю поиск в Google с site: domain.com), но я не уверен, как указать и Google, и этот домен, поэтому он действительно загружает все.Для НЕКОТОРОЙ ССЫЛКИ ЗДЕСЬ, опять же, я не уверен, что поставить, это должен быть URL-адрес Google, я полагаю, что он выполняет запрос и выдает все это на одной странице.

Еще одно беспокойство, которое я имею, заключается в том, что Google будетзаблокируйте его, потому что это wget.

Просто примечание: то, что я хочу сделать, является абсолютно этичным, веб-сайт, с которого я хочу скачать ссылки, является веб-сайтом под контролем "моего" (учреждения), который был перенесен вновый веб-сайт, и я пытаюсь восстановить часть старого контента.

Следует также отметить, что глубина сканирования должна составлять 1 или 2 (в зависимости от того, как вы считаете): страница Google -> страницав запросе и все тут.

...