Следующие перенаправления с Wget - PullRequest
0 голосов
/ 28 февраля 2020

Я просто пытаюсь сканировать веб-сайты, чтобы искать контент на этих веб-сайтах, а также загружать файлы, и я использую wget для этого. Я знаю, что есть и другие платформы для этого, но они намного сложнее. Например, я просто хочу сканировать example.com и анализировать веб-сайт на предмет содержания.

Однако, когда я пытаюсь это сделать, некоторые URL имеют перенаправления 301, а wget, похоже, не в состоянии обращаться с этим соответствующим образом. Например:

wget -r https://example.com
--2020-02-27 21:23:50--  https://example.com/
Resolving example.com (example.com)... 104.31.69.85, 103.31.68.90
Connecting to example.com (example.com)|104.31.69.85|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://www.example.com/ [following]
--2020-02-27 21:23:51--  http://www.example.com/
Resolving www.example.com (www.example.com)... 103.31.68.90, 104.31.69.85
Connecting to www.example.com (www.example.com)|103.31.68.90|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.example.com/ [following]
--2020-02-27 21:23:51--  https://www.example.com/
Connecting to www.example.com (www.example.com)|103.31.68.90|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘example.com/index.html’

example.com/index.html                                 [ <=>                                                                                                       ] 129.68K  --.-KB/s    in 0.003s

2020-02-27 21:23:51 (45.9 MB/s) - ‘example.com/index.html’ saved [132797]

FINISHED --2020-02-27 21:23:51--
Total wall clock time: 0.3s
Downloaded: 1 files, 130K in 0.003s (45.9 MB/s)

В вышеприведенном случае example.com является просто заменой домена для целей примера. Кажется, он не следует от example.com до www.example.com, и я не хочу предполагать, что для каждого URL-адреса требуется www, потому что некоторые предпочитают и обрабатывают example.com, а не www.example.com

Есть ли способ выполнить sh после перенаправления с wget? Я вижу, что есть опция --max-redirects, но она, похоже, даже не следует за первым перенаправлением, поэтому не совсем уверен, как это исправить.

...