Я просто пытаюсь сканировать веб-сайты, чтобы искать контент на этих веб-сайтах, а также загружать файлы, и я использую wget
для этого. Я знаю, что есть и другие платформы для этого, но они намного сложнее. Например, я просто хочу сканировать example.com
и анализировать веб-сайт на предмет содержания.
Однако, когда я пытаюсь это сделать, некоторые URL имеют перенаправления 301, а wget
, похоже, не в состоянии обращаться с этим соответствующим образом. Например:
wget -r https://example.com
--2020-02-27 21:23:50-- https://example.com/
Resolving example.com (example.com)... 104.31.69.85, 103.31.68.90
Connecting to example.com (example.com)|104.31.69.85|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://www.example.com/ [following]
--2020-02-27 21:23:51-- http://www.example.com/
Resolving www.example.com (www.example.com)... 103.31.68.90, 104.31.69.85
Connecting to www.example.com (www.example.com)|103.31.68.90|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.example.com/ [following]
--2020-02-27 21:23:51-- https://www.example.com/
Connecting to www.example.com (www.example.com)|103.31.68.90|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘example.com/index.html’
example.com/index.html [ <=> ] 129.68K --.-KB/s in 0.003s
2020-02-27 21:23:51 (45.9 MB/s) - ‘example.com/index.html’ saved [132797]
FINISHED --2020-02-27 21:23:51--
Total wall clock time: 0.3s
Downloaded: 1 files, 130K in 0.003s (45.9 MB/s)
В вышеприведенном случае example.com
является просто заменой домена для целей примера. Кажется, он не следует от example.com
до www.example.com
, и я не хочу предполагать, что для каждого URL-адреса требуется www
, потому что некоторые предпочитают и обрабатывают example.com
, а не www.example.com
Есть ли способ выполнить sh после перенаправления с wget
? Я вижу, что есть опция --max-redirects
, но она, похоже, даже не следует за первым перенаправлением, поэтому не совсем уверен, как это исправить.