Я хочу получить паук с веб-сайта. В конце цель состоит в том, чтобы иметь список ссылок / карта сайта.
Некоторые страницы имеют относительный <base>
, например <base href="/">
, вместо более распространенных абсолютных, таких как <base href="https://example.com/">
.
Это верно в моем понимании (см. https://developer.mozilla.org/en-US/docs/Web/HTML/Element/base)
При рекурсивной загрузке wget мне не удается получить правильный URL в следующих примерах:
Страница http://example.com/a/b имеет <base href="/">
и ссылку <a href="c/d">
. wget следует по этой ссылке на http://example.com/a/b/c/d
вместо http://example.com/c/d
.
Знаете ли вы, как я могу использовать относительные базовые URL с wget?
Это команда, которую я сейчас использую:
wget --recursive --follow-tags=a,form --adjust-extension --level=inf --no-verbose --output-file="$urlsFilePath" $startUrl