wget с относительным <base href> - PullRequest
0 голосов
/ 05 апреля 2019

Я хочу получить паук с веб-сайта. В конце цель состоит в том, чтобы иметь список ссылок / карта сайта.

Некоторые страницы имеют относительный <base>, например <base href="/">, вместо более распространенных абсолютных, таких как <base href="https://example.com/">.

Это верно в моем понимании (см. https://developer.mozilla.org/en-US/docs/Web/HTML/Element/base)

При рекурсивной загрузке wget мне не удается получить правильный URL в следующих примерах:

Страница http://example.com/a/b имеет <base href="/"> и ссылку <a href="c/d">. wget следует по этой ссылке на http://example.com/a/b/c/d вместо http://example.com/c/d.

Знаете ли вы, как я могу использовать относительные базовые URL с wget?

Это команда, которую я сейчас использую: wget --recursive --follow-tags=a,form --adjust-extension --level=inf --no-verbose --output-file="$urlsFilePath" $startUrl

...