wget: как сканировать URL с символом магазина (#) - PullRequest
0 голосов
/ 27 октября 2011

Я обнаружил, что символ # в URL заставляет wget вести себя не так, как я ожидал. По сути, строка URL до # будет сохранена, а подстрока из # будет отброшена. Я полагаю, это потому, что # - это навигационная ссылка на странице? Но, очевидно, некоторые сайты используют его как "?" (начало параметров URL). Любое решение, чтобы обойти это с Wget? Я пытался завиться, но не повезло.

1 Ответ

2 голосов
/ 27 октября 2011

Не уверен, поможет ли это вам, но я предполагаю, что вы используете хештег (#) для ajax. В этом случае использование wget бессмысленно, поскольку он не сможет выполнить JavaScript. Так что если какой-либо контент, который обычно генерируется с помощью JavaScript, будет отсутствовать.

Если вы хотите загрузить содержимое веб-страницы с выполненным JavaScript, то вам нужен так называемый «браузер без головы». Проверьте это:

HtmlUnit

phantomjs

zombiejs

...