wget не загружает HTML - PullRequest
       28

wget не загружает HTML

0 голосов
/ 28 сентября 2018

Я хотел загрузить простое HTML-содержимое этого сайта: https://www.forbes.com/sites/quora/2018/02/20/what-technology-stack-does-airbnb-use/#c69fd2a4025c

Я попробовал некоторые варианты, такие как wget -E -H -k -p.

Я заметил, что последняя часть URL меняется, когда я снова захожу на эту страницу.#c69fd2a4025c тогда становится #60dd96344025 например.Это причина, почему загрузка (которая работала много раз прежде) не работает в этот раз?

Я всегда получаю файл index.html, который не дает мне никакого контента.

1 Ответ

0 голосов
/ 28 сентября 2018

Идентификатор фрагмента после символа # вообще не передается на сервер.Javascript на странице имеет доступ к нему, поэтому он, вероятно, используется для отслеживания ссылок или метрик.

Я в Европе, поэтому сайт не предоставляет мне никакого контента по этому URL, толькостраница дверного проема с формой согласия.Возможно, вам удастся обойти такие проблемы, добавив файлы cookie, но я подозреваю, что в этом случае вы столкнетесь с ограничениями анти-блокировщика рекламы.

В общем случае захват контента с веб-сайтов возможен только с помощью инструментов.как wkhtmltopdf .В некоторых случаях для доступа к контенту может потребоваться даже автоматизация браузера.

...