загрузка полной страницы с помощью scrapy - PullRequest
0 голосов
/ 18 октября 2018

Мне нужно сканировать веб-сайт.получить некоторые из его страниц и хранить их со всеми файлами CSS и изображениями.точно так же, как сохранение страниц в браузере.

я пробовал селен , но с селеном я могу сохранить только html не полную страницу, поэтому невозможно сделатьэто с селеном .

  1. Я хочу знать, могу ли я сделать это с помощью Scrapy?

  2. если с помощью Scrapy это невозможно, что еще я могу использовать?

1 Ответ

0 голосов
/ 18 октября 2018

Да - вы должны быть в состоянии сделать это в scrapy. Внутри тега <head> в html вы должны видеть ссылки на ссылки на JavaScript в тегах <script>, и вы должны видеть теги <link>, которые дают вам URLполучить файлы CSS

Как только вы получите URL-адрес, это просто сделать запрос в scrapy.Учебное пособие по Scrapy показывает это: https://doc.scrapy.org/en/latest/intro/tutorial.html#a-shortcut-for-creating-requests

Эти URL содержат необработанный CSS или Javascript, и вы можете либо скачать их отдельно, либо создать новый отдельный HTML-документ

Следует отметить, чтоТеги <script> могут содержать полный javascript, а не ссылку на URL.В этом случае вы получите данные, когда получите html часть

...