Python: получение загруженных ресурсов с веб-страницы (например, chrome инструменты разработчика) - PullRequest
0 голосов
/ 19 января 2020

Я пытаюсь создать небольшое приложение python, которое может обнаружить загруженные ресурсы (например, GIF-файлы, медиа-файлы и т. Д. c) при загрузке веб-страницы. В идеале это должно быть похоже на компонент Chrome Dev-tools в веб-браузере Google Chrome, где можно щелкнуть вкладку «Сеть», чтобы получить эти данные и ресурсы, которые загружаются динамически.

Я пробовал чтобы узнать, смогу ли я сделать это с помощью Python Selenium, однако я не верю, что это заходит слишком глубоко, если посмотреть, какие ресурсы загружаются динамически.

Кто-нибудь может подтвердить, можно ли это сделать в Python? Приветствуется любая помощь / совет.

спасибо.

1 Ответ

0 голосов
/ 19 января 2020

Что ж, для того, чтобы делать то, что вы хотите, вам, в основном, нужно написать функции, которые извлекают то, что должно быть визуализировано (для рендеринга, оно должно быть извлечено, конечно) из ответа сервера вам (в случае веб-сайтов, все html содержимое + заголовки ответа).

Например, вам нужно извлечь все ссылки на изображения из html, используя регулярное выражение, как показано ниже:

/(alt|title|src)=("[^"]*")/gi;

(Ссылка . SO )

Вам также необходимо извлечь js файлов, которые должны быть загружены для правильной работы файла html.

Вы можете использовать различные инструменты для извлечения файлов такого типа.

Кто-нибудь может подтвердить, можно ли это сделать в Python?

Да

Edit

Я думаю, лучше упомянуть, что вы должны также уделить особое внимание Заголовкам. Печенье, безусловно, самые важные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...