Question

Я хочу иметь возможность загружать страницу и все связанные с ней ресурсы (изображения, таблицы стилей, файлы сценариев и т. Д.), Используя Python. Я (в некоторой степени) знаком с urllib2 и знаю, как загружать отдельные URL-адреса, но прежде чем я начну взламывать BeautifulSoup + urllib2, я хотел убедиться, что Python-эквивалента, эквивалентного "wget - page-Requisites *, не было 1001 *http://www.google.com".

В частности, я заинтересован в сборе статистической информации о том, сколько времени занимает загрузка всей веб-страницы, включая все ресурсы.

Спасибо Mark

jamshid · Answer 1 · 15 мая 2010

websucker.py не импортирует ссылки CSS. HTTrack.com - это не python, это C / C ++, но это хорошая и удобная утилита для загрузки сайта для просмотра в автономном режиме.

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker не анализирует css "@import url"

Guido> Это пример кода, который не поддерживается и не поддерживается. Не стесняйтесь отправить патч!

Загрузка веб-страницы и всех ее файлов ресурсов в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Загрузка веб-страницы и всех ее файлов ресурсов в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы