Question

Я хочу скачать контент сайта, используя curl в python (pycurl). Но я не хочу, чтобы весь текст этих сайтов был какой-то частью сайта. Я хочу сократить время загрузки всего текста. Спасибо.

Kimvais · Answer 1 · 21 июня 2011

Вы должны установить соответствующие заголовки в своем HTTP-запросе, см. этот вопрос о том, как это сделать с pycurl

ПРИМЕЧАНИЕ : Это только работает, если вы:

знать смещение данных (в байтах), где в результате требуемые данные равны
Веб-сервер поддерживает это

cwallenpoole · Answer 2 · 21 июня 2011

Задержка при загрузке страницы, как правило, не связана с фактической загрузкой HTML - это часто довольно быстро, поскольку html - это не что иное, как текст Unicode. Если на странице не будет ОГРОМНОЕ фактического текста и разметки, вы не собираетесь много экономить. Кроме того, для того, чтобы получить какое-либо реальное содержимое страницы, вам все равно нужно загрузить все <head> ...

Лично я бы подошел к этому асинхронно. Twisted является одним из наиболее распространенных предложений для этого типа подхода.

Ограничение загрузки текста в Pycurl

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ограничение загрузки текста в Pycurl

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы