Ограничение загрузки текста в Pycurl - PullRequest
1 голос
/ 21 июня 2011

Я хочу скачать контент сайта, используя curl в python (pycurl). Но я не хочу, чтобы весь текст этих сайтов был какой-то частью сайта. Я хочу сократить время загрузки всего текста. Спасибо.

Ответы [ 2 ]

2 голосов
/ 21 июня 2011

Вы должны установить соответствующие заголовки в своем HTTP-запросе, см. этот вопрос о том, как это сделать с pycurl

ПРИМЕЧАНИЕ : Это только работает, если вы:

  1. знать смещение данных (в байтах), где в результате требуемые данные равны
  2. Веб-сервер поддерживает это
0 голосов
/ 21 июня 2011

Задержка при загрузке страницы, как правило, не связана с фактической загрузкой HTML - это часто довольно быстро, поскольку html - это не что иное, как текст Unicode. Если на странице не будет ОГРОМНОЕ фактического текста и разметки, вы не собираетесь много экономить. Кроме того, для того, чтобы получить какое-либо реальное содержимое страницы, вам все равно нужно загрузить все <head> ...

Лично я бы подошел к этому асинхронно. Twisted является одним из наиболее распространенных предложений для этого типа подхода.

...