Установка таймаутов для разбора веб-страниц с использованием Python lxml - PullRequest
3 голосов
/ 05 мая 2010

Я использую библиотеку Python lxml для анализа html-страниц:

import lxml.html

# this might run indefinitely
page = lxml.html.parse('http://stackoverflow.com/')

Есть ли способ установить таймаут для разбора?

1 Ответ

1 голос
/ 05 мая 2010

Похоже, что используется urllib.urlopen в качестве средства открывания, но самый простой способ сделать это - просто изменить время ожидания по умолчанию для обработчика сокета.

import socket
timeout = 10
socket.setdefaulttimeout(timeout)

Конечно, это быстрое и грязное решение.

...