лучшая библиотека для веб-скребков - PullRequest
11 голосов
/ 16 сентября 2008

Я хотел бы получить данные с разных веб-страниц, таких как адреса ресторанов или даты различных событий для данного местоположения и так далее. Какую библиотеку лучше всего использовать для извлечения этих данных с заданного набора сайтов?

Ответы [ 13 ]

0 голосов
/ 16 сентября 2008

Я бы порекомендовал BeautifulSoup . Он не самый быстрый, но работает очень хорошо в отношении неэффективности (X) HTML-страниц, которые душит большинство анализаторов.

0 голосов
/ 16 сентября 2008

Вы можете использовать tidy , чтобы преобразовать его в XHTML, а затем использовать любые средства обработки XML, доступные на вашем языке.

0 голосов
/ 16 сентября 2008

Какой язык вы хотите использовать?

Скручивание с awk может быть всем, что вам нужно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...