Question

Я хотел бы получить данные с разных веб-страниц, таких как адреса ресторанов или даты различных событий для данного местоположения и так далее. Какую библиотеку лучше всего использовать для извлечения этих данных с заданного набора сайтов?

klingon_programmer · Answer 1 · 16 сентября 2008

Я бы порекомендовал BeautifulSoup . Он не самый быстрый, но работает очень хорошо в отношении неэффективности (X) HTML-страниц, которые душит большинство анализаторов.

Jim · Answer 2 · 16 сентября 2008

Вы можете использовать tidy , чтобы преобразовать его в XHTML, а затем использовать любые средства обработки XML, доступные на вашем языке.

Silas · Answer 3 · 16 сентября 2008

Какой язык вы хотите использовать?

Скручивание с awk может быть всем, что вам нужно.

лучшая библиотека для веб-скребков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 13 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

лучшая библиотека для веб-скребков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 13 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы