Question

Я хотел бы знать, какая библиотека eopen-source лучше всего подходит для сканирования и анализа веб-сайтов. В качестве примера можно привести агентства по поиску недвижимости, где я хотел бы получить информацию с ряда сайтов и объединить ее на своем собственном сайте. Для этого мне нужно сканировать сайты и извлекать объявления о недвижимости.

Eugene Morozov · Answer 1 · 17 апреля 2009

Я много чищу, используя отличные пакеты Python urllib2 , механизирую и BeautifulSoup .

Я также предлагаю взглянуть на lxml и Scrapy , хотя я не использую их в настоящее время (все еще планирую попробовать скрап).

Язык Perl также имеет большие возможности для очистки.

Bill Bell · Answer 2 · 01 июля 2009

Как и у господина Морозова, я тоже довольно много соскребаю, главным образом с рабочих мест. Мне никогда не приходилось прибегать к механизации, если это кому-нибудь поможет. Beautifulsoup в сочетании с urllib2 всегда были достаточны.

Я использовал lxml, и это здорово. Однако я полагаю, что он мог быть недоступен в приложениях Google несколько месяцев назад, когда я его пробовал, если вам это нужно.

Благодарю господина Морозова за упоминание Scrapy. Не слышал об этом.

kal3v · Answer 3 · 02 июня 2009

PHP / cURL - очень мощная комбинация, особенно если вы хотите использовать результаты непосредственно на веб-странице ...

Лучшая библиотека с открытым исходным кодом или приложение для сканирования и сбора данных веб-сайтов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучшая библиотека с открытым исходным кодом или приложение для сканирования и сбора данных веб-сайтов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы