Лучшая библиотека с открытым исходным кодом или приложение для сканирования и сбора данных веб-сайтов - PullRequest
3 голосов
/ 17 апреля 2009

Я хотел бы знать, какая библиотека eopen-source лучше всего подходит для сканирования и анализа веб-сайтов. В качестве примера можно привести агентства по поиску недвижимости, где я хотел бы получить информацию с ряда сайтов и объединить ее на своем собственном сайте. Для этого мне нужно сканировать сайты и извлекать объявления о недвижимости.

Ответы [ 4 ]

8 голосов
/ 17 апреля 2009

Я много чищу, используя отличные пакеты Python urllib2 , механизирую и BeautifulSoup .

Я также предлагаю взглянуть на lxml и Scrapy , хотя я не использую их в настоящее время (все еще планирую попробовать скрап).

Язык Perl также имеет большие возможности для очистки.

1 голос
/ 01 июля 2009

Как и у господина Морозова, я тоже довольно много соскребаю, главным образом с рабочих мест. Мне никогда не приходилось прибегать к механизации, если это кому-нибудь поможет. Beautifulsoup в сочетании с urllib2 всегда были достаточны.

Я использовал lxml, и это здорово. Однако я полагаю, что он мог быть недоступен в приложениях Google несколько месяцев назад, когда я его пробовал, если вам это нужно.

Благодарю господина Морозова за упоминание Scrapy. Не слышал об этом.

1 голос
/ 02 июня 2009

PHP / cURL - очень мощная комбинация, особенно если вы хотите использовать результаты непосредственно на веб-странице ...

0 голосов
/ 16 октября 2009

Помимо Scrapy, вы также должны посмотреть на Parselets

...