Лучший способ (потоки / управляемый событиями) извлечения данных из многих веб-страниц - PullRequest
2 голосов
/ 29 апреля 2011

Я не хочу совершать Holywar по любой причине, просто чтобы получить совет и продолжить развитие.

Мне нужно написать что-то вроде crawler, он должен быть в состоянии извлечь некоторые данные из списка URL-адресов и проанализировать их.

Я собираюсь использовать Рубин ( Механизировать + Нокогири ) или Питон ( Механизировать + Beautifulsoup ).

Но для эффективности мне нужно выполнять параллельную обработку данных. Это большая проблема для меня сейчас.

Механизм (для обоих языков), насколько я знаю, не безопасен для потоков, также использование потоков не является "хорошей практикой", как говорят многие программисты. С другой стороны, я не имею ни малейшего представления о технике программирования, управляемой событиями, и о том, как ее можно использовать в моем случае.

Любая помощь приветствуется. Спасибо.

1 Ответ

2 голосов
/ 29 апреля 2011

Я пользуюсь Scrapy с большим успехом.Это довольно просто и позволяет использовать несколько сканеров одновременно.Вывод в json, xml и т. Д. Или напрямую в базу данных.Стоит посмотреть наверняка.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...