Question

Я не хочу совершать Holywar по любой причине, просто чтобы получить совет и продолжить развитие.

Мне нужно написать что-то вроде crawler, он должен быть в состоянии извлечь некоторые данные из списка URL-адресов и проанализировать их.

Я собираюсь использовать Рубин ( Механизировать + Нокогири ) или Питон ( Механизировать + Beautifulsoup ).

Но для эффективности мне нужно выполнять параллельную обработку данных. Это большая проблема для меня сейчас.

Механизм (для обоих языков), насколько я знаю, не безопасен для потоков, также использование потоков не является "хорошей практикой", как говорят многие программисты. С другой стороны, я не имею ни малейшего представления о технике программирования, управляемой событиями, и о том, как ее можно использовать в моем случае.

Любая помощь приветствуется. Спасибо.

acw · Answer 1 · 29 апреля 2011

Я пользуюсь Scrapy с большим успехом.Это довольно просто и позволяет использовать несколько сканеров одновременно.Вывод в json, xml и т. Д. Или напрямую в базу данных.Стоит посмотреть наверняка.

Лучший способ (потоки / управляемый событиями) извлечения данных из многих веб-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучший способ (потоки / управляемый событиями) извлечения данных из многих веб-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы