альтернативный язык / библиотека для повышения скорости работы веб-скребка - PullRequest
0 голосов
/ 16 февраля 2011

Я написал скребок с использованием PHP / cURL, который прекрасно работает, но узкие места в cURL. AFAIK нет способа улучшить скорость cURL, но я читал другие языки / библиотеки, которые имеют более высокие скорости. У кого-нибудь есть опыт в этой области, какой процент улучшений можно ожидать? Вероятно, не стоит беспокоиться о чем-то меньшем, чем 25%.

Альтернативой могут быть параллельные задания cron?

1 Ответ

1 голос
/ 16 февраля 2011

Завиток на php очень быстрый. Вы должны использовать curl_multi для параллельного выполнения ваших запросов.

Если вы проведете свой скребок через fiddler , вы увидите, что 99% времени ожидает удаленного запроса.

Вам нужно будет поэкспериментировать, чтобы увидеть, сколько параллельных запросов даст вам наилучшую производительность. Это будет отличаться от сайта к сайту. Иногда сайты работают медленнее с несколькими потоками выполнения, если они плохо написаны (нет индексов на медленном сервере БД и т. Д.).

Я написал фреймворк для веб-скребков , который сделает многое для вас. Взгляни, укради кодез; изучить некоторые новые методы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...