Управление несколькими пауками с помощью скрапа - PullRequest
2 голосов
/ 04 января 2012

Я создаю агрегатор, и я начал с scrapy в качестве своего первоначального набора инструментов.Сначала у меня было всего несколько пауков, но по мере развития проекта мне кажется, что у меня могут быть сотни или даже тысяча разных пауков, поскольку я перебираю все больше и больше сайтов.Как лучше всего управлять этими пауками, поскольку некоторые веб-сайты нужно сканировать только один раз, а некоторые - на более регулярной основе?Является ли скрапирование хорошим инструментом при работе с таким количеством сайтов, или вы порекомендуете какую-нибудь другую технологию.

1 Ответ

0 голосов
/ 19 июля 2012

Вы можете проверить проект scrapely , то есть от создателей scrapy. Но, насколько мне известно, он не подходит для анализа сайтов, содержащих javascript (точнее, если проанализированные данные не генерируются javascript).

...