В течение последнего месяца я использовал Scrapy для проекта по поиску в Интернете, который я начал.
Этот проект включает в себя полное содержание документа всех веб-страниц в одном доменном имени, которые доступны с домашней страницы. Написание этого с использованием Scrapy было довольно простым, но оно просто работает слишком медленно. В течение 2-3 дней я могу снять только 100 000 страниц.
Я понял, что мое первоначальное представление о том, что Scrapy не предназначен для этого типа сканирования, само по себе раскрывается.
Я начал фокусироваться на Nutch и Methabot в надежде на лучшую производительность. Единственные данные, которые мне нужно хранить во время сканирования, - это полное содержимое веб-страницы и, предпочтительно, все ссылки на странице (но даже это можно сделать при постобработке).
Я ищу сканер, который работает быстро и использует много параллельных запросов.